Red de conocimiento informático - Material del sitio web - Cómo lidiar con los rastreadores web

Cómo lidiar con los rastreadores web

Después de crear el sitio web, por supuesto, esperamos que cuantas más páginas web sean indexadas por los motores de búsqueda, mejor, pero a veces nos encontraremos con situaciones en las que el sitio web no necesita ser indexado por la búsqueda. motores. Por ejemplo, si queremos habilitar un nuevo nombre de dominio como sitio web espejo, principalmente para promoción de PPC, debemos intentar impedir que las arañas de los motores de búsqueda rastreen e indexen todas las páginas web de nuestro sitio web espejo. Porque si el sitio web espejo también se incluye en el motor de búsqueda, es probable que afecte el peso del sitio web oficial en el motor de búsqueda. A continuación se enumeran varias ideas para impedir que los rastreadores (arañas) de los principales motores de búsqueda rastreen, indexen o incluyan páginas web. Nota: está bloqueando todo el sitio y bloqueando todos los rastreadores (arañas) de los principales motores de búsqueda tanto como sea posible. 1. Bloqueo a través del archivo robots.txt Se puede decir que el archivo robots.txt es el canal más importante (puede establecer un diálogo directo con los motores de búsqueda. Se dan las siguientes sugerencias: User-agent: BaiduspiderDisallow:/User-agent: GooglebotDisallow:/ Agente de usuario:Googlebot-MobileDisallow:/Agente de usuario:Googlebot-ImageDisallow:/Agente de usuario:Mediapartners-GoogleDisallow:/Agente de usuario:Adsbot-GoogleDisallow:/Agente de usuario:Feedfetcher-GoogleDisallow:/Usuario- agente:Yahoo !SlurpDisallow:/Agente-usuario:Yahoo!SlurpChinaDisallow:/Agente-usuario:Yahoo!-AdCrawlerDisallow:/Agente-usuario:YoudaoBotDisallow:/Agente-usuario:SosospiderDisallow:/Agente-usuario:SogousspiderDisallow:/Agente-usuario :SogouwebspiderDisallow: /User-agent:MSNBotDisallow:/User-agent:ia_archiverDisallow:/User-agent:TomatoBotDisallow:/User-agent:*Disallow:/2 Agregue las siguientes declaraciones a todos los archivos de encabezado de página web a través del blindaje de metaetiquetas: 3. Filtre directamente los segmentos de IP de arañas/robots a través de la configuración del archivo de configuración del servidor (como: Linux/nginx). Pequeña nota: El primer y segundo movimiento sólo son efectivos para los "caballeros". Para prevenir a los "villanos", es necesario utilizar el tercer movimiento ("caballeros" y "villanos" generalmente se refieren a los que cumplen y a los que no cumplen). con el acuerdo robots.txt respectivamente. spider/robots), por lo que después de que el sitio web esté en línea, es necesario rastrear y analizar continuamente los registros, filtrar las IP de estos badbots y luego bloquearlos.