Red de conocimiento informático - Material del sitio web - Cómo prohibir que las arañas incluyan información del sitio web al crear un sitio web en línea Cómo prohibir a las arañas que incluyan información del sitio web al crear un sitio web en línea

Cómo prohibir que las arañas incluyan información del sitio web al crear un sitio web en línea Cómo prohibir a las arañas que incluyan información del sitio web al crear un sitio web en línea

¿Cómo configuro un sitio web para que los rastreadores no puedan indexarlo? Una vez creado el sitio web, por supuesto, esperamos que los motores de búsqueda indexen tantas páginas como sea posible, pero a veces nos encontraremos con situaciones en las que los motores de búsqueda no necesitan indexar el sitio web.

Por ejemplo, si habilitamos un nuevo nombre de dominio como sitio web espejo, que se utiliza principalmente para la promoción de PPC, debemos encontrar una manera de evitar que las arañas de los motores de búsqueda rastreen e indexen todas las páginas de nuestro sitio web espejo. . Porque si el sitio web espejo también se incluye en el motor de búsqueda, es probable que afecte el peso del sitio web oficial en el motor de búsqueda.

Las siguientes son varias ideas para evitar que los rastreadores (arañas) de los principales motores de búsqueda rastreen, indexen o incluyan páginas web. Nota: Todo el sitio web está bloqueado y todos los rastreadores (arañas) de los principales motores de búsqueda están bloqueados tanto como sea posible.

1. Bloqueado por el archivo robots.txt

Se puede decir que el archivo robots.txt es el canal más importante (puede establecer un diálogo directo con el buscador) Se dan las siguientes sugerencias:

p>

Agente de usuario: Baiduspider

No permitido: /

Agente de usuario: Googlebot

No permitido: /

Agente de usuario: Teléfono Android de Google

No permitido: /

Agente de usuario: Imagen de Google Android

No permitido: /

Agente-usuario: Mediapartners-Google

No permitido: /

Agente-usuario: Adsbot-Google

No permitido: /

Agente de usuario: Feedfetcher- Google

No permitido: /

Agente de usuario: Yahoo! Comer en voz alta

No permitido: /

Agente de usuario: Yahoo! Sip China

No permitido: /

Agente de usuario: Yahoo! -Rastreador publicitario

No permitido: /

Agente de usuario: Youdao robot

No permitido: /

Agente de usuario: Sosospider

No permitido: /

Agente de usuario: Sosospider

p>

No permitido: /

Agente de usuario: Sogou Spider

No permitido: /

Agente de usuario: Sogou Spider

No permitido: /

Agente de usuario: MSNBot

No permitido: /

Agente de usuario: ia_archiver

No permitido: /

Agente de usuario: Tomatobot

No permitido: /

Agente de usuario: *

No permitido: /

2. Bloquear por metaetiquetas

Agregue las siguientes declaraciones a todos los archivos de encabezado de la página web:

amp;ltmetaname=amp;quotrobot"content=amp;quotnoindex, nofollowamp;quotamp. ;gt

3. Establecer a través del archivo de configuración del servidor (como Linux/nginx)

Filtrar directamente el segmento IP de la araña/robot.

Nota: La primera y segunda medida sólo son efectivas para "caballeros", y la tercera medida se utiliza para prevenir "villanos" ("caballeros" y "villanos" generalmente se refieren a cumplir con el protocolo robots.txt araña/robot). Por lo tanto, una vez que el sitio web está en línea, es necesario rastrear y analizar los registros, filtrar las direcciones IP de estos badbots y luego bloquearlos.

¿Qué páginas web no pueden ser rastreadas por los rastreadores?

Los rastreadores no rastrearán sitios web que hayan sido indexados por motores, porque han sido incluidos en la lista negra. También hay un sitio web que no ha sido descubierto por las arañas y no ha sido incluido, y no se puede rastrear p>

¿Cómo atraer a las arañas de los motores de búsqueda para que rastreen nuestro sitio web_?

El objetivo de la optimización de un sitio web es tener un buen ranking en los buscadores y con ello obtener una gran cantidad de tráfico. Si desea obtener una buena clasificación en los motores de búsqueda, debe mejorar la velocidad de rastreo de su sitio web por parte de las arañas de los motores de búsqueda. Si los motores de búsqueda rastrean el sitio web con menos frecuencia, afectará directamente la clasificación, el tráfico y la clasificación del sitio web.

Entonces, ¿cómo mejorar la velocidad de rastreo del sitio web por parte de las arañas de los motores de búsqueda?

1. Enviar activamente enlaces a sitios web

Cuando las páginas del sitio web se actualizan o algunas páginas no están indexadas por los motores de búsqueda, puede organizar los enlaces y enviarlos a los motores de búsqueda. ​​aumentar la velocidad a la que las arañas de los motores de búsqueda rastrean las páginas web.

2. Contenido de alta calidad

A las arañas de los motores de búsqueda les gusta mucho el contenido de alta calidad en los sitios web. Si el sitio web no actualiza el contenido de alta calidad durante mucho tiempo, los motores de búsqueda. Las arañas reducirán gradualmente su interés en el sitio web y la tasa de rastreo, lo que afectará la clasificación y el tráfico del sitio web. Por lo tanto, el sitio web debe actualizar el contenido de alta calidad de forma regular y cuantitativa, para atraer a los motores de búsqueda para que rastreen, mejorando así la clasificación y el tráfico.

3. Mapa del sitio

Un mapa del sitio puede mostrar claramente todos los enlaces del sitio web, y las arañas de los motores de búsqueda pueden seguir los enlaces del mapa del sitio para acceder a cada página. mejorar la clasificación del sitio web.

4. Construcción de enlaces externos

Los enlaces externos de alta calidad juegan un papel importante en la mejora de la clasificación del sitio web. Las arañas de los motores de búsqueda seguirán los enlaces e ingresarán al sitio web, mejorando así la capacidad de hacerlo. rastrear la velocidad del sitio web. Si la calidad de los enlaces externos es demasiado mala, también afectará la velocidad de rastreo de las arañas de los motores de búsqueda.

En resumen, siempre que se mejore la velocidad de rastreo del sitio web por parte de las arañas de los motores de búsqueda, el sitio web puede obtener una buena clasificación en el motor de búsqueda y así obtener una gran cantidad de tráfico.