Red de conocimiento informático - Conocimiento informático - ¿Cómo evitar que los rastreadores indexen el sitio web?

¿Cómo evitar que los rastreadores indexen el sitio web?

Al crear un sitio web, ciertamente esperamos que los motores de búsqueda indexen la página web tanto como sea posible, pero a veces nos encontraremos con situaciones en las que el sitio web no necesita ser indexado por los motores de búsqueda.

Por ejemplo, si desea habilitar un nuevo nombre de dominio para un sitio espejo que se utiliza principalmente para la promoción de PPC, entonces necesita encontrar una manera de evitar que las arañas de los motores de búsqueda rastreen e indexen todas las páginas de nuestro sitio espejo. Porque si el sitio web espejo también se incluye en el motor de búsqueda, es probable que afecte el peso del sitio web oficial en el motor de búsqueda.

Las siguientes son varias ideas para impedir que los rastreadores (arañas) de los principales motores de búsqueda rastreen, indexen o incluyan páginas web. Nota: Este es un bloqueo para todo el sitio y bloquea todos los rastreadores (arañas) de los principales motores de búsqueda tanto como sea posible.

1. Bloquear a través del archivo robots.txt

Se puede decir que el archivo robots.txt es el canal más importante (para establecer un diálogo directo con los buscadores). se dan las siguientes sugerencias:

Agente de usuario: Baiduspider

No permitir:

Agente de usuario: Googlebot

No permitir: /

Agente de usuario: Googlebot-Mobile

No permitir: /

Agente de usuario: Googlebot-Image

No permitir: /

Agente de usuario:Mediapartners-Google

No permitir:/

Agente de usuario:Adsbot-Google

No permitir:/