Red de conocimiento informático - Conocimiento informático - ¿Cómo evitar que un sitio web sea indexado por los motores de búsqueda?

¿Cómo evitar que un sitio web sea indexado por los motores de búsqueda?

Sube robot.txt al directorio raíz de tu sitio web.

Robots.txt es un archivo de texto sin formato. En este archivo, los administradores del sitio web pueden declarar partes del sitio web a las que no quieren que accedan los robots o especificar que los motores de búsqueda solo incluyan contenido específico.

Cuando un robot de búsqueda (algunos llamados araña de búsqueda) visita un sitio, primero comprobará si el archivo robots.txt existe en el directorio raíz del sitio. Si existe, el robot de búsqueda seguirá las instrucciones. en el contenido del archivo para determinar el alcance del acceso; si el archivo no existe, el robot de búsqueda rastreará el enlace.

Además, el archivo robots.txt debe colocarse en el directorio raíz de un sitio y el nombre del archivo debe estar todo en minúsculas.

Sintaxis de escritura de robots.txt

Primero, veamos un ejemplo de robots.txt: /robots.txt

Visite la dirección específica anterior, podemos ver El contenido específico de robots.txt es el siguiente:

# Archivo Robots.txt de

# Todos los robots rastrearán el dominio

Agente de usuario: *

No permitir:

El texto anterior significa que todos los robots de búsqueda pueden acceder a todos los archivos del sitio www.seovip.cn.

Análisis de sintaxis específica: el texto que sigue a # es información explicativa; Agente de usuario: seguido del nombre del robot de búsqueda; si va seguido de *, generalmente se refiere a todos los robots de búsqueda. No permitir: seguido de no; acceder al directorio de archivos permitido.

A continuación, enumeraré algunos usos específicos de robots.txt:

Permitir que todos los robots accedan

Agente de usuario: *

No permitir:

O puede crear un archivo vacío "/robots.txt"

Prohibir que todos los motores de búsqueda accedan a cualquier parte del sitio web

Usuario -agent : *

No permitir: /

Prohibir que todos los motores de búsqueda accedan a varias partes del sitio web (directorios 01, 02, 03 en el siguiente ejemplo)

Agente-usuario: *

No permitir: /01/

No permitir: /02/

No permitir: /03/

No permitir un acceso a un motor de búsqueda (BadBot en el siguiente ejemplo)

Agente de usuario: BadBot

No permitir: /

Permitir solo el acceso a un determinado motor de búsqueda (ejemplo a continuación) Rastreador)

Agente de usuario: Rastreador

No permitir:

Agente de usuario: *

No permitir: /