¿Qué significa el archivo robots? ¿Qué papel puede desempeñar en la optimización del sitio web?
Qué es Rbots.txt:
Robots.txt es el primer archivo que miran los motores de búsqueda cuando visitan un sitio web. El archivo Robots.txt le dice a la araña qué archivos del servidor se pueden ver.
Cuando una araña de búsqueda visita un sitio, primero comprobará si el archivo robots.txt existe en el directorio raíz del sitio. Si existe, el robot de búsqueda determinará el alcance del acceso en función del contenido del mismo. el archivo; si este archivo no existe, todas las arañas de búsqueda podrán acceder a todas las páginas del sitio web que no estén protegidas con contraseña.
Robots.txt debe colocarse en el directorio raíz de un sitio y el nombre del archivo debe estar todo en minúsculas.
Sintaxis: El archivo robots.txt más simple utiliza dos reglas:
Agente-Usuario: robots a los que se aplican las siguientes reglas
Disallow: para ser bloqueado Web página
Descarga el archivo robots.txt
Hay varias formas comunes de escribir robots.txt;
Todos abiertos o todos prohibidos
{
User-agent: * //Indica que todos los motores de búsqueda del sitio están abiertos;
Allow: //Permitir que se indexen todos los directorios;
User -agent: * //Indica que todos los motores de búsqueda dentro del sitio están abiertos;
Disallow: //Prohíbe la indexación de todos los directorios;
User-agent: * / /Indica que todos los motores de búsqueda dentro del sitio están abiertos; Abierto a todos los motores de búsqueda;
Disallow: //Permitir que se indexen todos los directorios;
}
Aquí, puede colocar [Mapa del sitio] También se agrega para guiar a los motores de búsqueda a rastrear el contenido en el mapa del sitio.
Mapa del sitio:
Uso de Robots.txt:
Ejemplo 1. No permitir que todos los motores de búsqueda accedan a cualquier parte del sitio web
No permitir : /
Ejemplo 2. Permitir el acceso de todos los robots
(O puede crear un archivo vacío "/robots.txt")
Agente de usuario: *
No permitir:
o
Agente de usuario: *
Permitir: /
Ejemplo 3. No permita que Baiduspider acceda únicamente a su sitio web
Agente de usuario: Baiduspider
No permita: /
Ejemplo 4. Permita que Baiduspider acceda únicamente a su sitio web
Agente de usuario: Baiduspider
No permitir:
Agente de usuario: *
No permitir: /
Ejemplo 5. No permitir spiders Acceder a directorios específicos
En este ejemplo, el sitio web tiene tres directorios que restringen el acceso al motor de búsqueda, es decir, el robot no accederá a estos tres directorios. Cabe señalar que cada directorio debe declararse por separado y no puede escribirse como "Disallow: /cgi-bin/ /tmp/".
Agente de usuario: *
No permitir: /cgi-bin/
No permitir: /tmp/
No permitir: /~joe /
Ejemplo 6. Para evitar que Googlebot rastree todos los archivos de un tipo de archivo específico (por ejemplo, .gif)
Agente de usuario: Googlebo
tDisallow : / *.gif$
Ejemplo 7. Para evitar que Googlebot rastree todas las URL que contengan ? (específicamente, las URL que comienzan con su nombre de dominio, seguidas de cualquier cadena, luego un signo de interrogación y luego alguna). string)
Agente de usuario: Googlebot
No permitir: /*? Más información talentosa: