Qué establece el código robots.txt y cómo configurarlo
Robots.txt debe colocarse en el directorio raíz de un sitio y el nombre del archivo debe estar todo en minúsculas. Formato del archivo robots.txt
Agente de usuario: define el tipo de motor de búsqueda
Disallow: define direcciones que tienen prohibido ser incluidas por los motores de búsqueda
Permitir: Definir búsquedas permitidas Las direcciones incluidas por el motor
Nuestros tipos de motores de búsqueda más utilizados son: (User-agent distingue entre mayúsculas y minúsculas)
Araña de Google: Googlebot
Araña Baidu: Baiduspider
araña yahoo: Yahoo!slurp
araña alexa: ia_archiver
araña bing: MSNbot
altavista araña: scooter
lycos spider: lycos_spider_(t-rex)
alltheweb spider: fast-webcrawler
inktomi spider: slurp
Soso spider: Sosospider
Google Adsense Spider: Mediapartners-Google
Youdao Spider: YoudaoBot
Cómo escribir el archivo robots.txt
Agente de usuario: * aquí * Representa todos los tipos de motores de búsqueda, * es un carácter comodín
No permitir: /admin/ La definición aquí es prohibir el rastreo de directorios en el directorio de administración
Disallow: /require/ La definición aquí es No permitir el rastreo de directorios bajo el directorio require
Disallow: /ABC/ La definición aquí es prohibir el rastreo de directorios bajo el directorio ABC
No permitir : /cgi-bin/*.htm acceso prohibido Todas las URL con el sufijo ".htm" en el directorio /cgi-bin/ (incluidos los subdirectorios).
Disallow: /*?* No permite el acceso a todas las páginas dinámicas del sitio web
Disallow: /jpg$ No permite el rastreo de todas las imágenes en formato .jpg de la página web
Disallow:/ab/adc.html prohíbe rastrear el archivo adc.html en la carpeta ab.
Permitir: /cgi-bin/ La definición aquí es permitir el rastreo de directorios bajo el directorio cgi-bin
Permitir: /tmp La definición aquí es permitir el rastreo de todo el directorio directorio de tmp
Permitir: /cgi-bin/ p>
Permitir: .htm$ solo permite el acceso a URL con el sufijo ".htm".
Permitir: .gif$ permite rastrear páginas web e imágenes en formato gif
Ejemplos de uso de archivos robots.txt
Ejemplo 1. Prohibir el acceso a todos los motores de búsqueda el sitio web Cualquier parte
Usuario-agente: *
No permitir: /
Análisis de ejemplo: archivo Robots.txt de Taobao
Usuario- agente: Baiduspider
No permitir: /
Agente de usuario: baiduspider
No permitir: /
Obviamente Taobao no permite robots de Baidu Visita todos sus catálogos en su sitio web.
Ejemplo 2. Permitir el acceso de todos los robots (o puede crear un archivo vacío "/robots.txt")
Agente de usuario: *
Permitir:
Ejemplo 3. No permitir el acceso a un motor de búsqueda
Agente de usuario: BadBot
No permitir: /
Ejemplo 4. Permitir el acceso a un determinado motor de búsqueda
User-agent: Baiduspider
allow: /
Ejemplo 5. Un ejemplo sencillo
En En este ejemplo, el sitio web tiene tres directorios que restringen el acceso a los motores de búsqueda, es decir, los motores de búsqueda no accederán a estos tres directorios.
Cabe señalar que cada directorio debe declararse por separado, en lugar de escribirse como "Disallow: /cgi-bin/ /tmp/".
Agente de usuario: El * después tiene un significado especial y representa "cualquier robot", por lo que no puede haber "Disallow: /tmp/*" o "Disallow: *.gif" en este archivo. aparece.
Agente de usuario: *
No permitir: /cgi-bin/
No permitir: /tmp/
No permitir: /~joe /
Parámetros especiales del robot:
Permitir el robot de Google:
Si desea bloquear el acceso de todos los robots excepto el robot de Google a su página web, puede utilizar la siguiente sintaxis :
Agente de usuario:
No permitir: /
Agente de usuario: Googlebot
No permitir:
El robot de Google sigue líneas que apuntan a sí mismo, no líneas que apuntan a todos los robots.
Extensión "Permitir":
Googlebot reconoce la extensión estándar de robots.txt llamada "Permitir". Es posible que los robots de otros motores de búsqueda no reconozcan esta extensión, así que utilice otros motores de búsqueda que le interesen para buscarla. La línea "Permitir" funciona exactamente igual que la línea "No permitir". Simplemente enumere los directorios o páginas que desea permitir.
También puedes utilizar "No permitir" y "Permitir" al mismo tiempo. Por ejemplo, para bloquear todas las páginas menos una en un subdirectorio, utilice la siguiente entrada:
Agente de usuario: Googlebot
No permitir: /carpeta1/
Permitir : /carpeta1/miarchivo.html
Estas entradas interceptarán todas las páginas del directorio carpeta1 excepto miarchivo.html.
Si desea bloquear el robot de Google y permitir otro robot de Google (como Googlebot-Mobile), utilice la regla "Permitir" para permitir el acceso a ese robot. Por ejemplo:
Agente de usuario: Googlebot
No permitir: /
Agente de usuario: Googlebot-Mobile
Permitir: p >
Utilice el signo * para hacer coincidir una secuencia de caracteres:
Puede utilizar un asterisco (*) para hacer coincidir una secuencia de caracteres.
Por ejemplo, para bloquear el acceso a todos los subdirectorios que comiencen con privado, utilice la siguiente entrada:
Agente de usuario: Googlebot
No permitir: /privado*/
Para bloquear el acceso a todas las URL que contienen un signo de interrogación (?), utilice la siguiente entrada:
Agente de usuario: *
No permitir: /*?*
Utilice $ para hacer coincidir el carácter de cierre de una URL
Puede utilizar el carácter $ para especificar una coincidencia con el carácter de cierre de una URL. Por ejemplo, para bloquear las URL que terminan en .asp, utilice la siguiente entrada:
Agente de usuario: Googlebot
No permitir: /*.asp$
Tú Puede utilizar este patrón que coincida con la directiva Permitir. Por ejemplo, si ? representa un ID de sesión, puede excluir todas las URL que contengan ese ID para garantizar que el robot de Google no rastree páginas duplicadas. Sin embargo, las URL que terminan en ? pueden ser la versión de la página que desea incluir. En este caso, se pueden realizar las siguientes configuraciones en el archivo robots.txt:
Agente de usuario: *
Permitir: /*?$
No permitir : / *?
No permitir: / *?
Una línea bloqueará las URL que contengan ? (específicamente, bloqueará todas las URL que comiencen con su nombre de dominio, seguidas de cualquier cadena, y luego hay un signo de interrogación (?), seguido de la URL de cualquier cadena).
Permitir: una línea de /*?$ permitirá cualquier URL que termine en ? (específicamente, permitirá cualquier URL que comience con su nombre de dominio, seguida de cualquier cadena y luego un signo de interrogación (? ), una URL sin caracteres después del signo de interrogación).
Metaetiqueta Robots
El archivo Robots.txt limita principalmente el acceso del motor de búsqueda a todo el sitio o directorio, mientras que la metaetiqueta Robots se dirige principalmente a páginas específicas. Al igual que otras etiquetas META (como el idioma utilizado, la descripción de la página, las palabras clave, etc.), la etiqueta Meta de Robots también se coloca en la página y se utiliza específicamente para indicarle al motor de búsqueda ROBOTS cómo rastrear el contenido de la página.
No hay distinción de casos en la etiqueta Meta de Robots. name="Robots" significa todos los motores de búsqueda. Puede escribir name="BaiduSpider" para un motor de búsqueda específico. Hay cuatro opciones de comando en la parte de contenido: index, noindex, follow, nofollow Los comandos están separados por ",".
El comando de índice le dice al robot de búsqueda que rastree la página
El comando de seguimiento indica que el robot de búsqueda puede continuar rastreando los enlaces de la página
<; p>Robots Los valores predeterminados de las Metaetiquetas son index y follow, excepto para inktomi, para los cuales los valores predeterminados son index y nofollow.Cabe señalar que:
Las metaetiquetas robots.txt y Robots mencionadas anteriormente son solo una regla para impedir que los robots de los motores de búsqueda (ROBOTS) rastreen el contenido del sitio y realicen búsquedas. Se requieren robots de motor. Requiere cooperación, y no todos los ROBOTS la siguen.
En la actualidad, parece que la gran mayoría de los robots de los motores de búsqueda cumplen con las reglas de robots.txt. Para la etiqueta RobotsMETA, no muchos son compatibles actualmente, pero está aumentando gradualmente. El famoso motor de búsqueda GOOGLE es completamente compatible, y GOOGLE también ha agregado un comando "archivar" que puede limitar si GOOGLE conserva instantáneas de páginas web.