Red de conocimiento informático - Problemas con los teléfonos móviles - Qué establece el código robots.txt y cómo configurarlo

Qué establece el código robots.txt y cómo configurarlo

Robots.txt debe colocarse en el directorio raíz de un sitio y el nombre del archivo debe estar todo en minúsculas. Formato del archivo robots.txt

Agente de usuario: define el tipo de motor de búsqueda

Disallow: define direcciones que tienen prohibido ser incluidas por los motores de búsqueda

Permitir: Definir búsquedas permitidas Las direcciones incluidas por el motor

Nuestros tipos de motores de búsqueda más utilizados son: (User-agent distingue entre mayúsculas y minúsculas)

Araña de Google: Googlebot

Araña Baidu: Baiduspider

araña yahoo: Yahoo!slurp

araña alexa: ia_archiver

araña bing: MSNbot

altavista araña: scooter

lycos spider: lycos_spider_(t-rex)

alltheweb spider: fast-webcrawler

inktomi spider: slurp

Soso spider: Sosospider

Google Adsense Spider: Mediapartners-Google

Youdao Spider: YoudaoBot

Cómo escribir el archivo robots.txt

Agente de usuario: * aquí * Representa todos los tipos de motores de búsqueda, * es un carácter comodín

No permitir: /admin/ La definición aquí es prohibir el rastreo de directorios en el directorio de administración

Disallow: /require/ La definición aquí es No permitir el rastreo de directorios bajo el directorio require

Disallow: /ABC/ La definición aquí es prohibir el rastreo de directorios bajo el directorio ABC

No permitir : /cgi-bin/*.htm acceso prohibido Todas las URL con el sufijo ".htm" en el directorio /cgi-bin/ (incluidos los subdirectorios).

Disallow: /*?* No permite el acceso a todas las páginas dinámicas del sitio web

Disallow: /jpg$ No permite el rastreo de todas las imágenes en formato .jpg de la página web

Disallow:/ab/adc.html prohíbe rastrear el archivo adc.html en la carpeta ab.

Permitir: /cgi-bin/ La definición aquí es permitir el rastreo de directorios bajo el directorio cgi-bin

Permitir: /tmp La definición aquí es permitir el rastreo de todo el directorio directorio de tmp

Permitir: /cgi-bin/ p>

Permitir: .htm$ solo permite el acceso a URL con el sufijo ".htm".

Permitir: .gif$ permite rastrear páginas web e imágenes en formato gif

Ejemplos de uso de archivos robots.txt

Ejemplo 1. Prohibir el acceso a todos los motores de búsqueda el sitio web Cualquier parte

Usuario-agente: *

No permitir: /

Análisis de ejemplo: archivo Robots.txt de Taobao

Usuario- agente: Baiduspider

No permitir: /

Agente de usuario: baiduspider

No permitir: /

Obviamente Taobao no permite robots de Baidu Visita todos sus catálogos en su sitio web.

Ejemplo 2. Permitir el acceso de todos los robots (o puede crear un archivo vacío "/robots.txt")

Agente de usuario: *

Permitir:

Ejemplo 3. No permitir el acceso a un motor de búsqueda

Agente de usuario: BadBot

No permitir: /

Ejemplo 4. Permitir el acceso a un determinado motor de búsqueda

User-agent: Baiduspider

allow: /

Ejemplo 5. Un ejemplo sencillo

En En este ejemplo, el sitio web tiene tres directorios que restringen el acceso a los motores de búsqueda, es decir, los motores de búsqueda no accederán a estos tres directorios.

Cabe señalar que cada directorio debe declararse por separado, en lugar de escribirse como "Disallow: /cgi-bin/ /tmp/".

Agente de usuario: El * después tiene un significado especial y representa "cualquier robot", por lo que no puede haber "Disallow: /tmp/*" o "Disallow: *.gif" en este archivo. aparece.

Agente de usuario: *

No permitir: /cgi-bin/

No permitir: /tmp/

No permitir: /~joe /

Parámetros especiales del robot:

Permitir el robot de Google:

Si desea bloquear el acceso de todos los robots excepto el robot de Google a su página web, puede utilizar la siguiente sintaxis :

Agente de usuario:

No permitir: /

Agente de usuario: Googlebot

No permitir:

El robot de Google sigue líneas que apuntan a sí mismo, no líneas que apuntan a todos los robots.

Extensión "Permitir":

Googlebot reconoce la extensión estándar de robots.txt llamada "Permitir". Es posible que los robots de otros motores de búsqueda no reconozcan esta extensión, así que utilice otros motores de búsqueda que le interesen para buscarla. La línea "Permitir" funciona exactamente igual que la línea "No permitir". Simplemente enumere los directorios o páginas que desea permitir.

También puedes utilizar "No permitir" y "Permitir" al mismo tiempo. Por ejemplo, para bloquear todas las páginas menos una en un subdirectorio, utilice la siguiente entrada:

Agente de usuario: Googlebot

No permitir: /carpeta1/

Permitir : /carpeta1/miarchivo.html

Estas entradas interceptarán todas las páginas del directorio carpeta1 excepto miarchivo.html.

Si desea bloquear el robot de Google y permitir otro robot de Google (como Googlebot-Mobile), utilice la regla "Permitir" para permitir el acceso a ese robot. Por ejemplo:

Agente de usuario: Googlebot

No permitir: /

Agente de usuario: Googlebot-Mobile

Permitir:

Utilice el signo * para hacer coincidir una secuencia de caracteres:

Puede utilizar un asterisco (*) para hacer coincidir una secuencia de caracteres.

Por ejemplo, para bloquear el acceso a todos los subdirectorios que comiencen con privado, utilice la siguiente entrada:

Agente de usuario: Googlebot

No permitir: /privado*/

Para bloquear el acceso a todas las URL que contienen un signo de interrogación (?), utilice la siguiente entrada:

Agente de usuario: *

No permitir: /*?*

Utilice $ para hacer coincidir el carácter de cierre de una URL

Puede utilizar el carácter $ para especificar una coincidencia con el carácter de cierre de una URL. Por ejemplo, para bloquear las URL que terminan en .asp, utilice la siguiente entrada:

Agente de usuario: Googlebot

No permitir: /*.asp$

Tú Puede utilizar este patrón que coincida con la directiva Permitir. Por ejemplo, si ? representa un ID de sesión, puede excluir todas las URL que contengan ese ID para garantizar que el robot de Google no rastree páginas duplicadas. Sin embargo, las URL que terminan en ? pueden ser la versión de la página que desea incluir. En este caso, se pueden realizar las siguientes configuraciones en el archivo robots.txt:

Agente de usuario: *

Permitir: /*?$

No permitir : / *?

No permitir: / *?

Una línea bloqueará las URL que contengan ? (específicamente, bloqueará todas las URL que comiencen con su nombre de dominio, seguidas de cualquier cadena, y luego hay un signo de interrogación (?), seguido de la URL de cualquier cadena).

Permitir: una línea de /*?$ permitirá cualquier URL que termine en ? (específicamente, permitirá cualquier URL que comience con su nombre de dominio, seguida de cualquier cadena y luego un signo de interrogación (? ), una URL sin caracteres después del signo de interrogación).

Metaetiqueta Robots

El archivo Robots.txt limita principalmente el acceso del motor de búsqueda a todo el sitio o directorio, mientras que la metaetiqueta Robots se dirige principalmente a páginas específicas. Al igual que otras etiquetas META (como el idioma utilizado, la descripción de la página, las palabras clave, etc.), la etiqueta Meta de Robots también se coloca en la página y se utiliza específicamente para indicarle al motor de búsqueda ROBOTS cómo rastrear el contenido de la página.

No hay distinción de casos en la etiqueta Meta de Robots. name="Robots" significa todos los motores de búsqueda. Puede escribir name="BaiduSpider" para un motor de búsqueda específico. Hay cuatro opciones de comando en la parte de contenido: index, noindex, follow, nofollow Los comandos están separados por ",".

El comando de índice le dice al robot de búsqueda que rastree la página

El comando de seguimiento indica que el robot de búsqueda puede continuar rastreando los enlaces de la página

<; p>Robots Los valores predeterminados de las Metaetiquetas son index y follow, excepto para inktomi, para los cuales los valores predeterminados son index y nofollow.

Cabe señalar que:

Las metaetiquetas robots.txt y Robots mencionadas anteriormente son solo una regla para impedir que los robots de los motores de búsqueda (ROBOTS) rastreen el contenido del sitio y realicen búsquedas. Se requieren robots de motor. Requiere cooperación, y no todos los ROBOTS la siguen.

En la actualidad, parece que la gran mayoría de los robots de los motores de búsqueda cumplen con las reglas de robots.txt. Para la etiqueta RobotsMETA, no muchos son compatibles actualmente, pero está aumentando gradualmente. El famoso motor de búsqueda GOOGLE es completamente compatible, y GOOGLE también ha agregado un comando "archivar" que puede limitar si GOOGLE conserva instantáneas de páginas web.

上篇: ¿Cómo realizar la tarea de que Albert aprenda habilidades en secreto en "dnf"? 下篇: ¿No es QQ:136510903 de Zhang Hanyun?

Qué establece el código robots.txt y cómo configurarlo

Artículos populares