Robots.txt ¿Configurar un sitio web para que no permita que las arañas se acuesten y afecte la inclusión de otros sitios web?
Cuando un motor de búsqueda visita un sitio web, primero comprobará si hay un archivo de texto sin formato llamado robots.txt en el dominio raíz del sitio web. El archivo Robots.txt se utiliza para limitar el acceso del motor de búsqueda a su sitio web, es decir, para indicarle qué archivos del sitio web pueden recuperarse (descargarse). Este es el "Estándar de exclusión de robots" que se ve a menudo en Internet. A continuación nos referiremos a él como RES.
El formato del archivo Robots.txt:
El formato del archivo Robots.txt es bastante especial y consta de registros. Estos registros están separados por líneas en blanco. Cada registro consta de dos campos:
1) Una línea de cadena de Agente de usuario
2) Varias líneas de cadena No permitidas;
El formato de registro es: ":"
A continuación explicaremos con más detalle estos dos campos respectivamente.
User-agent (agente de usuario):
La línea User-agent (línea de agente de usuario) se utiliza para especificar el nombre del robot del motor de búsqueda tomando como Googlebot el programa de búsqueda de Google. Por ejemplo, hay: User-agent: Googlebot
Debe haber al menos un registro de User-agent en un archivo robots.txt. Si hay varios registros de agente de usuario, significa que el estándar RES restringirá varios robots. Por supuesto, si desea especificar todos los robots, solo necesita usar un comodín "*", es decir: Agente de usuario: *
Disallow (declaración de acceso denegado):
En el archivo Robots.txt, el segundo campo de cada registro es Disallow: línea de comando. Estas líneas No permitidas declaran archivos y/o directorios en el sitio web a los que no desea que se acceda. Por ejemplo, "Disallow: email.htm" declara el acceso al archivo y prohíbe a Spiders descargar el archivo email.htm en el sitio web. "Disallow: /cgi-bin/" declara acceso al directorio cgi-bin, negando a Spiders el acceso al directorio y sus subdirectorios. La línea de declaración Disallow también tiene función de comodín. Por ejemplo, en el ejemplo anterior, "Disallow: /cgi-bin/" declara que a los motores de búsqueda se les niega el acceso al directorio cgi-bin y sus subdirectorios, mientras que "Disallow:/bob" niega a los motores de búsqueda el acceso a /bob.html y /bob/ Acceso a indes.html (es decir, los motores de búsqueda no permiten el acceso al archivo llamado bob ni a los archivos en el directorio llamado bob). Si el registro No permitir se deja en blanco, todas las partes del sitio web están abiertas a los motores de búsqueda.
Espacios y comentarios
En el archivo robots.txt, cualquier línea que comience con "#" se considera contenido de anotación, que es la misma que la convención en UNIX. Pero hay que prestar atención a dos cuestiones:
1) El estándar RES permite que el contenido de la anotación se coloque al final de la línea de instrucciones, pero no todos los Spiders admiten este formato. Por ejemplo, no todas las arañas pueden entender correctamente el comando "No permitir: bob #commentar". Algunas arañas malinterpretarán Disallow como "bob#comment". El mejor enfoque es mantener la anotación en su propia línea.
2) El estándar RES permite espacios al principio de una línea de comando, como "Disallow: bob #comment", pero no lo recomendamos.
Creación del archivo Robots.txt:
Cabe señalar que el archivo de texto plano Robots.txt debe crearse en modo terminal de línea de comandos UNIX.
Un buen editor de texto generalmente puede proporcionar funcionalidad en modo UNIX, o su software de cliente FTP "debería" poder convertirlo por usted. Si intenta utilizar un editor HTML que no proporciona un modo de edición de texto para generar su archivo de texto plano robots.txt, entonces simplemente estará aplastando un mosquito, en vano.
Extensiones al estándar RES:
Aunque se han propuesto algunos estándares de extensión, como la línea Permitir o el control de versiones del robot (por ejemplo, se deben ignorar los números de caso y versión), RES no Aún no se ha obtenido la aprobación formal del grupo de trabajo.
Apéndice I. Ejemplos de uso de Robots.txt:
Utilice el comodín "*" para establecer permisos de acceso a todos los robots.
Agente de usuario: *
No permitir:
Indica: Permitir que todos los motores de búsqueda accedan a todo el contenido del sitio web.
Agente de usuario: *
No permitir: /
Indica que todos los motores de búsqueda tienen prohibido acceder a todas las páginas web del sitio web.
Agente de usuario: *
Disallow: /cgi-bin/Disallow: /images/
Indica: prohibir que todos los motores de búsqueda ingresen al cgi-bin del sitio web y el directorio de imágenes y todos los subdirectorios bajo él. Tenga en cuenta que cada directorio debe declararse por separado.
Agente de usuario: Roverdog
No permitir: /
Indica: Roverdog tiene prohibido acceder a cualquier archivo del sitio web.
Agente de usuario: Googlebot
No permitir: cheese.htm
Indica: el robot de Google de Google tiene prohibido acceder al archivo cheese.htm en su sitio web.
Lo anterior presenta algunas configuraciones simples. Para configuraciones más complejas, puede consultar los archivos robots.txt de algunos sitios grandes como CNN o Looksmart (www.cnn.com/robots.txt, www. looksmart.com/robots.txt)
Apéndice II. Referencias a artículos relacionados con robots.txt:
1. Análisis de las preguntas frecuentes sobre Robots.txt
2. Robots Meta Tag Uso de
3. Programa de detección de Robots.txt
Análisis de problemas comunes con Robots.txt:
Hemos desarrollado un "verificador" de "Programa de archivos robots.txt" y, al mismo tiempo, se diseñó un programa de búsqueda para descargar específicamente el archivo robots.txt para probar el recién lanzado "programa de verificación robots.txt". Después de recorrer los sitios vinculados en DMOZ (ODP) y recuperar un total de 2,4 millones de sitios, encontramos un total de aproximadamente 75.000 archivos robots.txt.
En estos archivos robots.txt encontramos una gran cantidad de problemas diversos. Más del 5% de los archivos robots.txt utilizan el formato incorrecto y más del 2% de los archivos utilizan formatos extremadamente deficientes que ningún SPIDER puede leer.
Algunos de los problemas que hemos descubierto se enumeran a continuación para su referencia:
Error 1: Sintaxis mixta
Por ejemplo:
Agente de usuario: * p> p>
No permitir: scooter
La sintaxis correcta debe ser:
Agente de usuario: scooter
No permitir: *
Error 2: una línea de Disallow declara varios directorios
Este es un error relativamente común. Descubrimos que muchos sitios web colocan varios directorios en una línea de comando Disallow en su archivo robots.txt. Por ejemplo: Disallow: /css/ /cgi-bin/images/
La mayoría de las arañas no pueden analizar correctamente la línea de declaración anterior, y algunas arañas ignorarán los espacios y la analizarán como /css/ /cgi-bin //images/, o solo analizar /images/ o /css/, o no analizar en absoluto.
La sintaxis correcta debe ser:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images /
Error 3: edición del archivo robots.txt en modo DOS
Este también es un error relativamente común. El enfoque correcto debería ser editar su archivo robots.txt en modo UNIX y cargarlo en formato ASCII. Obviamente, no todo el software de cliente FTP puede convertir sin problemas formatos de archivo a terminales de línea de comandos UNIX, por lo que al editar el archivo robots.txt, asegúrese de que su editor de texto esté en modo UNIX.
Error 4: agregue un comentario al final de la línea de instrucciones
En el archivo robots.txt, cualquier línea que comience con "#" se considera contenido de anotación, que es el igual que en UNIX La convención es la misma. Por ejemplo: Disallow: /cgi-bin/ # esto prohíbe robots de nuestro cgi-bin
Aunque según el estándar RES, es factible agregar un comentario al final de la línea de instrucciones, este formato No siempre estuvo disponible en el pasado. Todas las arañas pueden admitirlo. Algunas arañas simplemente consideran la oración completa como contenido de anotación y la omiten sin leerla. Por supuesto, sabemos que hoy en día los motores de búsqueda básicamente admiten este formato, pero todavía existe la posibilidad de que algunos motores de búsqueda no puedan interpretarlo correctamente. ¿Puede permitirse este riesgo? Recomendamos que al editar el archivo robots.txt lo mejor sea mantener los comentarios en su propia línea.
Error 5: hay un espacio antes de la línea de comando
Por ejemplo, "Disallow: /cgi-bin/", aunque el estándar RES no especifica este formato, nosotros sí Este formato tiene una fuerte oposición. Tienes ante ti la misma pregunta: ¿puedes correr el riesgo de que las arañas no te interpreten correctamente?
Error 6--404 redireccionamiento a otra página
Generalmente no hay robots.txt. El sitio web redirigirá las llamadas al archivo robots.txt a otra página. Este tipo de redirección normalmente no produce errores de estado del servidor ni información sobre el estado de la redirección. Sin embargo, porque es el propio Spiders el que decide si ve un archivo robots.txt o un archivo .html. Aunque en teoría no debería haber ningún problema, para estar seguro, también puedes colocar un archivo robots.txt vacío en el directorio superior de tu servidor. En www.google.com/bot.html, se ofrece el mismo consejo: "Para evitar mensajes de error 'Archivo no encontrado' en los registros del servidor, cree un archivo robots.txt vacío en su documento de dominio raíz.
”
Error 7: Declaración contradictoria
Por ejemplo:
USUARIO-AGENTE: EXCITE
DISALLOW:
Aunque el estándar RES ignora mayúsculas y minúsculas, los nombres de directorios y archivos distinguen entre mayúsculas y minúsculas, por lo que para las instrucciones "USER-AGENT" y "DISALLOW", está bien usar mayúsculas y minúsculas. Asegúrese de prestar atención. al caso del directorio o nombre del archivo.
Error 8 - Listar todos los archivos
Este también es un error común. Tómese la molestia de enumerar todos los archivos en el directorio. ejemplo:
No permitir: /AL/Alabama.html
No permitir: /AL/AR.html
No permitir: /Az/AZ.html
No permitir: /Az/bali.html
No permitir: /Az/bed-breakfast.html
De hecho, todas las líneas de declaración anteriores requieren opciones de directorio Para reemplazar:
No permitir: /AL
No permitir: /Az
Cabe señalar que la barra invertida "/" significa que los motores de búsqueda tienen prohibido ingresar al directorio. Si solo hay unas pocas docenas de archivos que deben configurarse con permisos de acceso, está bien. El problema es que encontramos un archivo robots.txt con 400k archivos en la lista. Nos sorprendió ver tantas declaraciones. se dará la vuelta y desaparecerá
Error 9: instrucción ALLOW casera
No hay instrucción ALLOW, solo la instrucción DISALLOW. Encontramos este uso:
. User-agent: Spot
Disallow: /john/
allow: /jane/
La escritura correcta debe ser:
Usuario - agente: Spot
No permitir: /john/
No permitir:
Error 10: no hay barra invertida para el directorio declarado
Por ejemplo, encontramos este ejemplo:
User-agent: Spot
Disallow: john
¿Cómo debería reaccionar Spider ante tal registro? De acuerdo con el estándar RES, Spider NO PERMITIRÁ tanto el archivo llamado "john" como el directorio llamado "john". Así que recuerde utilizar "/" para identificar la ruta (directorio) declarada.
También descubrimos que algunos sitios web se han optimizado tan minuciosamente que incluso incluyen palabras clave en su archivo robots.txt (es desconcertante, no entiendo lo que piensan). Estas personas deben tratar su archivo de texto plano robots.txt como un archivo html. (Recuerde: es imposible crear el archivo robots.txt correctamente en FrontPage)
Error 11: configuración incorrecta en el lado del servidor de red
¿Por qué aparece la solicitud de llamada para los robots? archivo txt ¿Se producirá un archivo binario? Este error sólo puede ocurrir si el servidor de red o el software del cliente FTP están configurados incorrectamente. Se recomienda que revise su archivo robots.txt periódicamente
Servidor/nombre de dominio "granja"
Una forma sencilla para que los motores de búsqueda detecten servidores o nombres de dominio "granjas" (que es decir, que contiene una gran cantidad de sitios) Basta con mirar su archivo robots.txt. Descubrimos que en "granjas" de nombres de dominio a gran escala con 400 a 500 nombres de dominio, todos los sitios en su "biblioteca" usan el mismo archivo robots.txt.
Esto equivale a decirle a los motores de búsqueda que estos sitios que utilizan el mismo archivo robots.txt están relacionados.
Google es el primero en admitir comodines:
Google es el primer motor de búsqueda que admite extensiones de archivos comodín en robots.txt. Por ejemplo:
Agente de usuario: googlebot
No permitir: *.cgi
Sin embargo, tenga en cuenta que, dado que actualmente solo Google admite este formato, "USUARIO - AGENTE" sólo puede ser "Googlebot".
Preguntas frecuentes sobre sitios web indexados por Yahoo
¿Cómo puedo reducir el número de solicitudes de los motores de búsqueda de Yahoo a mi sitio?
Dado que rastreamos miles de millones de páginas web de todo Internet y utilizamos una gran cantidad de sistemas para el web scraping, su servidor web tendrá IP de cliente de diferentes rastreadores YST. Dirección de solicitud de inicio de sesión. Diferentes sistemas de rastreo trabajan juntos para limitar cualquier actividad desde un único servidor web. El llamado servidor de red único está determinado por su dirección IP. Por lo tanto, si el host de su servidor tiene varias IP, su actividad será de un nivel superior.
En robots.txt, YST tiene una extensión específica que nos permite establecer una frecuencia de solicitud de rastreo más baja para nuestro rastreador.
Puede agregar la directiva Cral-delay:xx, donde "XX" se refiere al retraso mínimo en segundos cuando el programa rastreador ingresa al sitio dos veces. Si la frecuencia del rastreador es una carga para su servidor, puede establecer este retraso en cualquier número que considere apropiado, como 60 o 300.
Por ejemplo, si desea establecer un retraso de 20 segundos, la declaración es la siguiente:
Agente de usuario: Slurp
Retraso de rastreo: 20
¿Cómo hacer que Yahoo solo indexe determinadas páginas web?
El motor de búsqueda YST de Yahoo cumple con la metaetiqueta noindex (sin indexación). Puedes escribir en la parte superior del documento web:
En este momento, YST rastreará el documento pero no lo indexará. y no se incluirá en la base de datos del motor de búsqueda.
¿Cómo puedo reducir el número de solicitudes a mi sitio desde el motor de búsqueda de Yahoo?
Dado que rastreamos miles de millones de páginas web de todo Internet y utilizamos una gran cantidad de sistemas para el web scraping, su servidor web tendrá IP de cliente de diferentes rastreadores YST. Dirección de solicitud de inicio de sesión. Diferentes sistemas de rastreo trabajan juntos para limitar cualquier actividad desde un único servidor web. El llamado servidor de red único está determinado por su dirección IP. Por lo tanto, si el host de su servidor tiene varias IP, su actividad será de un nivel superior.
En robots.txt, YST tiene una extensión específica que nos permite establecer una frecuencia de solicitud de rastreo más baja para nuestro rastreador.
Puede agregar la directiva Cral-delay:xx, donde "XX" se refiere al retraso mínimo en segundos cuando el programa rastreador ingresa al sitio dos veces. Si la frecuencia del rastreador es una carga para su servidor, puede establecer este retraso en cualquier número que considere apropiado, como 60 o 300.
Por ejemplo, si desea establecer un retraso de 20 segundos, la declaración es la siguiente:
Agente de usuario: Slurp
Retraso de rastreo: 20
¿Cómo descubrió este web scraper los archivos de mi sitio?
El programa de búsqueda YST rastrea enlaces HREF, pero no enlaces SRC. Esto significa que nuestro programa no rastreará ni indexará estos archivos de marco a través de los enlaces señalados por SRC.
Mi sitio web no quiere aparecer en los resultados de búsqueda de Yahoo. ¿Cómo puedo eliminarlo?
Si necesita eliminar los registros de todo su sitio web o parte de sus propias páginas web en los resultados web de Yahoo, puede colocar un archivo robots.txt en el directorio raíz de su servidor con el siguiente contenido:
Agente de usuario: *
No permitir: /
Este es un protocolo estándar que la mayoría de los programas de búsqueda web cumplirán. Después de unirse a estos protocolos, lo harán. ya no rastrear Obtenga su servidor web o directorio. Para obtener más información sobre el archivo robots.txt, visite:
http://www.robotstxt.org/wc/norobots.html
Siempre que lo tenga en el directorio raíz de su servidor web Con este archivo robots.txt, el programa de búsqueda YST no ingresará a su sitio web y su sitio web no aparecerá en los resultados de búsqueda de Yahoo.
Si su situación es muy urgente y no puede esperar hasta la próxima vez que nuestro programa de búsqueda YST rastree su sitio web antes de eliminarlo, puede enviarnos su opinión y una persona dedicada será responsable de manejarlo.
¿Puedo eliminar sólo páginas individuales?
Si solo necesita proteger páginas web individuales y no desea que los motores de búsqueda muestren estas páginas, puede agregar el siguiente código HTML a esa página:
Para obtener más información sobre esta metaetiqueta estándar, visite: http://www.robotstxt.org/wc/exclusion.html#meta
Si su situación es muy urgente y no podemos esperar hasta la próxima vez que el programa de búsqueda YST rastree su sitio web antes de eliminarlo, envíenos sus comentarios y tendremos una persona dedicada a manejarlo.
Las páginas web incluidas por Yahoo implican privacidad personal o secretos corporativos. ¿Cómo puedo eliminar estas páginas web lo antes posible?
Yahoo no tiene nada que ver con estos sitios web y Yahoo no tiene derecho a eliminar páginas de los sitios web de otras personas. La búsqueda de Yahoo sigue los principios de objetividad e imparcialidad. Si cree que el sitio web de otra persona contiene información infractora sobre usted o su empresa en los resultados de búsqueda y desea que esa información desaparezca de los resultados de búsqueda de Yahoo, comuníquese primero con el administrador de esos sitios web. se eliminará automáticamente de los resultados de búsqueda de Yahoo en unos días o semanas. Si desea que la información de la página web desaparezca de los resultados de búsqueda de Yahoo lo antes posible, primero confirme que se ha comunicado con el administrador del sitio web para eliminar la página web especificada y luego proporcione prueba de identidad, certificado de propiedad del sitio web e información detallada sobre la infracción. fax o correo electrónico a Yahoo! Después de recibir los documentos legales anteriores, Yahoo eliminará las páginas web acusadas de infracción lo antes posible.
¿Puede el rastreador de Yahoo rastrear enlaces dinámicos?
El programa de búsqueda YST admite marcos web y se esfuerza por rastrear páginas web complejas, como páginas generadas a través de formularios, sistemas de generación de contenido y software de generación dinámica de páginas.
El programa de búsqueda YST se esfuerza por capturar más páginas web que no requieran soporte especial por parte de los webmasters, pero en realidad todavía hay muchos sitios web que no pueden ser buscados por máquinas, ya sea a través de Yahoo u otras búsquedas igualmente poderosas. sistema.
¿Cómo rastreó Yahoo mi sitio web?
Yahoo utiliza Yahoo! Search Engine Technology (YST), que es un conjunto de índices web basados en algoritmos. Un rastreador que detecta automáticamente el contenido web. YST es un programa de búsqueda automática que recopila documentos de Internet y crea un índice de búsqueda. La razón principal por la que el programa YST puede descubrir y rastrear estos archivos (es decir, los archivos de su sitio web) es que existen enlaces directos a estos documentos en otras páginas web de Internet.
El programa de búsqueda YST se adhiere estrictamente al estándar robots.txt para realizar el rastreo. Por lo tanto, el programa de búsqueda no rastreará resultados que no desee que muestre el motor de búsqueda de Yahoo.
Cualquier archivo que el estándar robots.txt considere inadecuado para el rastreo no se incluirá en el documento rastreado ni se ingresará en la base de datos del motor de búsqueda.