¿Para qué sirve robots.txt?
Las funciones principales de robot.txt Algunas personas pueden preguntar, dado que el archivo robots no está listo o ha ocurrido un error que afectará la inclusión de todo el sitio web, ¿por qué se necesita este archivo?
De hecho, los webmasters utilizan robots en circunstancias especiales, porque algunos sitios web tienen páginas que el webmaster no quiere que sean indexadas por ningún motor de búsqueda, por lo que este archivo robots está disponible.
Ejemplos de uso de archivos robots.txt:
1. Prohibir que todos los motores de búsqueda accedan a cualquier parte del sitio web.
Agente de usuario: *
No permitido: /
2. Permitir el acceso de todos los robots
Agente de usuario: *
No permitido:
(O puede crear un archivo vacío/robots.txt)
3.
Agente de usuario: BadBot
No permitido: /
4 Permitir acceso al motor de búsqueda
Agente de usuario: Baiduspider
No permitido:
Agente de usuario: *
No permitido: /
5. Supongamos que un sitio web tiene tres directorios que restringen el acceso a los motores de búsqueda. Puedes escribir así:
Agente de usuario: *
No permitido: /cgi-bin/
No permitido: /tmp/
No permitido: /joe/
Cabe señalar que cada directorio debe declararse por separado, en lugar de escribirse como "Disallow:/cgi-bin//tmp/".
User-agent: El * (comodín) detrás tiene un significado especial y representa "cualquier robot", por lo que no puede haber registros como "disallow:/tmp/*" o "disallow: *". gif".
Además, robots.txt se utiliza principalmente para garantizar la seguridad de la red y la privacidad del sitio web. Baidu Spider sigue el protocolo robots.txt. A través del archivo de texto sin formato robots.txt creado en el directorio raíz , el sitio web puede Declarar qué páginas no desean ser rastreadas e incluidas por Baidu Spider. Cada sitio web puede controlar de forma independiente si el sitio web está dispuesto a ser incluido por Baidu Spider, o especificar que Baidu Spider solo incluirá contenido específico. visita un sitio, primero verificará la raíz del sitio. ¿Existe robots.txt en el directorio? Si el archivo no existe, el rastreador rastreará el enlace. Si es así, el rastreador determinará el alcance del acceso. el contenido del archivo.
robots es un acuerdo entre el sitio web y el rastreador. Utiliza un formato de texto simple y directo en formato txt para indicarle al rastreador correspondiente los permisos permitidos. Los rastreadores de archivos que no han establecido permisos de acceso al directorio a nivel del sistema siempre que estén ubicados en el directorio raíz del nombre de dominio se pueden obtener, pero si no hay un acuerdo entre el sitio web y el motor de búsqueda, se generará una cantidad de información impredecible. filtrarse en línea. Esto no es lo que ambas partes quieren ver. Este acuerdo es esencialmente un acuerdo de caballeros entre personas. Además, tiene la misma función de mejorar la eficiencia de SEO que nofollow.
Cómo restringir el uso. de bing?
Hay dos soluciones para restringir el uso de bing:
Primer método: configurarlo a través de la herramienta webmastertools proporcionada por bing
Después de registrarse. y autenticar el sitio web, puede seleccionar "Control de rastreo" en el menú de configuración de la izquierda
Limitar la frecuencia de rastreo del motor de búsqueda Bing, reducir la carga del servidor, establecer la zona horaria y luego arrastrar la barra de tiempo para administrar.
El segundo método es más violento y controla directamente el archivo robots.txt.
Puede agregar el parámetro de retardo de rastreo en robots.txt.
Agente de usuario: bingbot
Retraso de rastreo: 1
El código anterior significa que bingbot limita la frecuencia de rastreo a lenta.
Si no se establece el retraso de rastreo, significa que el motor de búsqueda determina la frecuencia de rastreo. Este valor se puede establecer en 1, 5 o 10, que corresponden a lento, muy lento y extremadamente lento respectivamente.
¿Qué es un archivo robots.txt?
Robots.txt, también conocido como protocolo robots, es el primer archivo que se visualiza al visitar un sitio web en un motor de búsqueda. Utilice el archivo robots.txt para indicar a los motores de búsqueda qué páginas se pueden rastrear y cuáles no.