Red de conocimiento informático - Problemas con los teléfonos móviles - Formato de archivo robot.txt

Formato de archivo robot.txt

El archivo "robots.txt" contiene uno o más registros, que están separados por líneas en blanco (terminadas en CR, CR/NL o NL. El formato de cada registro es el siguiente:

":"

# se puede usar para comentarios en este archivo, y el método de uso específico es el mismo que la convención en UNIX. . Los registros en este archivo generalmente comienzan con una o más líneas de User-agent, seguidas de varias líneas Disallow. Los detalles son los siguientes:

User-agent:

El valor de. este elemento es un nombre utilizado para describir los robots de los motores de búsqueda. En el archivo "robots.txt", si hay varios registros de agente de usuario, significa que varios robots estarán sujetos al protocolo. Por lo tanto, debe haber al menos un registro de User-agent en el archivo "robots.txt". Si el valor de esta entrada se establece en * (comodín), el protocolo es válido para cualquier robot de motor de búsqueda. En el archivo "robots.txt", sólo puede haber un registro como "User-agent: *".

No permitir:

El valor de este elemento se utiliza para describir una URL a la que no desea que se acceda. Esta URL puede ser una ruta completa o cualquier ruta parcial. terminando en Disallow El robot no accederá a ninguna de las URL al principio. Por ejemplo:

"Disallow: /help" no permite que los motores de búsqueda accedan a /help.html y /help/index.html, mientras que "Disallow: /help/" permite que los robots accedan a /help. html y no puede acceder a /help/index.html.

Si algún registro Disallow está vacío, significa que se permite el acceso a todas las partes del sitio web. Debe haber al menos un registro Disallow en el archivo "/robots.txt". Si "/robots.txt" es un archivo vacío, el sitio web está abierto a todos los robots de los motores de búsqueda.