Acuerdo sobre robots: "Hay una manera de robar"
Según el acuerdo, el administrador del sitio web puede colocar un archivo de texto robots.txt en el directorio raíz del nombre de dominio del sitio web, que puede especificar las páginas a las que pueden acceder diferentes rastreadores web y las páginas que están prohibidas. del acceso. Las páginas especificadas están determinadas por reglas de representación de expresiones regulares. Antes de que el rastreador web recopile el sitio web, primero obtiene el archivo, luego analiza las reglas que contiene y luego recopila los datos del sitio web de acuerdo con las reglas.
Tenga en cuenta que la existencia de este protocolo es más para que lo cumplan los rastreadores web, en lugar de impedirlos.
Las páginas web en Internet están relacionadas entre sí mediante hipervínculos, formando así una estructura de red de páginas web. La forma en que funciona un rastreador es como una araña que rastrea enlaces en Internet. El proceso más básico se puede simplificar de la siguiente manera:
Después de comprender el proceso anterior, podrá encontrar que: para los rastreadores, el sitio web es. muy pasivo y sólo Él fue capturado honestamente.
Por lo tanto, para los administradores de sitios web, existe la siguiente necesidad:
Algunas rutas son para uso de privacidad personal o administración de sitios web y no desean que los motores de búsqueda, como Hablando de películas de acción japonesas,
No me gusta un determinado motor de búsqueda y no quiero que me rastree. La más famosa es que Taobao no quería que Baidu lo rastree;
Uso de sitios web pequeños. Es un host virtual público con tráfico o pago limitado. Espero que los motores de búsqueda lo rastreen más suavemente;
Algunas páginas web se generan dinámicamente y no tienen enlaces directos. para ellos, pero espero que los motores de búsqueda rastreen el contenido y lo indexen.
El propietario del contenido del sitio web es el administrador del sitio web. Los motores de búsqueda deben respetar los deseos del propietario. Para satisfacer lo anterior y demás, es necesario proporcionar una forma para que el sitio web y el rastreador puedan hacerlo. comunicarse, permitiendo al administrador del sitio web expresar Oportunidades por su propia voluntad. Donde hay demanda, hay oferta y así nació el protocolo de robots.
Protocolo de robots de JD.com
/robots.txt
Protocolo de robots de Baidu
Arriba, * representa todo, / representa la raíz directorio
Dado que antes de que un rastreador web rastree un sitio web, primero debe obtener este archivo y luego analizar las reglas que contiene, entonces los robots deben tener un conjunto de reglas gramaticales universales.
El archivo robots.txt más simple tiene solo dos reglas:
Agente de usuario: especifica qué rastreadores tendrán efecto
No permitir: especifica las URL que se bloquearán
p>Hablemos primero de User-agent. El rastreador declarará su identidad al rastrear. Este es User-agent, sí, es /cultur...
Mapa del sitio: /. alojadon...
Por cierto, considerando que un sitio web tiene muchas páginas web, el mantenimiento manual de mapas de sitio no es confiable. Google proporciona herramientas para generar mapas de sitio automáticamente.
metaetiqueta
De hecho, estrictamente hablando, esta parte del contenido no pertenece a robots.txt.
La intención original de robots.txt es permitir a los webmasters gestionar el contenido del sitio web que puede aparecer en los motores de búsqueda. Sin embargo, incluso si utiliza un archivo robots.txt para evitar que los rastreadores rastreen este contenido, los motores de búsqueda pueden encontrar estas páginas por otros medios y agregarlas a su índice. Por ejemplo, es posible que otros sitios web aún tengan enlaces a este sitio web. Por lo tanto, las URL de páginas web y otra información disponible públicamente (como texto de anclaje en enlaces a sitios relacionados o títulos en sistemas abiertos de administración de directorios) pueden aparecer en los resultados de búsqueda del motor. ¿Qué pasa si quieres ser completamente invisible para los motores de búsqueda? La respuesta es: metaetiqueta, es decir, metaetiqueta.
Por ejemplo, si desea evitar por completo que el contenido de una página web aparezca en los índices de los motores de búsqueda (incluso si otros sitios web enlazan a esta página), puede utilizar la metaetiqueta noindex. Siempre que un motor de búsqueda vea la página, verá la metaetiqueta noindex y evitará que la página aparezca en el índice. Tenga en cuenta que la metaetiqueta noindex proporciona una forma de controlar el acceso al sitio página por página.
Para evitar que todos los motores de búsqueda indexen las páginas web del sitio web, agregue:
El valor del nombre aquí se puede establecer en el agente de usuario de un determinado motor de búsqueda, especificando así. bloquear un determinado motor de búsqueda.
Además de noindex, existen otras metaetiquetas, como nofollow, que prohíben a los rastreadores seguir enlaces desde esta página. Para obtener información detallada, consulte las metaetiquetas admitidas por Google. Aquí hay un recordatorio: noindex y nofollow se describen en la especificación HTML4.01, pero también varía la medida en que otras etiquetas son compatibles con diferentes motores. consultar las instrucciones de cada documento del motor.
Retraso de rastreo
Además de controlar qué se puede rastrear y qué no, robots.txt también se puede utilizar para controlar la velocidad de rastreo del rastreador. ¿Cómo hacerlo? Configurando la cantidad de segundos que el rastreador espera entre rastreos. Esta operación puede aliviar la presión del servidor.
Indica que debe esperar 5 segundos antes del siguiente rastreo después de este rastreo.
Nota: Google ya no admite este método. Se proporciona una función en las herramientas para webmasters para controlar la velocidad de rastreo de forma más intuitiva.
Para hacer una digresión aquí, hubo un momento hace unos años en que robots.txt también admitía parámetros complejos: Tiempo de visita Sólo dentro del período de tiempo especificado por tiempo de visita el rastreador puede acceder a Solicitud; -rate: se utiliza para limitar la frecuencia de lectura de URL y controlar diferentes tasas de rastreo en diferentes períodos de tiempo. Más tarde, se estimó que muy pocas personas la apoyaban, por lo que se abandonó gradualmente. Actualmente, Google y Baidu ya no apoyan esta regla, y otras pequeñas empresas de motores parecen nunca haberla apoyado.
Rastreador web:
Identifica automática o manualmente robots.txt y luego rastrea el contenido
Vinculante:
El protocolo Robots es Recomendados pero no vinculantes, los rastreadores web pueden no cumplir con los riesgos legales.
Principio: El comportamiento humano no necesita referirse al protocolo de Robots.
El acuerdo de Robots no es una barrera técnica, sino un acuerdo de respeto mutuo. Es como colgar "Prohibida la entrada a holgazanes" en la puerta de un jardín privado. Quienes lo respeten se desviarán. pero aquellos que no lo respetan aún pueden abrir la puerta y entrar. En la actualidad, todavía existen algunos problemas en el uso real del protocolo Robots.
Caché
el archivo robots.txt también debe rastrearse. Por razones de eficiencia, los rastreadores generalmente no rastrean el archivo robots.txt cada vez que rastrean la página del sitio web. El archivo no se actualiza con frecuencia y es necesario analizar el contenido. Por lo general, el método del rastreador consiste en rastrearlo una vez, analizarlo y almacenarlo en caché, lo que lleva mucho tiempo. Supongamos que el administrador del sitio web actualiza robots.txt y cambia algunas reglas, pero esto no tendrá efecto inmediatamente para el rastreador. El contenido más reciente solo se podrá ver la próxima vez que el rastreador rastree robots.txt. Lo vergonzoso es que la próxima vez que el rastreador rastree robots.txt no estará controlado por el administrador del sitio web. Por supuesto, algunos motores de búsqueda proporcionan herramientas web que permiten a los administradores de sitios web notificar a los motores de búsqueda que la URL ha cambiado y se recomienda volver a rastrearla. Tenga en cuenta que esto es una sugerencia. Incluso si notifica al motor de búsqueda, todavía no está claro cuándo lo rastreará. Es mejor que no notificarlo en absoluto.
En cuanto a cuánto mejor sea, depende de la conciencia y de las capacidades técnicas del motor de búsqueda.
ignorar
No sé si es intencionado o no. De todos modos, algunos rastreadores no cumplen con el archivo robots.txt o lo ignoran por completo. Esto no descarta el problema. de la capacidad del desarrollador, por ejemplo, no conocen el archivo robots.txt. Además, el archivo robots.txt en sí no es una medida obligatoria. Si el sitio web tiene datos que deben mantenerse confidenciales, se deben tomar medidas técnicas, como: verificación de usuario, cifrado, interceptación de IP, control de frecuencia de acceso, etc.
Rastreadores maliciosos
En el mundo de Internet, hay innumerables rastreadores que rastrean datos día y noche, y el número de rastreadores maliciosos es incluso mayor que el de los no maliciosos. Un rastreador que cumple con el protocolo de Robots es un buen rastreador, pero no todos los rastreadores cumplirán activamente con el protocolo de Robots.
Los rastreadores maliciosos pueden generar muchas amenazas potenciales. Por ejemplo, si se rastrea la información del producto de un sitio web de comercio electrónico, es posible que la competencia utilice demasiados rastreadores que ocuparán recursos de ancho de banda e incluso dañarán el sitio web. estrellarse.
¿Lo has aprendido~~~?
¡Me gusta! ! !