Red de conocimiento informático - Material del sitio web - Cómo analizar las reglas de rastreo de los rastreadores web de sitios web

Cómo analizar las reglas de rastreo de los rastreadores web de sitios web

Ahora que ha decidido utilizar un rastreador para organizar automáticamente sus artículos, debe comprender qué es un rastreador. Para decirlo claramente, un rastreador es un programa de script. Hablando de scripts, cuando normalmente nos encontramos con algunas tareas que requieren mucho tiempo, trabajo y son propensas a errores, podemos usar scripts para escribir comandos y dejar que la computadora los ejecute automáticamente. Los scripts de automatización mencionados por los estudiantes de prueba y los scripts de configuración del entorno mencionados por los estudiantes de operación y mantenimiento significan esto. Un script contiene muchos comandos, uno tras otro, que le dicen a la computadora qué hacer en el primer paso, qué hacer a continuación y qué hacer al final.

Aquí, nuestro objetivo es muy claro: escribir un script de rastreo para permitir que la computadora guarde todos los registros históricos del artículo "Hable con los gerentes de producto sobre tecnología" en formato pdf paso a paso.

¿Dónde puedo encontrar registros históricos? Da la casualidad de que la interfaz de seguimiento de WeChat tiene un enlace para ver mensajes históricos.

Haga clic en el mensaje histórico. Esta página muestra 10 artículos a la vez. Si el usuario se desliza hacia abajo, se cargarán 10 artículos más. Lo que buscamos es la dirección URL de cada artículo. Simplemente buscando la URL de todos los artículos, se puede descargar el contenido y las imágenes de cada artículo, que luego se pueden procesar en un pdf.

Para ello, podemos pulsar prolongadamente la página para seleccionarla y abrirla en el navegador, luego copiar la URL de la barra de direcciones, enviarla a nuestro ordenador y abrirla con el navegador Chrome. Lo bueno de usar el navegador Chrome es que tiene una "herramienta de desarrollo" que te permite ver el código fuente de la página directamente. Presione la opción de comando L para abrir las herramientas de desarrollador y podrá ver el código fuente de la página web. El contenido que buscamos está escondido en este lío de código HTML.

¿Cómo encontrar el enlace del artículo que queremos desde el código fuente HTML?

Esto comienza con la estructura de HTML. El nombre completo de HTML es Lenguaje de marcado de hipertexto. Verás muchos marcadores como inicio y fin, que son etiquetas. Estas etiquetas suelen aparecer en pares y también puede haber conjuntos de etiquetas dentro de las etiquetas, lo que indica una relación jerárquica. La etiqueta html más externa es la más grande, seguida del encabezado y el cuerpo, capa por capa, y finalmente un párrafo de texto y un enlace. Puedes compararlo con una persona. Esta persona se llama html. Tiene cabeza y cuerpo. El cuerpo está en la mano y la mano en los dedos.

Además, existen algunas etiquetas de uso común:

1. Gran parte de la información importante de la página web se declara aquí. Por ejemplo, el título se define en lt;headgt; bajo lt;titlegt;. Los estilos CSS utilizados en páginas web se pueden definir en stylegt en . El código JavaScript que escriba también se puede definir en