Cómo analizar las reglas de rastreo de los rastreadores web de sitios web
Aquí, nuestro objetivo es muy claro: escribir un script de rastreo para permitir que la computadora guarde todos los registros históricos del artículo "Hable con los gerentes de producto sobre tecnología" en formato pdf paso a paso.
¿Dónde puedo encontrar registros históricos? Da la casualidad de que la interfaz de seguimiento de WeChat tiene un enlace para ver mensajes históricos.
Haga clic en el mensaje histórico. Esta página muestra 10 artículos a la vez. Si el usuario se desliza hacia abajo, se cargarán 10 artículos más. Lo que buscamos es la dirección URL de cada artículo. Simplemente buscando la URL de todos los artículos, se puede descargar el contenido y las imágenes de cada artículo, que luego se pueden procesar en un pdf.
Para ello, podemos pulsar prolongadamente la página para seleccionarla y abrirla en el navegador, luego copiar la URL de la barra de direcciones, enviarla a nuestro ordenador y abrirla con el navegador Chrome. Lo bueno de usar el navegador Chrome es que tiene una "herramienta de desarrollo" que te permite ver el código fuente de la página directamente. Presione la opción de comando L para abrir las herramientas de desarrollador y podrá ver el código fuente de la página web. El contenido que buscamos está escondido en este lío de código HTML.
¿Cómo encontrar el enlace del artículo que queremos desde el código fuente HTML?
Esto comienza con la estructura de HTML. El nombre completo de HTML es Lenguaje de marcado de hipertexto. Verás muchos marcadores como inicio y fin, que son etiquetas. Estas etiquetas suelen aparecer en pares y también puede haber conjuntos de etiquetas dentro de las etiquetas, lo que indica una relación jerárquica. La etiqueta html más externa es la más grande, seguida del encabezado y el cuerpo, capa por capa, y finalmente un párrafo de texto y un enlace. Puedes compararlo con una persona. Esta persona se llama html. Tiene cabeza y cuerpo. El cuerpo está en la mano y la mano en los dedos.
Además, existen algunas etiquetas de uso común:
1. Gran parte de la información importante de la página web se declara aquí. Por ejemplo, el título se define en lt;headgt; bajo lt;titlegt;. Los estilos CSS utilizados en páginas web se pueden definir en stylegt en