Red de conocimiento informático - Material del sitio web - ¿Cómo rastrear datos de sitios web usando Python?

¿Cómo rastrear datos de sitios web usando Python?

Aquí hay una breve introducción, tomando como ejemplo la captura de datos estáticos y dinámicos del sitio web. El entorno experimental es win1python3.6+pycharm5.0. Los contenidos principales son los siguientes:<. /p>

Capturar Obtener datos estáticos del sitio web (los datos están en el código fuente de la página web): tome la Enciclopedia de datos de sitios web vergonzosos como ejemplo

Aquí asumimos que los datos que capturamos. es el siguiente, que incluye principalmente el apodo del usuario, el contenido, la cantidad de cosas divertidas y la cantidad de 4 campos, de la siguiente manera:

El código fuente de la página web correspondiente es el siguiente, incluidos los datos que necesitamos:

2. Estructura de la página web correspondiente, el código principal es el siguiente, muy simple, principalmente usando solicitudes + BeautifulSoup, donde las solicitudes se usan para solicitar páginas y BeautifulSoup se usa para analizar páginas:

La captura de pantalla que ejecuta el programa es la siguiente y los datos se han rastreado correctamente:

Rastreo de datos dinámicos del sitio web (los datos no están en el código fuente de la página web, json y otros archivos): tome el sitio web de Renrendai datos como ejemplo

1. Aquí asumimos que estamos rastreando datos de bonos, que incluyen principalmente la tasa de interés anual, el título del préstamo, el plazo, el monto y el progreso. Las capturas de pantalla de la información de estos 5 campos son las siguientes:

Cuando abre el código fuente de la página web, puede encontrar que los datos no están en el código fuente de la página web. Cuando presiona F12 para capturar el paquete y analizarlo, descubre que está en un archivo json. , de la siguiente manera:

2. Después de obtener la URL del archivo json, podemos rastrear los datos correspondientes. El paquete utilizado aquí es similar al anterior. Debido a que es un archivo json, el paquete json (. análisis json) también se utiliza. Los contenidos principales son los siguientes:

La captura de pantalla del programa en ejecución es la siguiente y los datos se capturaron con éxito:

En este punto, Se ha introducido la captura de estos dos tipos de datos, incluidos datos estáticos y datos dinámicos. En general, estos dos ejemplos no son difíciles. Son rastreadores de nivel básico y la estructura de la página web es relativamente simple. Lo más importante es poder capturar paquetes y analizar y extraer las páginas después de familiarizarse con ellos. , puede usar scrapy. El marco puede hacer que el rastreo de datos sea más conveniente y eficiente. Por supuesto, si las páginas rastreadas son más complejas, como códigos de verificación, cifrado, etc., también se necesitan algunos tutoriales. En Internet como referencia, si está interesado, puede buscarlo. Espero que el contenido compartido anteriormente le resulte útil.