Red de conocimiento informático - Conocimiento informático - ¿Cómo obtener datos de un sitio web a través de rastreadores web?

¿Cómo obtener datos de un sitio web a través de rastreadores web?

Aquí tomamos Python como ejemplo para presentar brevemente cómo obtener datos del sitio web a través del rastreador web de Python. Se divide principalmente en rastreo de datos de páginas web estáticas y rastreo de datos de páginas web dinámicas. El entorno experimental es win1. python3.6+pycharm5.0, el contenido principal es el siguiente:

Datos de la página web estática

Los datos aquí están anidados en el código fuente de la página web. 0. El contenido principal es el siguiente:

Datos estáticos de la página web

Todos los datos aquí están anidados en el código fuente de la página web, por lo que puede solicitar directamente el código fuente de la página web. Para el análisis, lo presentaré brevemente a continuación. Por un momento, aquí hay un ejemplo de captura de datos de la Enciclopedia del Gobierno Humilde:

1. los campos a capturar incluyen apodo, contenido, número de risas y número de comentarios:

Luego vea el código fuente de la página web, como se muestra a continuación, puede ver que todos los datos están anidados en la fuente código de la página web. Luego, para la estructura de la página web anterior, podemos escribir directamente el código del rastreador para analizar la página web y extraer los datos que necesitamos. El código de prueba es el siguiente, muy simple, utilizando principalmente la combinación de solicitudes + BeautifulSoup, donde se utilizan las solicitudes para obtener. el código fuente de la página web y BeautifulSoup se utiliza para analizar la página web. Extraer datos:

Haga clic para ejecutar el programa. El efecto es el siguiente. Los datos que necesitamos se han capturado con éxito. >

Datos dinámicos de la página web

Los datos aquí no están allí. En el código fuente de la página web (por lo que no obtendrá ningún dato al solicitar directamente la página web), en la mayoría de los casos es almacenados en un archivo json. Los datos solo se cargarán cuando se actualice la página web. Aquí presentaré brevemente este método, aquí hay un ejemplo de captura de datos en Renrendai:

1. página web original, como se muestra a continuación. Se supone que los datos que se capturarán incluyen la tasa de interés anual, el título del prestatario, el plazo y el monto y el progreso:

Luego presione F12 para abrir las herramientas de desarrollador. haga clic en "Red" -> "XHR", actualice la página con F5 y podrá encontrar el archivo json cargado dinámicamente, como se muestra a continuación, que es lo que necesitamos para capturar los datos tomados:

2. Escribimos el código correspondiente en función de este archivo json para analizar la información de campo que necesitamos. El código de prueba es el siguiente, que también es muy simple. Utiliza principalmente la combinación de solicitudes + json, donde request Se utiliza para solicitar archivos json, json. se utiliza para analizar archivos json y extraer datos:

Haga clic para ejecutar el programa, el efecto es el siguiente, los datos que necesitamos se han capturado con éxito:

Podemos encontrar The dinámicamente El archivo json cargado, como se muestra a continuación, son los datos que necesitamos rastrear:

2.

En este punto, hemos completado el proceso de uso del rastreador web de Python para obtener el sitio web. datos. En general, todo el proceso es muy simple. Python tiene muchos paquetes y marcos de rastreadores web integrados (scrapy, etc.), que pueden obtener rápidamente datos del sitio web. Es muy adecuado para que los principiantes aprendan y dominen. Si tiene una cierta base de rastreo y está familiarizado con el proceso y el código anteriores, puede dominarlo rápidamente. Por supuesto, también puede utilizar software de rastreo ya preparado, como Octopus, Houyi, etc. En Internet. También hay tutoriales y materiales relacionados en Internet, que son muy ricos. Si está interesado, puede buscarlos. Espero que el contenido compartido anteriormente le resulte útil. También puede comentar y dejar mensajes para agregar. .