Red de conocimiento informático - Problemas con los teléfonos móviles - Python rastreo.

Python rastreo.

1. Principios básicos de los rastreadores web

Los rastreadores tradicionales parten de la URL de una o varias páginas web iniciales y obtienen la URL de la página web inicial. En el proceso de rastreo de páginas web, extrae continuamente nuevas URL de la página actual y las coloca en la cola hasta que el sistema cumple con ciertos requisitos.

Condición de parada. El flujo de trabajo del rastreador enfocado es relativamente complejo. Necesita filtrar enlaces irrelevantes para el tema de acuerdo con un determinado algoritmo de análisis de páginas web, retener enlaces útiles y colocarlos en la cola de URL para esperar el rastreo. Luego, echará raíces

De acuerdo con una determinada estrategia de búsqueda, seleccione la URL de la siguiente página a rastrear de la cola y repita el proceso anterior hasta que se alcance una determinada condición del sistema.

2. Concepto de diseño básico

Como dijiste, primero ve a la página de inicio de sesión de Weibo para simular el inicio de sesión, toma la página, busca todas las URL de la página y selecciona la URL. que cumpla con los requisitos Descripción de texto, simule hacer clic en estas URL y repita la acción de rastreo anterior hasta que se cumplan los requisitos y salga.

3. Proyectos existentes

Hay un proyecto en el sitio web de Google Project llamado sinawler, que es un rastreador especializado de Sina Weibo que se utiliza para rastrear contenido de Weibo. No puedes entrar al sitio web, ¿sabes? Sin embargo, puede consultar el "rastreador Sina Weibo escrito en Python" de Baidu (consulte Nuevo Weibo para conocer el método de inicio de sesión actual) y puede encontrar el código fuente de referencia, que está escrito en Python2. Si está escrito en python3, puede usar urllib.request para simular la creación de un navegador con cookies, eliminando la necesidad de procesar cookies y acortando el código.

4. Además,

Consulte la Enciclopedia Baidu de rastreadores web. Contiene una gran cantidad de contenido detallado, como análisis de algoritmos y sistemas de estrategia. Será de gran ayuda. Desde la teoría Mejorar el nivel técnico del código.