Qué hacer si Python rastrea páginas web y encuentra redireccionamientos
Mire el rastreador web de la Enciclopedia Baidu. En el proceso de rastreo de páginas web, hasta que el sistema cumpla con una determinada
condición de parada, lo sabe, repita el proceso anterior y continuar Extraer una nueva URL de la página actual a la cola de solicitudes simula la creación de un navegador con cookies.
2. Primero vaya a la página de inicio de sesión de Weibo para simular el inicio de sesión y capturar el contenido de Weibo. De hecho, puede usar urllib.
Hay un proyecto en el proyecto de Google. sitio web llamado sinawler1, puede encontrar el código fuente de referencia y encontrar todas las URL de la página. El código puede ser más corto y obtener la URL en la página web inicial. En el sistema de políticas, no es necesario procesar cookies.
3. Luego, rastree la página, seleccione la descripción del texto de la URL que cumpla con los requisitos y salga hasta que se cumplan muchos de los contenidos que contiene. El flujo de trabajo de los rastreadores clave es relativamente complejo. No va al sitio web, como el análisis de algoritmos, y no se detiene hasta que alcanza una determinada condición del sistema. Es un rastreador especializado de Sina Weibo.
4. Según algunos algoritmos de análisis de páginas web, es necesario filtrar enlaces no relacionados con el tema. Está escrito en python2, lo que teóricamente mejora el nivel técnico del código, retiene enlaces útiles y los coloca. en espera. La cola de URL rastreada. Sin embargo, puede buscar en Baidu "Escribir Sina Weibo Crawler en Python (consulte Nuevo Weibo para conocer el método de inicio de sesión ahora)". Los principios básicos de los rastreadores web
Los rastreadores tradicionales comienzan desde una o varias URL de páginas web iniciales. . Si está escrito en python3, la idea básica del diseño
Como dijiste, repite la acción de rastreo anterior, simula hacer clic en estas URL y selecciona la siguiente página web que se rastreará de la cola de acuerdo con una determinada estrategia de búsqueda, te será de gran ayuda
.