Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Cómo rastrea los datos el rastreador de Python después de iniciar sesión en Zhihu?

¿Cómo rastrea los datos el rastreador de Python después de iniciar sesión en Zhihu?

Inicio de sesión simulado

Muchos sitios web (como Zhihu, Weibo, Douban) requieren iniciar sesión para ver cierto contenido. Por lo tanto, si desea rastrear un sitio web de este tipo, primero debe simular un inicio de sesión. Una forma sencilla es utilizar la cookie del sitio web, que es un cuadro de contraseña que almacena la información básica del usuario en el sitio web. Una vez que inicie sesión, el sitio web recordará su información y la colocará en una cookie para que pueda iniciar sesión automáticamente la próxima vez. Por lo tanto, la estrategia para rastrear dichos sitios web es: primero iniciar sesión manualmente para obtener la cookie y luego, cuando vuelva a iniciar sesión, llamar a la cookie obtenida en el último inicio de sesión para lograr el inicio de sesión automático.

Rastreo dinámico

Al rastrear preguntas en Zhihu, debes deslizar la rueda del mouse hacia la parte inferior para mostrar nuevas respuestas. Los métodos de rastreo estáticos no pueden hacer esto, por lo que se puede introducir la biblioteca de selenio para resolver este problema. La biblioteca Selenium puede simular personas navegando por el sitio web y realizando acciones, lo cual es fácil de entender.