Cómo rastrear la página actual de Sina Weibo
Aquí hay dos métodos: 1. Analizar el script ajax, encontrar el script js correspondiente a los datos cargados y luego analizar su lógica. Generalmente, se generará una solicitud http y luego esta solicitud http. generalmente solo devolverá los datos en formato jason. Puede simular esta solicitud mediante código para obtener los datos. Sin embargo, este método es relativamente anticuado y muy problemático. Requiere que estudies la lógica del código js. Será aún más problemático si no escribes código. Por supuesto, existen algunas herramientas de análisis de paquetes de comunicación de red, como Fiddler, que pueden ayudarle.
2. Para utilizar el software de recopilación inteligente más convencional, como Octopus, es necesario admitir navegadores y recopilación visual, de modo que el software simule automáticamente las operaciones humanas para completar todo el trabajo, incluida la ejecución de scripts en la interfaz. Finalmente, los datos que ve en la interfaz no son diferentes de las páginas web que ve en línea, pero este tipo de herramienta puede extraer automáticamente los datos que ve en las páginas web. Los datos se pueden extraer con sólo unos pocos clics del mouse. Este método es adecuado para personas que no entienden el código.
3. Por supuesto, también puedes conectarte a Internet para aprender cómo otros recopilan datos de Weibo. Entonces será mucho más sencillo utilizar los frutos del trabajo de otras personas. Por ejemplo, busqué las reglas de recopilación de datos de Weibo sobre Haodou de acuerdo con su solicitud y aparecieron muchas. La captura de pantalla es la siguiente: Puede ver que hay cuentas de Weibo, temas, comentarios, celebridades, etc., y otros han escrito en detalle cómo usar estas cosas.