Si el contenido de la página se genera mediante javascript, ¿cómo se debe implementar el rastreador?
Para los dos métodos mencionados anteriormente, la captura y el análisis de paquetes obtienen los parámetros de solicitud e impulsan el kernel del navegador para ejecutar el código js. Ambos métodos tienen sus propias ventajas. Simplemente elija el método que más le convenga.
La ventaja de este método de análisis de paquetes de datos es que la velocidad de rastreo es rápida, la estructura de datos obtenida es relativamente buena y es fácil de procesar. Muchos datos están en formato json, pero en paquetes. El análisis requiere mucho tiempo. Aquí el tiempo se refiere a la necesidad de simular la obtención de los datos de la solicitud anterior o de varias solicitudes anteriores, lo que implica muchos parámetros en el archivo de encabezado y, a veces, es posible que sea necesario cifrar los datos en este proceso. lee js y este proceso no es fácil. Durante este proceso, es posible que necesites leer el código fuente js para resolver el problema. Por lo tanto, este método es adecuado para sitios web con menos parámetros de solicitud y mejores estructuras de datos.
2. Controle el kernel del navegador. La ventaja de este método es que la implementación de la programación es relativamente simple. Siempre que aprenda a controlar la API del navegador, podrá usarlo para muchos sitios web diferentes y rastrearlo. con una pequeña cantidad de cambios. Sin embargo, las desventajas también son obvias: es lento, consume muchos recursos y no es tan flexible como el análisis de paquetes para obtener datos.
He utilizado el análisis de paquetes para capturar muchos sitios web y también analicé los mecanismos de inicio de sesión de muchos sitios web. He utilizado Python para reescribir solicitudes js y simular inicios de sesión. Estoy un poco paranoico con el análisis de paquetes. I El punto de vista es: resolver el problema con el menor tiempo y costo. El tiempo y el costo aquí se refieren a la suma del tiempo de programación y el tiempo de rastreo. Por supuesto, si estás aprendiendo, te recomiendo aprender ambos métodos.