Cómo utilizar Python para rastrear páginas con contenido js generado dinámicamente
Hay dos soluciones básicas para rastrear páginas que contienen contenido js generado dinámicamente
1 Utilice la biblioteca dryscrape para rastrear páginas dinámicamente
El navegador ejecuta los scripts Js y devuelve información, por lo que rastrea uno Una de las formas más sencillas de recuperar páginas que contienen contenido js generado dinámicamente es utilizar Python para simular el comportamiento del navegador. Dryscrape es una de estas bibliotecas, que llama al motor webkit para procesar páginas web que contienen js y más.
2 Marco de pruebas web de Selenium
Selenium es un marco de pruebas web que permite llamar al motor del navegador local para enviar solicitudes web, por lo que también se puede utilizar para cumplir con los requisitos de rastreo de páginas. .