Red de conocimiento informático - Material del sitio web - Cómo utilizar Python para obtener información de página dinámica

Cómo utilizar Python para obtener información de página dinámica

Hace mucho tiempo, mientras aprendía programación web en Python, me encontré con una URL de Python. Puede leer fácilmente información estática en una página usando urllib.urlopen("url").read(). Sin embargo, con el desarrollo de los tiempos, cada vez más páginas web utilizan lenguajes como javascript, jQuery y PHP para generar dinámicamente información de la página. Por lo tanto, usar urllib para capturar el HTML de la página no es suficiente para lograr los resultados que queremos.

Solución:

Existe una forma más sencilla de analizar dinámicamente la información de la página. La información procesada que se muestra en el navegador es en realidad un documento HTML procesado. Esto proporciona una excelente manera de capturar información dinámica de la página. En Python, existe una biblioteca de gráficos muy famosa, PyQt. Aunque PyQt es sólo una biblioteca de gráficos, el QtWebkit que incluye es muy útil. El navegador Chrome de Google y el navegador Safari de Apple se basan en el kernel WebKit, por lo que podemos usar QtWebKit en PyQt para leer y cargar información de la página en un documento HTML, luego analizar el documento HTML y extraer el contenido que queremos de la información del documento HTML. para ser utilizado.

El autor utiliza Mac OS X.

1. Biblioteca Qt4

Biblioteca, no Creador. La biblioteca está en la ruta de instalación predeterminada de Mac, que debe ser /home/nombre de usuario/Desarrollador/. No cambie la ruta de instalación predeterminada de Qt4. De lo contrario, la instalación puede fallar.

URL oficial:/snakewu1994/StyleBasis_Four/en_album_607236.shtml")

Parser = MyParser()

Parser.feed(browser.html)

imprimir "Listo"

browser.close()

Usando este programa, puedes descargar todas las imágenes de la página con solo unas simples líneas. Esta difícil tarea. Este es de hecho el punto fuerte del lenguaje Python, y luego esta difícil tarea se deja en manos de un tercero.