Red de conocimiento informático - Material del sitio web - ¿Cómo utilizar Python para rastrear sitios web estáticos y sus recursos internos?

¿Cómo utilizar Python para rastrear sitios web estáticos y sus recursos internos?

1. Primero, instale el módulo de solicitudes. Simplemente ingrese el comando "pipinstallrequests" directamente en la ventana cmd, de la siguiente manera:

2. Si está instalado, al igual que las solicitudes, simplemente ingrese el comando de instalación "pipinstallbs4" directamente, de la siguiente manera:

3. Finalmente, las solicitudes se combinan con BeautifulSoup para rastrear la Enciclopedia de cosas embarazosas. para solicitar páginas y BeautifulSoup se utiliza para analizar páginas y extraer datos, los pasos principales y las capturas de pantalla son los siguientes:

Se supone que los datos rastreados contienen los siguientes campos, incluido el apodo del usuario, el contenido, Número divertido y número de comentario: luego abra el código fuente de la página web correspondiente y podrá ver directamente los campos Información. El contenido es el siguiente, anidado en cada etiqueta y luego analiza estas etiquetas para extraer datos:

Según el contenido de la página web anterior, el código de prueba es el siguiente, muy simple, simplemente busque la etiqueta correspondiente y extraiga el contenido del texto:

La captura de pantalla del programa ejecutándose es la siguiente, y el Los datos del sitio web se han capturado con éxito:

En este punto, hemos completado el uso de Python para rastrear sitios web estáticos. En general, todo el proceso es muy simple y también es el contenido del rastreador más básico. Siempre que tenga cierta base en Python y esté familiarizado con los ejemplos anteriores, puede dominarlo rápidamente. urllib y coincidencia de expresiones regulares. Espere, lo que sea. También hay tutoriales e información relevantes en Internet. Si está interesado, puede buscarlo. También son bienvenidos a comentar y dejar mensajes para agregar.

上篇: Cómo instalar tensorflow en Spark 下篇: Conceptos relacionados de Tianjin Port Container Terminal Co., Ltd.

¿Cómo utilizar Python para rastrear sitios web estáticos y sus recursos internos?

Artículos populares