¿Cómo utilizar Python para rastrear sitios web estáticos y sus recursos internos?
1. Primero, instale el módulo de solicitudes. Simplemente ingrese el comando "pipinstallrequests" directamente en la ventana cmd, de la siguiente manera:
2. Si está instalado, al igual que las solicitudes, simplemente ingrese el comando de instalación "pipinstallbs4" directamente, de la siguiente manera:
3. Finalmente, las solicitudes se combinan con BeautifulSoup para rastrear la Enciclopedia de cosas embarazosas. para solicitar páginas y BeautifulSoup se utiliza para analizar páginas y extraer datos, los pasos principales y las capturas de pantalla son los siguientes:
Se supone que los datos rastreados contienen los siguientes campos, incluido el apodo del usuario, el contenido, Número divertido y número de comentario: luego abra el código fuente de la página web correspondiente y podrá ver directamente los campos Información. El contenido es el siguiente, anidado en cada etiqueta y luego analiza estas etiquetas para extraer datos:
Según el contenido de la página web anterior, el código de prueba es el siguiente, muy simple, simplemente busque la etiqueta correspondiente y extraiga el contenido del texto:
La captura de pantalla del programa ejecutándose es la siguiente, y el Los datos del sitio web se han capturado con éxito:
En este punto, hemos completado el uso de Python para rastrear sitios web estáticos. En general, todo el proceso es muy simple y también es el contenido del rastreador más básico. Siempre que tenga cierta base en Python y esté familiarizado con los ejemplos anteriores, puede dominarlo rápidamente. urllib y coincidencia de expresiones regulares. Espere, lo que sea. También hay tutoriales e información relevantes en Internet. Si está interesado, puede buscarlo. También son bienvenidos a comentar y dejar mensajes para agregar.