¿Cómo utilizar el rastreador de Python para rastrear contenido web?
En realidad, si observa un rastreador web de manera abstracta, incluye los siguientes pasos
Simular una solicitud de una página web. Simule un navegador y abra el sitio web de destino.
Obtener datos. Después de abrir el sitio web, podemos obtener automáticamente los datos que necesitamos del sitio web.
Guardar datos. Después de obtener los datos, es necesario conservarlos en un dispositivo de almacenamiento, como un archivo local o una base de datos.
Entonces, ¿cómo escribimos nuestro propio rastreador en Python? Aquí, me gustaría destacar una biblioteca de Python:
Uso de solicitudes
La biblioteca de solicitudes es una biblioteca de Python para realizar solicitudes HTTP que es muy fácil de usar.
Simulando el envío de una solicitud HTTP
Enviando una solicitud GET
Cuando abrimos la página de inicio de Douban en el navegador, la solicitud original que enviamos es en realidad una solicitud GET
importar solicitudes
res = request.get('')
imprimir(res)
imprimir(tipo(res))
>>>