Red de conocimiento informático - Material del sitio web - Cómo empezar a utilizar el rastreador de Python

Cómo empezar a utilizar el rastreador de Python

Personalmente pienso:

Los principiantes deberían usar las siguientes cuatro bibliotecas cuando aprenden Python: (La cuarta realmente no es aplicable y, por supuesto, puede que no sea aplicable en algunos casos especiales).

1. Abra la página web y descargue el archivo: urllib.

2. Analizar páginas web: si está familiarizado con JQuery, puede utilizar Pyquery.

3. Utilice solicitudes para enviar varios tipos de solicitudes y admita redirecciones, cookies, etc.

4. Utilice Selenium para simular que el navegador envíe operaciones similares a las del usuario y procese páginas web generadas dinámicamente por js.

Estas bibliotecas tienen sus propias funciones. Juntos, pueden completar las funciones de rastreo y análisis de varias páginas web. El uso específico se puede encontrar en el manual de su sitio web oficial (enlace arriba).

Sé audaz en lo que haces. Si no hay nada especial que agarrar, los novatos pueden comenzar a aprender en este sitio web.

En la actualidad, ha actualizado al quinto nivel. Después de completar los primeros cuatro niveles, debería haber dominado las operaciones básicas de estas bibliotecas.

Realmente no puedo pensar en eso. Echemos un vistazo a la solución aquí. El nivel 4 empleará programación paralela. (La programación en serie tarda mucho en completar el nivel 4), los niveles 4 y 5 solo tienen problemas y las soluciones aún no se han publicado. . .

Después de aprender estos conocimientos básicos, será más fácil aprender scrapy, un potente marco de rastreo. A continuación se muestra su introducción en chino.