¿Cuáles son las cosas que más deseas mejorar en el aprendizaje de Python?
1. Aprenda el paquete Python e implemente el proceso básico del rastreador.
La mayoría de los rastreadores siguen los pasos de "enviar una solicitud - obtener la página - analizar la página - extraer y almacenar contenido". Para llevar a cabo el proceso, esto en realidad simula el proceso en el que utilizamos el navegador para obtener información de la página web. Hay muchos paquetes relacionados con rastreadores en Python: urllib, request, bs4, scrapy, pyspider, etc. Se recomienda comenzar con request+Xpath request es responsable de conectarse al sitio web y devolver la página web, y Xpath se utiliza para. analizar páginas web para facilitar la extracción de datos.
Si ha utilizado BeautifulSoup, encontrará que Xpath le ahorra muchos problemas. Se omite todo el trabajo de verificar el código del elemento capa por capa. De esta manera, las rutinas básicas son casi las mismas y los sitios web estáticos normales no suponen ningún problema. Por supuesto, si necesita rastrear sitios web cargados de forma asincrónica, puede aprender a utilizar la captura de paquetes del navegador para analizar solicitudes reales o aprender Selenium para lograr la automatización.
2. Comprender el almacenamiento de datos no estructurados
Los datos rastreados se pueden almacenar directamente localmente en forma de documentos o se pueden almacenar en la base de datos. Cuando la cantidad de datos no es grande al principio, puede guardar los datos directamente como un archivo como csv mediante la sintaxis de Python o el método pandas. Por supuesto, es posible que los datos rastreados no estén limpios y que haya eliminaciones, errores, etc. También es necesario limpiar los datos. Puede aprender el uso básico del paquete pandas para realizar un preprocesamiento de datos para que estén más limpios. datos.
3. Aprenda scrapy y cree rastreadores diseñados
Básicamente, no es un problema dominar la tecnología anterior y los datos y códigos de nivel general, pero cuando se encuentre con situaciones muy complejas, aún puede hacerlo. Estará más allá de sus capacidades. En este momento, el poderoso marco scrapy es muy útil. Scrapy es un marco de rastreo muy poderoso. No solo puede construir solicitudes fácilmente, sino que también tiene un selector poderoso que puede analizar respuestas fácilmente. Sin embargo, lo más sorprendente es su rendimiento ultra alto, que le permite diseñar rastreadores y modularidad. . Después de aprender scrapy, puede crear algunos marcos de rastreo usted mismo y básicamente tendrá la idea de un ingeniero de rastreo de Python.
4. Aprenda el conocimiento de las bases de datos y haga frente al almacenamiento y la extracción de datos a gran escala
Python Inn envía sobres rojos y libros de papel
Cuando se rastrea la cantidad de datos La parte posterior es pequeña, puede almacenarla en forma de documentos una vez que la cantidad de datos sea grande, esto no funcionará. Por lo tanto, es necesario dominar una base de datos. Está bien aprender MongoDB, que actualmente es más común. MongoDB puede facilitarle el almacenamiento de algunos datos no estructurados, como el texto de varios comentarios, enlaces a imágenes, etc. También puede utilizar PyMongo para operar MongoDB en Python de forma más cómoda. Debido a que el conocimiento de la base de datos que se utilizará aquí es en realidad muy simple, principalmente cómo almacenar datos en la base de datos y cómo extraerlos, puede aprenderlo cuando sea necesario.
5. Domine varias técnicas para lidiar con las medidas anti-rastreo de sitios web especiales.
Por supuesto, también experimentará cierta desesperación durante el proceso de rastreo, como ser bloqueado por el sitio web. y varias cosas extrañas, códigos de verificación, restricciones de acceso del agente de usuario, varias cargas dinámicas, etc. Por supuesto, cuando se encuentre con estos métodos anti-rastreadores, necesitará algunas habilidades avanzadas para manejarlos, como control de frecuencia de acceso, uso de grupos de IP proxy, captura de paquetes, procesamiento OCR de códigos de verificación, etc. Los sitios web a menudo prefieren lo primero entre el desarrollo eficiente y los anti-rastreadores, lo que también proporciona espacio para los rastreadores. Dominar estas habilidades anti-rastreadores hará que sea difícil para la mayoría de los sitios web.
6. Los rastreadores distribuidos logran una recopilación simultánea a gran escala y mejoran la eficiencia.
El rastreo de datos básicos ya no es un problema. Su cuello de botella se centrará en la eficiencia del rastreo de datos masivos. En este momento, creo que, naturalmente, entrará en contacto con un nombre muy poderoso: rastreador distribuido. La distribución suena aterradora, pero en realidad utiliza el principio de subprocesos múltiples para permitir que varios rastreadores funcionen al mismo tiempo. Debe dominar las tres herramientas de Scrapy + MongoDB + Redis.
Como dijimos antes, Scrapy se usa para el rastreo básico de páginas, MongoDB se usa para almacenar datos rastreados y Redis se usa para almacenar la cola de páginas web a rastrear, que es la cola de tareas. Algunas cosas parecen aterradoras, pero en realidad, cuando se descomponen, no son más que eso. Cuando pueda escribir un rastreador distribuido, podrá intentar crear una arquitectura de rastreador básica para lograr una adquisición de datos más automatizada.
Siempre que siga la ruta de aprendizaje del rastreador de Python anterior y la complete paso a paso, incluso un principiante puede convertirse en un conductor experimentado, y el aprendizaje será muy fácil y fluido. Por lo tanto, cuando los principiantes comiencen, trate de no mordisquear algo sistemáticamente, busque un proyecto real y comience a trabajar directamente.
De hecho, aprender a programar en Python es muy similar a practicar artes marciales. Los pasos básicos para comenzar son los siguientes: encontrar un libro confiable, encontrar un maestro confiable y encontrar un lugar para comenzar a practicar.
Lo mismo ocurre con el aprendizaje de un idioma: elige un libro fácil de entender, encuentra un buen material de vídeo y luego instala una herramienta IDE tú mismo y empieza a aprender y escribir al mismo tiempo.
7. Sugerencias para principiantes que están aprendiendo a programar en Python:
①Confianza. Tal vez viste el video y no hiciste nada en la pantalla, pero no pudiste ejecutar el programa. Pero tengan confianza, todos están aquí por aquí.
②Elija el tutorial que más le convenga. Hay libros muy antiguos que son clásicos, pero no son muy adecuados para usted. Muchos de ellos solo serán de gran utilidad después de que hayamos aprendido Python una vez.
③Escribir código significa escribir y practicar continuamente. No hace falta decir que esto se aplica a cualquier idioma que aprendas. Siempre veo videos y no puedo inventar nada. Puedes comenzar con pequeños casos del libro y luego escribir un proyecto completo.
④ Además de aprender Python, también necesitas saber muchos conceptos básicos de informática y también puedes complementar algunos conocimientos de inglés.
⑤ No solo puedes escribir, sino que también puedes leer. Leer el código fuente es una habilidad, y depurar código es una habilidad aún mejor, que es la capacidad de resolver problemas y encontrar errores. Comprenda sus propios mensajes de error y resuélvalos usted mismo.
⑥Cuando alcances cierto nivel, lee más documentos oficiales, busca publicaciones de blog sobre Python en CSDN o comunícate con grupos.
Espero que aquellos que quieran aprender Python aprovechen bien su tiempo actual, administren bien su tiempo de aprendizaje y aprendan Python de manera eficiente. Python puede hacer muchas cosas con este lenguaje.