¿Es fácil escribir el rastreador de Python?
(1) Biblioteca básica: módulo urllib/módulo de terceros de solicitudes
En primer lugar, los rastreadores rastrean desde páginas web y necesitamos hacerlo. rastrear información, luego tenemos que aprender el módulo urllib/requests. Estos dos módulos son responsables de rastrear páginas web. Vamos a tener una idea de cuáles hábitos usar y simplemente elijamos aquel en el que domina. Recomiendo a los lectores que utilicen el módulo de solicitudes, porque este tipo de módulo es mucho más simple, fácil de operar y de entender, por lo que las solicitudes se denominan "módulo humanizado".
(2) Multiproceso, multiproceso, procesamiento cooperativo y proceso distribuido:
¿Por qué deberíamos aprender estos cuatro puntos? Si desea rastrear 2 millones de datos, podría llevar una semana o más rastrear y descargar esos datos mediante un único proceso o subproceso típico. ¿Es este el resultado que quieres ver? Obviamente, un solo proceso y un solo hilo no pueden cumplir con nuestra búsqueda de alta eficiencia y consumen demasiado tiempo. Al configurar múltiples procesos e hilos, puede rastrear datos 10 veces o más rápido.
(3) Biblioteca de extracción y análisis de páginas web: xpath/BeautifulSoup4/Regular Expression
Hay mucha información en el código fuente de la página web capturada a través de los anteriores (1) y (2) Es lo que no queremos, por lo que debemos filtrar la información inútil y dejar la información que es valiosa para nosotros. Aquí hay tres analizadores, cada uno con sus propias características y deficiencias en diferentes escenarios. En general, será muy conveniente aprender a utilizar estos tres de manera flexible. Se recomienda a amigos que no entienden muy bien o que recién comienzan a gatear. Aprender BeautifulSoup4 es muy fácil de dominar, se puede aplicar rápidamente a la práctica y sus funciones también son muy poderosas.
(4) Antibloqueo: encabezado de solicitud/servidor proxy/cookie
El rastreo de páginas web a veces falla. Esto se debe a que otros sitios web han configurado medidas anti-rastreo en este momento. , Necesitaremos disfrazar nuestro comportamiento para que el otro sitio web no se dé cuenta de que somos un rastreador. La configuración del encabezado de solicitud se simula principalmente como un comportamiento del navegador; la IP está bloqueada y debe descifrarse mediante un servidor proxy y la cookie se simula como un comportamiento de inicio de sesión para ingresar al sitio web;
(5) Excepción: manejo de tiempo de espera / manejo de excepciones, no lo presentaré aquí, búsquelo usted mismo.
(6) Repositorio de datos: almacenamiento del sistema de archivos/MySQL/MongoDB
Hay aproximadamente tres formas de almacenamiento del sistema de archivos que utilizan Python para realizar operaciones con archivos. base de datos para crear tablas para almacenar datos; MongoDB es un muy buen método de almacenamiento en rastreadores, y los rastreadores distribuidos usan MongoDB. MongoDB es un método de almacenamiento muy bueno en los rastreadores, y los rastreadores distribuidos utilizan MongoDB para el almacenamiento. Cada uno tiene sus propias características, depende de cuál necesites, úsalo con flexibilidad.
(7) Rastreador web dinámico: tres puntos de conocimiento de Ajax/PhantomJS/Selenium
(8) Captura de paquetes: captura de paquetes de aplicaciones/rastreador de API
( 9) Simular el aterrizaje del rastreador