¿Qué significa reptil?
1.¿Qué significa rastreador de Python?
Rastreador: programa o script que rastrea automáticamente información de la World Wide Web de acuerdo con ciertas reglas. Otros nombres menos utilizados son ant, autoindex, emulador o gusano.
Es decir: abre una página web, hay una herramienta que puede obtener el contenido de la página web y guardarlo en el lugar que desees. Esta herramienta es un rastreador.
La arquitectura del rastreador de Python consta de:
1. Analizador de páginas web, analiza una cadena de página web, puede extraer nuestra información útil de acuerdo con nuestros requisitos o puede seguir el método de análisis del árbol DOM. Realizar análisis.
2. Administrador de URL: incluye la dirección URL que se rastreará y la dirección URL que se ha rastreado, para evitar el rastreo repetido de URL y el rastreo en bucle de URL. El administrador de URL se implementa principalmente de tres formas: a través de memoria, base de datos y base de datos caché.
3. Descargador de páginas web: descargue una página web pasando una dirección URL y convierta la página web en una cadena. El descargador web incluye URL lib 2 (módulo base oficial de Python), que incluye inicio de sesión, proxy, cookies y solicitudes (paquetes de terceros).
4. Programador: equivalente a la CPU de la computadora, principal responsable de programar la coordinación entre el administrador de URL, el descargador y el analizador.
5. Aplicación: Es una aplicación compuesta por la extracción de datos útiles de páginas web.
2. ¿Cómo rastrea los datos el rastreador?
1. Rastrear páginas web
Rastrear una página web a veces requiere simular el comportamiento de un navegador. Muchos sitios web prohíben el rastreo rígido. Es por eso que necesitamos simular el comportamiento del agente de usuario para construir una solicitud adecuada, como simular el inicio de sesión del usuario y simular el almacenamiento y configuración de sesiones/cookies.
2. Procesamiento posterior al rastreo
Las páginas web rastreadas generalmente necesitan ser procesadas, como filtrar etiquetas html, extraer texto, etc. Beautifulsoap de Python proporciona funciones simples de procesamiento de documentos y puede completar la mayor parte del procesamiento de documentos con códigos muy cortos.
De hecho, muchos lenguajes y herramientas pueden realizar las funciones anteriores, pero Python es el más rápido y limpio. Lo anterior ha introducido algunos conocimientos básicos sobre los rastreadores de Python. Creo que todos tienen una cierta comprensión de "qué significan los rastreadores de Python" y "cómo los rastreadores rastrean datos". En la era actual de big data, muchas personas comienzan a aprender Python a través de rastreadores y cada vez más personas aprenden rastreadores en línea. Por lo general, los rastreadores encontrarán restricciones de IP al rastrear datos. El uso de un proxy invisible puede superar las restricciones de IP y ayudar a los rastreadores a superar las restricciones de los sitios web.