Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Qué bibliotecas se utilizan para escribir rastreadores en Python?

¿Qué bibliotecas se utilizan para escribir rastreadores en Python?

El rastreador de Python, el nombre completo del rastreador web de Python, es un programa o script que rastrea automáticamente información de la World Wide Web de acuerdo con ciertas reglas. Se utiliza principalmente para rastrear datos de comercio de valores, datos meteorológicos y usuarios de sitios web. datos y datos de imágenes, etc. Para admitir las funciones normales de los rastreadores web, Python tiene una gran cantidad de bibliotecas integradas, principalmente de varios tipos. El siguiente artículo se lo presentará.

1. Biblioteca de red de rastreadores de Python

La biblioteca de redes de rastreadores de Python incluye principalmente: urllib, request, grab, pycurl, urllib3, httplib2, RoboBrowser, MechanicalSoup, mechanize, socket, Unirest para Python. , hiper, PySocks, treq y aiohttp, etc.

2. Marco de rastreo web de Python

El marco de rastreo web de Python incluye principalmente: grab, scrapy, pyspider, cola, portia, restkit y demiurge, etc.

3. ¿Analizador HTML/XML?

●lxml: una biblioteca de procesamiento HTML/XML eficiente escrita en lenguaje C. Soporta XPath.

●cssselect: Analiza el árbol DOM y el selector CSS.

●pyquery: analiza el árbol DOM y el selector jQuery.

●BeautifulSoup: Biblioteca de procesamiento HTML/XML ineficiente, implementada en Python puro.

●html5lib: Genera el DOM de documentos HTML/XML según la especificación WHATWG. Esta especificación se utiliza en todos los navegadores actuales.

●feedparser: analiza canales RSS/ATOM.

●MarkupSafe: proporciona cadenas de escape seguras para XML/HTML/XHTML.

●xmltodict: un módulo de Python que hace que el procesamiento XML parezca JSON.

●xhtml2pdf: Convierte HTML/CSS a PDF.

●untangle: convierte fácilmente archivos XML en objetos Python.

4. Procesamiento de texto

Una biblioteca para analizar y manipular texto simple.

●difflib: (biblioteca estándar de Python) ayuda con comparaciones diferenciales.

●Levenshtein: calcula rápidamente la distancia de Levenshtein y la similitud de cadenas.

●fuzzywuzzy: coincidencia de cadenas difusa.

●esmre: Acelerador de expresiones regulares.

●ftfy: organiza automáticamente el texto Unicode para reducir la fragmentación.

5. Procesamiento de archivos de formato específico

Biblioteca para analizar y procesar formatos de texto específicos.

●tablib: Un módulo que exporta datos a XLS, CSV, JSON, YAML y otros formatos.

●textract: extrae texto de varios archivos, como Word, PowerPoint, PDF, etc.

●messytables: una herramienta para analizar datos tabulares desordenados.

●rows: una interfaz de datos común que admite muchos formatos (actualmente admite CSV, HTML, XLS, TXT: ¡se proporcionarán más en el futuro!).