Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Qué bibliotecas utilizan los rastreadores de Python?

¿Qué bibliotecas utilizan los rastreadores de Python?

El rastreador de Python, el nombre completo del rastreador web de Python, es un programa o script que rastrea automáticamente información de la World Wide Web de acuerdo con ciertas reglas. Se utiliza principalmente para rastrear datos de comercio de valores, datos meteorológicos y usuarios de sitios web. datos y datos de imágenes, etc. Para admitir las funciones normales de los rastreadores web, Python tiene una gran cantidad de bibliotecas integradas, principalmente de varios tipos. El siguiente artículo se lo presentará.

1. Biblioteca de red de rastreador de Python

La biblioteca de red de rastreador de Python incluye principalmente: urllib, request, grab, pycurl, urllib3: ejecución de códigos R, Python y matlab en la nube.

12. Correo electrónico

●flanker: dirección de correo electrónico y biblioteca de análisis Mime;

●Talon: biblioteca Mailgun utilizada para extraer citas y firmas de mensajes.

13. Operaciones de direcciones de red y sitios web

●furl: una pequeña biblioteca de Python que facilita la manipulación de URL;

purl: una simple URL inmutable y una API limpia para depuración y manipulación;

●urllib.parse: se utiliza para romper el aislamiento de las cadenas del localizador uniforme de recursos (URL) entre componentes, para combinar el componente en una cadena URL y convierte el " URL relativa" en una URL absoluta, denominada "URL base";

●tldextract: separa con precisión el TLD del dominio registrado y el subdominio de la URL, utilizando la lista de sufijos públicos ***;

●etaddr: biblioteca de Python para mostrar y manipular direcciones de red.

14. Extracción de contenido de páginas web

●newspaper: utilice Python para la extracción de noticias, extracción de artículos y curación de contenidos;

●html2text: convierta HTML a formato Markdown. text;

●python-goose: contenido HTML, extractor de artículos;

●lassie: herramienta de recuperación de contenido web humanizada;

●micawber: una pequeña biblioteca para extraer contenido enriquecido de las URL;

sumy: un módulo que resume automáticamente archivos de texto y páginas web HTML;

Haul: un rastreador de imágenes escalable

●python; -legibilidad: una interfaz Python rápida para la herramienta de legibilidad arc90;

●scrapely: una biblioteca para extraer datos estructurados de páginas web HTML;

●youtube -dl: una pequeña línea de comando programa para descargar vídeos de YouTube;

●you-get: YouTube, descargador de vídeos Youku/Niconico para Python3;

WikiTeam: descarga y guarda herramientas para wikis.

15. WebSocket

●Crossbar: un enrutador de mensajería de aplicaciones de código abierto;

●AutobahnPython: proporciona implementaciones Python del protocolo WebSocket y el protocolo WAMP y es abierto fuente;

●WebSocket-for-Python: bibliotecas de cliente y servidor WebSocket para Python 2 y 3 y PyPy.

16. Análisis de DNS

●dnsyo: Comprueba tus DNS en más de 1.500 servidores DNS en todo el mundo;

●pycares: interfaz c-ares.

17. Visión por ordenador

●OpenCV: biblioteca de visión por ordenador de código abierto;

●SimpleCV: utilizada para cámaras, procesamiento de imágenes, extracción de características y conversión de formato. Introducción, una interfaz legible;

●mahotas: un algoritmo rápido de procesamiento de imágenes por computadora, completamente basado en matrices numpy como tipo de datos.

18. Servidor proxy

●shadowsocks: un proxy de túnel rápido que puede ayudarte a penetrar el firewall;

●tproxy: tproxy es un proxy de enrutamiento TCP simple. , basado en Gevent, configurado en Python.

Diecinueve. Lista de otras herramientas de Python

●awesome-python

●pycrumbs

●python-github-projects

●python_reference

●pythonidae