Red de conocimiento informático - Conocimiento sistemático - ¿Qué son los marcos de reptiles?

¿Qué son los marcos de reptiles?

Existen muchos entornos de programación para implementar la tecnología de rastreadores, y Java, Python y C se pueden utilizar para los rastreadores. Pero mucha gente elige Python para escribir rastreadores. ¿Por qué? Porque Python es realmente muy adecuado para los rastreadores y las ricas bibliotecas de terceros son muy poderosas. Puede lograr las funciones que desea con solo unas pocas líneas de código. Además, Python también es un excelente experto en extracción y análisis de datos. Entonces, ¿qué marco se utiliza generalmente para los rastreadores de Python?

En términos generales, el marco del rastreador de Python solo se utilizará cuando haya una gran demanda. El objetivo principal de esto es facilitar la gestión y la expansión. En este artículo, recomendaré diez marcos de rastreo de Python.

Inserte aquí la descripción de la imagen.

1. Scrapy: Scrapy es un marco de aplicación escrito para rastrear datos de sitios web y extraer datos estructurados. Se puede utilizar en una variedad de programas que incluyen extracción de datos, procesamiento de información o almacenamiento de datos históricos. Es un potente marco de rastreo que puede satisfacer el rastreo de páginas simple. Por ejemplo, puede conocer claramente el patrón de URL. Con este marco, puede rastrear fácilmente datos como la información de productos de Amazon. Pero para páginas un poco más complejas, como la información de las páginas de Weibo, este marco no puede satisfacer las necesidades. Sus características son: soporte integrado para la selección y extracción de datos fuente HTML y XML; proporciona una serie de filtros reutilizables (es decir, cargadores de proyectos) compartidos entre arañas, proporcionando soporte integrado para el procesamiento inteligente de datos capturados.

2. Crawley: captura el contenido del sitio web correspondiente a alta velocidad, admite bases de datos relacionales y no relacionales, y los datos se pueden exportar a JSON, XML, etc.

3.Portia: ¡Es una herramienta de rastreo visual de código abierto que permite a los usuarios rastrear sitios web sin ningún conocimiento de programación! Simplemente anota las páginas que te interesan y Portia creará una araña para extraer datos de páginas similares. En pocas palabras, se basa en el kernel scrapy; captura visualmente el contenido sin ninguna experiencia en desarrollo y coincide dinámicamente con el contenido de la misma plantilla;

4. Periódico: Puede usarse para extraer noticias, artículos y análisis de contenido. Utilice subprocesos múltiples, admita más de 10 idiomas, etc. Inspirado por la simplicidad y el poder de la biblioteca de solicitudes, el autor utilizó Python para desarrollar un programa que puede usarse para extraer el contenido del artículo. Admite más de 10 idiomas, todos los cuales están codificados en Unicode.

5.python-Goose: herramienta de extracción de artículos escrita en Java. La información que el marco Python-goose puede extraer incluye: el contenido principal del artículo, la imagen principal del artículo, cualquier video de Youtube/Vimeo incrustado en el artículo, meta descripción y meta etiquetas.

6. Meitang: conocido, combina las necesidades de algunos rastreadores comunes. Es una biblioteca de Python que puede extraer datos de archivos HTML o XML. Permite la navegación, búsqueda y modificación habituales de documentos a través de su convertidor favorito. Una sopa preciosa que te ahorrará horas o incluso días de trabajo. La desventaja de Meitang es que no puede cargar JS.

7.mechanize: Su ventaja es que puede cargar JS. Por supuesto, también hay deficiencias, como una grave falta de documentos. Sin embargo, a través de ejemplos oficiales y métodos probados con carne humana, apenas funciona.

8.selenium: Este es un controlador que llama al navegador. A través de esta biblioteca, puede llamar directamente al navegador para completar algunas operaciones, como ingresar un código de verificación. Selenium es una herramienta de prueba automatizada que admite varios navegadores, incluidos los navegadores de interfaz convencionales como Chrome, Safari y Firefox. Si instala un complemento de Selenium en estos navegadores, puede probar fácilmente la interfaz web. Selenium admite controladores de navegador. Selenium admite el desarrollo en múltiples lenguajes, como Java, C, Ruby, etc.

, PhantomJS se usa para renderizar y analizar JS, Selenium se usa para conducir y la interfaz Python, y Python se usa para el posprocesamiento.

9.cola: Es un framework de rastreo distribuido. Para los usuarios, solo necesitan escribir algunas funciones específicas y no necesitan prestar atención a los detalles de las operaciones distribuidas. Las tareas se asignan automáticamente a varias máquinas y todo el proceso es transparente para el usuario. El diseño general del proyecto es un poco malo y el acoplamiento entre módulos es alto.

10. PySpider: un potente sistema de rastreo web escrito por chinos con una potente WebUI. Escrito en lenguaje Python, arquitectura distribuida, admite varios backends de bases de datos y una potente interfaz de usuario web admite editor de scripts, monitor de tareas, administrador de proyectos y visor de resultados. El control de secuencias de comandos de Python puede utilizar cualquier paquete de análisis HTML favorito.

Los anteriores son los diez marcos principales comúnmente utilizados por los rastreadores de Python que compartí. Los pros y los contras de estos marcos son diferentes. Al usarlos, puede elegir el marco apropiado según el escenario específico.