¿Qué tiene que ver Python con los rastreadores?
¿Por qué Python es adecuado para determinados rastreadores?
1) La interfaz para rastrear la red en sí
En comparación con otros lenguajes de programación estáticos (como java, c# y C++), Python tiene una interfaz más simple para rastrear documentos de red. El paquete urllib2 proporciona una API para acceder a documentos web más completa que otros lenguajes de secuencias de comandos dinámicos como Perl y Shell (por supuesto, Ruby también es una buena opción para los rastreadores). Ruby también es una buena opción)
Además, el rastreo de la web a veces requiere simular el comportamiento del navegador, y muchos sitios web utilizados para el rastreo sin formato están bloqueados. En este punto, necesitamos simular el comportamiento del agente de usuario para construir la solicitud adecuada, como simular el inicio de sesión del usuario, simular el almacenamiento y la configuración de sesión/cookies. Hay muchos paquetes de software de terceros excelentes en Python que pueden ayudarlo a completar este trabajo, como Solicitudes, mecanismo
2) Procesamiento de páginas web rastreadas
Las páginas web rastreadas generalmente requieren Realizar procesamiento, como filtrar etiquetas html, extraer texto, etc. Puede realizar la mayor parte del procesamiento con un código muy corto.
De hecho, muchos lenguajes y herramientas pueden hacer esto, pero Python es la forma más rápida y concisa.