Red de conocimiento informático - Problemas con los teléfonos móviles - Cómo construir un rastreador distribuido en Python

Cómo construir un rastreador distribuido en Python

Los rastreadores no necesitan estar distribuidos en la naturaleza. Porque si desea rastrear un sitio web, entre 5 y 10 hilos suelen ser suficientes, y más serán una prueba de estrés para el sitio web.

Solo necesitas asignar las tareas a diferentes máquinas, luego ejecutar cada una y fusionar los resultados. Esto no es diferente del mapa loco y la redutilización. Simplemente divida y fusione manualmente. Por supuesto, también puede utilizar scripts para dividir, fusionar e iniciar scripts de forma remota. Hay un módulo de control remoto, que parece llamarse rpy. Muy sencillo y fácil de empezar. Un módulo se puede controlar de forma remota.

No es muy bueno usar postgresql para la base de datos. Porque es demasiado difícil colocar los resultados del rastreo en una base de datos relacional. Especialmente contenido web. Normalmente la URL se coloca en redis. El contenido se coloca en el sistema de archivos. Puede utilizar la solución de ahorro hadoop hdfs para colocarlo en hadoop.

Si usa hadoop, simplemente imite el proceso de Nutch y entregue el script de Python a Hadoop para su administración.

En cuanto al control y la comunicación, deje que Hadoop se encargue de ello.

Por supuesto, personalmente creo que el método rpy es más simple. El control y la comunicación en el interior están todos listos. Lo aprendí en 10 minutos.

Volviendo a la declaración original, en la mayoría de los casos, ejecutar un rastreador en una sola máquina con múltiples subprocesos es suficiente. No hay necesidad de distribución. Y la eficiencia es incluso mayor que la distribuida.