Cómo utilizar PHP para realizar rastreo web
De hecho, es muy conveniente usar PHP para rastrear. La razón principal es que la función de expresión regular de PHP es muy conveniente al recopilar conexiones de páginas. Además, las funciones fopen, file_get_contents y libcur de PHP también son muy convenientes al descargar contenido de la página.
El método de procesamiento específico es establecer una cola de tareas, insertar algunas tareas iniciales en la cola y comenzar a rastrear. El proceso de rastreo es cíclico. Se extrae una URL de la cola y se inserta después de abrirla. la conexión. El contenido de la cola se guarda en consecuencia. Las colas se pueden implementar mediante matrices.
Por supuesto, como PHP no se basa en subprocesos, aún es posible rastrearlo lentamente. Lo que temo es que algunas URL no se puedan abrir y mueran allí.