¿Qué información rastrean generalmente los rastreadores de Python?
¿Qué información rastrean generalmente los rastreadores de Python?
Generalmente, cuando hablan de rastreadores, la mayoría de los programadores piensan inconscientemente en los rastreadores de Python. ¿Por qué es así? Creo que hay dos razones:
1. Las bibliotecas de terceros como Request, Beautiful Soup, Scrapy y PySpider son realmente poderosas
2. La sintaxis de Python es simple y fácil de usar, y puedes escribir un rastreador en minutos (algunas personas se quejan de que Python). es lento, pero el cuello de botella del rastreador y el idioma no son relevantes)
Un rastreador es un programa El propósito de este programa es rastrear recursos de información en la World Wide Web, por ejemplo, motores de búsqueda. Google que utiliza a diario depende de los rastreadores para obtener los resultados de búsqueda con regularidad
Al observar los resultados de búsqueda anteriores, además de las introducciones relacionadas con wiki, todos los resultados de búsqueda relacionados con los rastreadores incluyen Python. Rastreadores de Python, pero ahora parece que realmente me lo están diciendo ~
Reptiles Los objetos de destino también son muy ricos, ya sean texto, imágenes, videos, cualquier rastreador de datos estructurados o no estructurados puede rastrearlos. A partir del desarrollo de rastreadores, también se han derivado varios tipos de rastreadores:
● Rastreador web general: los objetos de rastreo se expanden desde algunas URL iniciales a toda la Web. Esto es lo que hacen los motores de búsqueda
<. p>● Rastreador web vertical: rastrea temas en campos específicos, como rastrear específicamente directorios y capítulos novedosos Rastreador vertical● Rastreador web incremental: actualizaciones en tiempo real de las páginas web rastreadas
● Rastreador web profundo: rastrea algunas páginas web que requieren que los usuarios envíen palabras clave para obtenerlas.
No quiero hablar sobre estos conceptos generales. Tomemos como ejemplo la obtención del contenido de la página web. tecnología en sí, hablemos de los rastreadores web. Los pasos son los siguientes:
Simular la solicitud de recursos de una página web
Extraer elementos de destino de HTML
Persistencia de datos.