Cómo usar Python para rastrear datos de Zhihu y realizar análisis simples
Herramienta de rastreo: python27 +requests+json+bs4+time
Herramienta de análisis: ELK suite
Herramienta de desarrollo: pycharm p>
Análisis visual simple de los resultados de los datos
1. Distribución de género
0 verde representa hombre^ .^
1 representa mujer
p>
-1 Género incierto
Se puede ver que Zhihu tiene más usuarios masculinos.
Top 30 con mayor número de fans
Top 30 con mayor número de fans: Nick Cheung, Kai-Fu Lee, Huang Jixin, etc. Si marcas a estas personas en Zhihu, tendrán clasificaciones similares. Se puede ver que los datos capturados son persuasivos hasta cierto punto.
3. Los 30 principales que han escrito más artículos
4. Arquitectura del rastreador
El diagrama de la arquitectura del rastreador es el siguiente:
Descripción:
Seleccione la URL de un usuario activo (como Kai-Fu Lee) como URL de entrada.
Rastrea el contenido y analiza las URL de la lista de usuarios detrás de ese usuario, agrega esas URL a otra colección y utiliza las URL rastreadas como filtros.
Analiza la información personal del usuario y la almacena en el disco local.
logstash proporciona acceso en tiempo real a los datos del usuario en el disco local y brinda oportunidades de trabajo para que elsticsearchkibana y elasticsearch transformen los datos en gráficos visuales fáciles de usar.
Codificación V.
URL de captura:
Analizar contenido:
Archivo local de almacenamiento:
Código Descripción :
* Es necesario modificar la autorización del encabezado de solicitud de la solicitud getrequests.
Descarga del código fuente: Haz clic aquí, ¡recuerda agregar estrellas! Áreas que se pueden mejorar
Se puede agregar el grupo de subprocesos para mejorar la eficiencia del rastreador
Al almacenar la URL, simplemente configuré () y usé la estrategia de caché, que puede Solo almacene hasta 2000. En realidad, se puede almacenar una URL en Redis para evitar memoria insuficiente.
Dije que deberíamos usar archivos locales para almacenar los usuarios capturados. Una mejor manera sería almacenarlos en mongodb.
Debe haber un filtro para la información del usuario capturada. Por ejemplo, la cantidad de fans del usuario debe ser mayor a 100, o la cantidad de veces que el usuario ha participado en temas es mayor a 10. , etc., y luego se almacena. Evite que se capturen demasiados usuarios zombies.
8. Acerca del kit de herramientas ELK
No diré mucho sobre la instalación del kit de herramientas Elk. Solo mira el sitio web oficial. URL: https://www.elastic.co/ Además, el archivo de configuración de logstash es el siguiente:
Se pueden analizar muchas cosas a partir de los datos del usuario capturados, como región, educación, edad, etc., no los enumeraré uno por uno. Además, creo que los rastreadores son algo muy interesante en esta era de actualización del consumo de contenido, cómo extraer datos valiosos en el vasto océano de datos de Internet es algo en lo que vale la pena pensar y que requiere práctica continua.