Red de conocimiento informático - Material del sitio web - Cómo usar Python para rastrear datos de Zhihu y realizar análisis simples

Cómo usar Python para rastrear datos de Zhihu y realizar análisis simples

1. Pila de tecnología utilizada:

Herramienta de rastreo: python27 +requests+json+bs4+time

Herramienta de análisis: ELK suite

Herramienta de desarrollo: pycharm

Análisis visual simple de los resultados de los datos

1. Distribución de género

0 verde representa hombre^ .^

1 representa mujer

p>

-1 Género incierto

Se puede ver que Zhihu tiene más usuarios masculinos.

Top 30 con mayor número de fans

Top 30 con mayor número de fans: Nick Cheung, Kai-Fu Lee, Huang Jixin, etc. Si marcas a estas personas en Zhihu, tendrán clasificaciones similares. Se puede ver que los datos capturados son persuasivos hasta cierto punto.

3. Los 30 principales que han escrito más artículos

4. Arquitectura del rastreador

El diagrama de la arquitectura del rastreador es el siguiente:

Descripción:

Seleccione la URL de un usuario activo (como Kai-Fu Lee) como URL de entrada.

Rastrea el contenido y analiza las URL de la lista de usuarios detrás de ese usuario, agrega esas URL a otra colección y utiliza las URL rastreadas como filtros.

Analiza la información personal del usuario y la almacena en el disco local.

logstash proporciona acceso en tiempo real a los datos del usuario en el disco local y brinda oportunidades de trabajo para que elsticsearchkibana y elasticsearch transformen los datos en gráficos visuales fáciles de usar.

Codificación V.

URL de captura:

Analizar contenido:

Archivo local de almacenamiento:

Código Descripción :

* Es necesario modificar la autorización del encabezado de solicitud de la solicitud getrequests.

Descarga del código fuente: Haz clic aquí, ¡recuerda agregar estrellas! Áreas que se pueden mejorar

Se puede agregar el grupo de subprocesos para mejorar la eficiencia del rastreador

Al almacenar la URL, simplemente configuré () y usé la estrategia de caché, que puede Solo almacene hasta 2000. En realidad, se puede almacenar una URL en Redis para evitar memoria insuficiente.

Dije que deberíamos usar archivos locales para almacenar los usuarios capturados. Una mejor manera sería almacenarlos en mongodb.

Debe haber un filtro para la información del usuario capturada. Por ejemplo, la cantidad de fans del usuario debe ser mayor a 100, o la cantidad de veces que el usuario ha participado en temas es mayor a 10. , etc., y luego se almacena. Evite que se capturen demasiados usuarios zombies.

8. Acerca del kit de herramientas ELK

No diré mucho sobre la instalación del kit de herramientas Elk. Solo mira el sitio web oficial. URL: https://www.elastic.co/ Además, el archivo de configuración de logstash es el siguiente:

Se pueden analizar muchas cosas a partir de los datos del usuario capturados, como región, educación, edad, etc., no los enumeraré uno por uno. Además, creo que los rastreadores son algo muy interesante en esta era de actualización del consumo de contenido, cómo extraer datos valiosos en el vasto océano de datos de Internet es algo en lo que vale la pena pensar y que requiere práctica continua.