Red de conocimiento informático - Conocimiento informático - Cómo llamar a la API de Sina Weibo para capturar datos a través de Python

Cómo llamar a la API de Sina Weibo para capturar datos a través de Python

Permítanme hablar primero de la conclusión. Si desea capturar todos los datos de una gran v a través de la API pública, debe cumplir las dos condiciones siguientes:

1. Los microblogs publicados por el gran v Bodu no han superado el límite superior de consultas de retroceso, que es 2.000 para Sina y 3.200 para Twitter.

2. El programa rastreador debe ejecutarse continuamente.

La API de Sina Weibo es básicamente una copia completa de Twitter. Las características de los parámetros de la interfaz son inseparables del NoSQL subyacente. Se recomienda leer más sobre los conceptos de diseño de la base de datos Nosql, lo que ayudará a comprender mejor el diseño de la API. .

En términos generales, si decide rastrear una v grande, el primer paso es intentar obtener la información básica del usuario, que incluirá el estado más reciente, y anotar el número de identificación como referencia, llamado ID de base.

Los dos parámetros más importantes en la interfaz:

since_id: devuelve el Weibo cuyo ID es mayor que since_id (es decir, mayor que since_id.) (

max_id: devuelve el ID para Weibo que es menor o igual que max_id, el valor predeterminado es 0.

Debido a varias razones, la interfaz para obtener el estado está fijada para ordenar por ID en orden descendente (scan_index_forward =falso), es decir, el último estado se devuelve primero. El primer día de conexión, solo hubo un usuario que publicó 100 entradas, con ID que van del 1 al 100. Cuando el usuario publicó la entrada número 50, es decir. , cuando baseId=50, el rastreador comenzó a ejecutarse

.