Red de conocimiento informático - Problemas con los teléfonos móviles - El rastreador de Python analiza solicitudes de páginas web reales

El rastreador de Python analiza solicitudes de páginas web reales

1. Rastrear páginas web y analizar solicitudes

2. Analizar páginas web y encontrar datos

3. Almacenar datos y procesar varias páginas

El cambio de página es regular:

Muchas URL no cambian en la primera página, pero los patrones emergen después de pasar a la página siguiente, como la primera página de Douban y la tercera página de Douban

Se encuentra que el inicio es 40 y el límite = 20, por lo que suponemos que inicio = 0 es la primera página y cada página muestra 20 datos. Los parámetros que se muestran en la tercera página se pueden eliminar uno por uno. uno para verificación, y se pueden restar parámetros innecesarios, pero eliminar Asegúrese de comparar los datos antes

(1) Después de ingresar en el cuadro de texto, se genera una solicitud, como páginas comunes de inicio de sesión y registro

Referente: indica el origen de la solicitud actual

URL de solicitud: indica la dirección de solicitud real

La URL no cambia después de pasar la página Cómo encontrar. la solicitud?

Por ejemplo: /zkh_catalog/3.html

A través de la comparación, podemos encontrar que el sitio web controla el paso de página a través del parámetro pageIndex. Indica conexión

A continuación, utilice la herramienta de captura de paquetes para analizar. Conocerá la URL a partir de la cuarta página, pero debe verificar los parámetros de solicitud en las páginas anteriores. cambie a Inspectores: opciones de formularios web, que son más intuitivas de ver

Los sitios web similares incluyen Toutiao. Los amigos interesados ​​pueden estudiarlo

(ya que cp se puede cambiar obteniendo el valor de. max_behot_time)