El rastreador de Python analiza solicitudes de páginas web reales
1. Rastrear páginas web y analizar solicitudes
2. Analizar páginas web y encontrar datos
3. Almacenar datos y procesar varias páginas
El cambio de página es regular:
Muchas URL no cambian en la primera página, pero los patrones emergen después de pasar a la página siguiente, como la primera página de Douban y la tercera página de Douban p>
Se encuentra que el inicio es 40 y el límite = 20, por lo que suponemos que inicio = 0 es la primera página y cada página muestra 20 datos. Los parámetros que se muestran en la tercera página se pueden eliminar uno por uno. uno para verificación, y se pueden restar parámetros innecesarios, pero eliminar Asegúrese de comparar los datos antes
(1) Después de ingresar en el cuadro de texto, se genera una solicitud, como páginas comunes de inicio de sesión y registro
Referente: indica el origen de la solicitud actual
URL de solicitud: indica la dirección de solicitud real
La URL no cambia después de pasar la página Cómo encontrar. la solicitud?
Por ejemplo: /zkh_catalog/3.html
A través de la comparación, podemos encontrar que el sitio web controla el paso de página a través del parámetro pageIndex. Indica conexión
A continuación, utilice la herramienta de captura de paquetes para analizar. Conocerá la URL a partir de la cuarta página, pero debe verificar los parámetros de solicitud en las páginas anteriores. cambie a Inspectores: opciones de formularios web, que son más intuitivas de ver
Los sitios web similares incluyen Toutiao. Los amigos interesados pueden estudiarlo
(ya que cp se puede cambiar obteniendo el valor de. max_behot_time)