¿De qué partes consta el sistema de recogida de datos? ¿Qué aspectos están incluidos?
1. Pasar página
En la recopilación de datos a gran escala, no se recomienda configurar el paso de página. La razón principal es que el mantenimiento de la información de paso de página es más problemático. Para no perder datos, la frecuencia de recopilación se puede aumentar adecuadamente para compensar el impacto de no pasar las páginas.
2. Título
Al recopilar direcciones URL, el título suele utilizar el valor de la etiqueta A. Luego, se realiza una verificación secundaria durante el análisis del texto para corregir posibles errores en el título.
3. Procesamiento del tiempo de liberación
Inevitablemente habrá problemas al analizar el tiempo de liberación, pero no debe ser mayor que el tiempo actual.
Generalmente, después de borrar los estilos CSS, JS, comentarios, meta y otra información en el código fuente HTML, elimine las etiquetas HTML y use la primera vez en el contenido como tiempo de publicación.
Generalmente, se pueden contar algunas etiquetas de tiempo de lanzamiento, como "tiempo de lanzamiento:" y "fecha de lanzamiento". Luego use expresiones regulares para obtener el tiempo en la cadena de 100 longitudes antes y después del logotipo como tiempo de lanzamiento.