Red de conocimiento informático - Consumibles informáticos - Cómo escribir reglas de publicación para coleccionistas de locomotoras voladoras

Cómo escribir reglas de publicación para coleccionistas de locomotoras voladoras

1

Primero, hablemos de la estructura del sitio web. Normalmente, la estructura del sitio web es una estructura de árbol. Un sitio web incluye principalmente las siguientes páginas: página de inicio, página de columnas y página de artículo. Su estructura es la siguiente.

En segundo lugar, hablemos del principio de montaje de locomotoras. El funcionamiento de una locomotora requiere un conjunto de reglas para estipular cómo recopilar los datos requeridos, lo que significa escribir reglas de recopilación de locomotoras. Este es también el mayor dolor de cabeza para los principiantes.

Los recolectores de locomotoras generalmente rastrean el código fuente devuelto por el sitio web a través del sitio web y luego extraen la información requerida del código fuente. Entonces, para recopilar datos, primero debe recopilar el sitio web y luego recopilar los datos.

2

Comencemos a escribir reglas de colección:

Ejecute LocoyPlatform.exe.

Tres

Seleccione un grupo en el árbol de la lista de tareas de la izquierda, haga clic derecho y seleccione "Nueva tarea" para que aparezca el cuadro de diálogo Nueva tarea. Complete el nombre de la tarea y el código del sitio web generalmente se selecciona automáticamente.

Agregar URL de inicio

Rellene el "Paso 1: Reglas para recopilar URL". Aquí debe obtener la URL de la estructura del siguiente nivel paso a paso de acuerdo con la estructura de árbol del sitio web hasta obtener la URL de la página de contenido. Primero complete la URL inicial, que suele ser la dirección particular del sitio de destino. Haga clic en "Agregar", complete la dirección particular del blog de motocicletas en una sola URL y luego haga clic en "Agregar" -> "Completar"

Escriba las reglas para la "adquisición de URL de varios niveles"

Aquí debe encontrar el área de código de todas las páginas de columnas que deben recopilarse en la página de dirección inicial. Primero verifique el código fuente de la página de dirección inicial y busque el área de código como se muestra en la imagen. :

Haga clic en el botón derecho "Agregar", abra "Agregar reglas de recopilación de URL de varios niveles", seleccione el botón de opción "Obtener enlace de dirección del análisis automático de la página" y complete el código del icono antes del comienzo. del área del código de dirección de la columna en el cuadro de texto "Desde" (izquierda). Complete el código del icono después del final del área del código de dirección de la columna en el cuadro de texto "Para". Complete los códigos correspondientes en los cuadros de texto "Debe contener" y "No debe contener" de "Filtrado de URL de resultados". Si no hay enlaces redundantes en esta área que no requieran filtrado, puede dejarlo en blanco. La URL de la página de la columna aquí debe contener "categoría-". Luego haga clic en "Guardar" para regresar.

Ahora necesitas obtener la dirección de la página de contenido. Primero, abra la página de columnas y verifique el código fuente para averiguar el área y el patrón de dirección donde existe la dirección de la página de contenido. Siga el método del paso anterior, primero complete los códigos de símbolo de inicio y fin del área donde se encuentra la página de contenido, luego analice las reglas de enlace entre los enlaces contenidos en esta área y la dirección de la página de contenido que necesitamos, y agregue el código de filtrado. El código de inicio aquí es " " y el código de finalización es "

Cabe señalar que muchos artículos aquí tendrán muchas paginaciones, por lo que debe completar la regla de "adquisición de paginación de lista". Por lo general, solo Si necesita especificar el área del código de paginación, puede completar la regla "Paginación de página de lista generada combinada" si es necesario. La regla de paginación de la lista aquí en realidad está codificada como "

y luego guardar y regresar. Puede probar si las reglas son correctas a través de "Probar colección de URL". Si es incorrecto, puedes regresar y modificar las reglas. Si es correcto, puede comenzar a escribir las "Reglas de recopilación de contenido del segundo paso".

Escriba "El segundo paso para recopilar reglas de contenido"

Primero abra la página de contenido y el código fuente de la página de contenido, y busque las características del código antes y después de la información que se va a publicar. extraído. Tomemos como ejemplo la extracción de títulos y contenidos. Primero copie el título del artículo y luego verifique varios lugares donde aparece el título en el código fuente para encontrar un lugar donde el código antes y después de cada artículo sea el mismo. En este caso, * * * aparece en tres lugares y el segundo código no tiene otros códigos de interferencia. Haga clic en "Agregar", complete "Título" en el nombre de la etiqueta, seleccione el método de extracción de datos y agregue otro antes y después de codificar como "< h 1 class = " content Título " >; ltstrong >; y " Para el etiqueta denominada "Contenido", complete los fragmentos de código antes y después del contenido de acuerdo con el método anterior.

Cabe señalar que es mejor no tener etiquetas incompletas antes y después del fragmento de código (como "

Probar las reglas de adquisición de contenido

Después de guardar las reglas, regrese a la página donde se recopilan las reglas de contenido, y Complete la dirección de una página de contenido en el cuadro de texto de la página típica "Prueba de reglas" a la derecha, y luego haga clic en Probar. Si el contenido que se muestra a continuación cumple con la descripción esperada, regrese. Verifique y modifique las reglas.

Comenzar a recopilar

Seleccione las reglas de la tarea a recopilar, seleccione las casillas de verificación Recopilar sitios y Recopilar contenido y haga clic en el botón "Iniciar". p>

Trabajo de seguimiento

Los datos recopilados se guardan en la base de datos. Puede hacer clic con el botón derecho en el nombre de la tarea y seleccionar "Abrir carpeta de tareas en datos" para abrir la ubicación de la base de datos. se puede abrir y editar a través de ACCESS. Si desea volver a recopilar, debe hacer clic derecho y seleccionar "Borrar la base de datos de direcciones de la tarea" y "Borrar todos los datos de recopilación de la tarea".