Cómo recuperar y analizar archivos de registro web
Hola, estaré encantado de responder a tu pregunta.
Como SEO, utilizamos varias herramientas para recopilar diversos problemas técnicos, análisis de sitios web, diagnósticos de rastreo, herramientas para webmasters de Baidu, etc. Estas herramientas son útiles, pero no son tan buenas como analizar los datos de registro del sitio web cuando las arañas de los motores de búsqueda rastrean, al igual que el robot de Google rastrea su sitio web y deja registros reales en su sitio web. Este es el registro del servidor web. Los registros son una fuente de datos poderosa, aunque a menudo infrautilizada, que puede ayudar a mantener la integridad de las comprobaciones del rastreador del motor de búsqueda de su sitio web.
Los registros del servidor detallan cada operación realizada por un servidor específico. Puede obtener mucha información útil cuando se trata de servidores web. Cómo recuperar y analizar archivos de registro e identificar problemas en función de los códigos de respuesta del servidor (404, 302, 500, etc.). Voy a dividir esto en dos partes, cada una de las cuales se centrará en diferentes problemas que pueden existir en los registros del servidor web.
1. Obtención de archivos de registro
Rastreo del motor de búsqueda. La información del sitio web definitivamente quedará en el servidor cuando se envíe, y esta información estará en el archivo de registro del sitio web. Podemos comprender el estado de acceso de los motores de búsqueda a través de registros. Generalmente, habilitamos la función de registro a través del proveedor de servicios de alojamiento y luego accedemos al directorio raíz del sitio web a través de FTP. Podemos ver una carpeta de registro o blog en el directorio raíz. Este es el archivo de registro. Después de descargar el archivo de registro, lo abrimos con el Bloc de notas (o el navegador) para ver el contenido del registro del sitio web. Entonces, ¿cuál es el misterio que se esconde en el registro? De hecho, los archivos de registro son como cajas negras de los aviones. Podemos aprender mucha información a través de este registro, entonces, ¿qué contenido nos transmite el registro? Primero demos una breve explicación.
Fecha: Esto le permite analizar las tendencias en las velocidades de rastreo de los motores de búsqueda para el día.
Archivos rastreados: esto le indicará qué directorios y archivos se rastrearon, lo que puede ayudar a identificar problemas en ciertas secciones o tipos de contenido.
Código de estado: (solo se enumeran códigos de estado comunes; estos códigos se pueden usar directamente para identificar problemas con el sitio web)
Código de estado 200: la solicitud fue exitosa, la solicitud es requerida el indicador de respuesta Los encabezados o el cuerpo de datos se devolverán con esta respuesta.
Código de estado 302: el recurso solicitado ahora responde temporalmente a solicitudes de un URI diferente.
Código de estado 404: La solicitud falló y el recurso solicitado no se encontró en el servidor.
Código de estado 500: el servidor encontró una condición inesperada y no pudo completar el procesamiento de la solicitud.
- - Proporciona información sobre las páginas que ejecutó el rastreador y a qué problemas respondió.
Fuente: si bien esto no es necesariamente útil para analizar los robots de búsqueda, puede ser muy valioso para otros análisis de tráfico.
Qué rastreador: esto le indicará qué rastreador de motor de búsqueda se está ejecutando en su página.
2. Analiza los archivos de registro del sitio web
Ahora necesitas una herramienta de análisis de registros, porque si tu sitio web tiene varios M, docenas de M o incluso cientos de M de datos de registro, lo es. imposible repasarlo línea por línea. Además, incluso si no hay muchos datos de registro, no es científico mirarlos uno por uno. Utilicemos la herramienta de análisis de registros de Lightyear SEO como ejemplo para todos.
1. Importe el archivo al software de análisis.
2. Analice los registros del sitio web y descubra problemas a tiempo
La forma más rápida que tienen los motores de búsqueda de rastrear un sitio web es verificar el código de respuesta proporcionado por el servidor. 404 (página no encontrada) puede significar que se desperdician valiosos recursos de rastreo; 302 redirige los recursos solicitados y ahora responde temporalmente a solicitudes de diferentes URI; 500 indica que el servidor encontró una situación inesperada, lo que resultó en la imposibilidad de completar el procesamiento del; solicitud. Se analiza que hay un problema con el servidor. Si bien las herramientas de administración de sitios web proporcionarán cierta información sobre este tipo de error, puede tener un impacto muy significativo en su sitio.
El primer paso del análisis es obtener los datos del registro a través de la herramienta de análisis de registros seo de Lightyear para generar una tabla de datos.
En el nivel más básico, echemos un vistazo a qué rastreadores de motores de búsqueda están rastreando este sitio:
A través del informe, me vinieron a la mente algunas cosas:
a. para el 47,12% de todos los rastreos; luego lo veo en los contadores de tráfico. Ni un solo tráfico proviene del motor de búsqueda de Yahoo. Entonces, ¿se puede prohibir que esta araña vuelva a visitarnos?
b. ¿Qué reflejan el número de visitas, el tiempo de permanencia y el volumen total de rastreo de Baidu Spider?
c. ¿Cuál es la razón por la cual el número de visitas, el tiempo de permanencia y el número total de rastreos de otros motores de búsqueda son tan pequeños? ¿Hay alguna manera de mejorar esto?
A continuación, veamos el análisis del código de estado de la araña que más nos preocupa.
Este es un código de estado de araña que solo muestra problemas con el registro, mientras que el 200 normal no será analizado. Echaremos un vistazo más de cerca a este formulario. En general, la proporción entre lo bueno y lo malo parece saludable, pero hay algunos problemas aislados, así que intentemos descubrir por qué.
La cantidad de problemas 302 es aceptable, pero eso no significa que puedan ignorarse. Debería haber una mejor manera de manejarlos, tal vez usando la directiva robots.txt para excluir estas páginas. rango de rastreo.
404 aparece 109 veces. A juzgar por decenas de miles de tiempos de rastreo. Ese no es un mal número para el sitio. Pero un problema potencial que debe abordarse es aislar los directorios 404 o usar rel="nofollow " para anotar estos enlaces 404. Por supuesto, la página 404 también debe existir.
Si está satisfecho, haga clic en el botón derecho para aceptar la respuesta. Si aún tiene preguntas, haga clic en la pregunta de seguimiento.
Espero que mi respuesta sea útil. a usted y espero adoptarlo!
~O(∩_∩)O~