¿Proceso de preprocesamiento de rastreo de arañas de motores de búsqueda de optimización de sitios web SEO?
1. Extraer contenido de texto. En la actualidad, los motores de búsqueda todavía se centran en el contenido de texto. Además del texto visible que los usuarios pueden ver en el navegador, el código HTML en las páginas web rastreadas por las arañas también incluye. Hay una gran cantidad de etiquetas en formato HTML, programas JavaScript y otros contenidos que no se pueden utilizar para la clasificación en los motores de búsqueda. Lo primero que se debe hacer en el preprocesamiento es eliminar las etiquetas y programas del archivo HTML y extraer el contenido de texto que se puede utilizar. utilizado para la clasificación de páginas web
2. La segmentación de palabras en el procesamiento chino es un paso único para los motores de búsqueda chinos
Los motores de búsqueda almacenan y procesan páginas y las búsquedas de los usuarios se basan en palabras
Palabras en inglés y otros idiomas Si hay espacios entre palabras, el programa de indexación del motor de búsqueda puede dividir directamente el conjunto de palabras en oraciones.
En chino, no hay separadores entre palabras y todas las palabras en una oración están conectadas entre sí.
El motor de búsqueda primero debe distinguir qué palabras forman una palabra y qué palabras son en sí mismas palabras
Por ejemplo, "examen de servicio civil" se dividirá en " palabra "servicio civil" y "examen"
3. Detén la palabra. Ya sea en inglés o chino, habrá algunas palabras que aparecerán con mucha frecuencia en el contenido de la página pero que no tendrán ningún impacto en el contenido, como como "的", "地", " Partículas como "ah", "ah", "ah", etc.
La razón por la que estas palabras se llaman palabras vacías es porque tienen poco impacto en el significado principal de la página
Las palabras vacías comunes en inglés incluyen the, a, an, to, of, etc.
4. Elimina el ruido En la mayor parte del contenido de la página, también hay contenido que no tiene mucho impacto en el tema de la página, como el texto de la declaración de derechos de autor, la barra de navegación, los anuncios, etc. .
Tomemos como ejemplo la navegación de blogs común. El contenido de navegación, como la clasificación de artículos y los archivos históricos, aparecerá en casi todas las páginas del blog. Estas páginas en sí no tienen nada que ver con las palabras "categoría" e "historia". /p>
No tiene sentido y es completamente irrelevante que los usuarios busquen palabras clave como "historial" y "categoría" y devuelvan publicaciones de blog sólo porque estas palabras están en la página.
Así que estas áreas se están apoderando de la página. El tema solo puede desempeñar un papel de distracción
5 El método básico de deduplicación El método básico de deduplicación es calcular las huellas dactilares de la relación entre las palabras destacadas de la página, es decir, seleccione lo máximo del contenido principal de la página Una parte de las palabras clave (a menudo, las palabras relacionadas que aparecen con más frecuencia) y luego calcule las huellas digitales de estas palabras clave
Una vez seleccionadas estas palabras clave, se utilizan para segmentación de palabras, palabras vacías y eliminación de ruido
6. Índice directo 7. Índice inverso 8. Cálculo de la relación de enlaces: qué enlaces en la página apuntan a qué otras páginas, qué enlaces entrantes están en cada página y cuáles Los textos de anclaje se utilizan en los enlaces. Estas complejas relaciones de apuntamiento de enlaces forman el peso del enlace del sitio web y de la página. 9. Procesamiento de archivos especiales Además de los archivos HTML, los motores de búsqueda generalmente pueden rastrear e indexar varios tipos de archivos basados en texto, como PDF, Word. , archivos WPS XLS, PPT, TXT, etc.
A menudo vemos estos tipos de archivos en los resultados de búsqueda
Pero los motores de búsqueda actuales no pueden manejar contenido que no sea texto, como imágenes, vídeos y Flash, ni pueden ejecutar scripts y programas