Red de conocimiento informático - Conocimiento del nombre de dominio - ¿Cómo funcionan los motores de búsqueda más utilizados? Explique brevemente.

¿Cómo funcionan los motores de búsqueda más utilizados? Explique brevemente.

Principales tecnologías

Un motor de búsqueda consta de cuatro partes: buscador, indexador, recuperador e interfaz de usuario.

1. Buscador

La función del buscador es recorrer Internet, descubrir y recopilar información. Suele ser un programa informático que se ejecuta día y noche. Debe recopilar varios tipos de información nueva tanto como sea posible y lo más rápido posible. Al mismo tiempo, debido a que la información en Internet se actualiza muy rápidamente, debe actualizar periódicamente la información antigua que se ha recopilado para evitar conexiones inactivas y no válidas. conexiones. Actualmente existen dos estrategias para recopilar información:

● A partir de un conjunto de URL iniciales, siguiendo los hipervínculos (hipervínculos) en estas URL y recorriendo la colección en amplitud, primero en profundidad o primero en profundidad. forma heurística. Información encontrada en Internet. Estas URL de inicio pueden ser cualquier URL, pero suelen ser sitios muy populares que contienen muchos enlaces (como Yahoo!).

● Divide el espacio Web según nombres de dominio, direcciones IP o nombres de dominio de países, y cada buscador es responsable de la búsqueda exhaustiva de un subespacio.

Los tipos de información recopilada por los buscadores son diversos, incluidos HTML, XML, artículos de grupos de noticias, archivos FTP, documentos de procesamiento de textos e información multimedia.

La implementación de buscadores a menudo utiliza tecnología informática distribuida y paralela para aumentar la velocidad de descubrimiento y actualización de la información. El descubrimiento de información por parte de los motores de búsqueda comerciales puede llegar a millones de páginas web por día.

2. Indexador

La función del indexador es comprender la información buscada por el buscador, extraer elementos del índice y utilizarlos para representar el documento y generar la tabla de índice. de la biblioteca de documentos.

Hay dos tipos de elementos de índice: elementos de índice objetivos y elementos de índice de contenido: los elementos objetivos no tienen nada que ver con el contenido semántico del documento, como el nombre del autor, la URL, la hora de actualización, la codificación y la longitud. , popularidad del enlace (Popularidad del enlace), etc., etc., los elementos del índice de contenido se utilizan para reflejar el contenido del documento, como palabras clave y sus pesos, frases, palabras, etc. Los elementos del índice de contenido se pueden dividir en dos tipos: elementos de índice único y elementos de índice múltiple (o elementos de índice de frases). Para el inglés, los elementos de índice único son palabras en inglés, que son más fáciles de extraer porque hay separadores naturales (espacios) entre las palabras. Para idiomas escritos continuamente como el chino, las palabras deben segmentarse;

En los motores de búsqueda, a un único elemento del índice generalmente se le asigna un peso para indicar el grado de discriminación del documento por el elemento del índice, y también se utiliza para calcular la relevancia de los resultados de la consulta. Los métodos utilizados generalmente incluyen métodos estadísticos, métodos de teoría de la información y métodos de probabilidad. Los métodos para extraer elementos de índice de frases incluyen métodos estadísticos, métodos de probabilidad y métodos lingüísticos.

La tabla de índice generalmente utiliza algún tipo de lista de inversión (Lista de inversión), es decir, el documento correspondiente se encuentra por elemento de índice. La tabla de índice también puede registrar la posición donde aparecen los elementos del índice en el documento para que el rastreador pueda calcular la relación de adyacencia o proximidad (proximidad) entre los elementos del índice.

Los indexadores pueden utilizar algoritmos de indexación centralizados o algoritmos de indexación distribuidos. Cuando la cantidad de datos es grande, se debe implementar la indexación instantánea; de lo contrario, no podrá mantenerse al día con el rápido aumento en la cantidad de información. Los algoritmos de indexación tienen un gran impacto en el rendimiento del indexador (como la velocidad de respuesta durante consultas pico a gran escala). La eficacia de un motor de búsqueda depende en gran medida de la calidad de su índice.

3. Buscador

La función del buscador es consultar rápidamente documentos en la base de datos indexada de acuerdo con la consulta del usuario, evaluar la relevancia del documento y la consulta, y evaluar. los resultados que se generarán Ordenarlos e implementar algún tipo de mecanismo de retroalimentación de relevancia para el usuario.

Existen cuatro modelos de recuperación de información comúnmente utilizados por los buscadores: modelo de teoría de conjuntos, modelo algebraico, modelo de probabilidad y modelo híbrido.

4. Interfaz de usuario

La función de la interfaz de usuario es ingresar consultas de los usuarios, mostrar los resultados de las consultas y proporcionar mecanismos de retroalimentación de relevancia para el usuario. El objetivo principal es facilitar a los usuarios el uso de los motores de búsqueda y la obtención de información efectiva y oportuna de los motores de búsqueda de manera eficiente y de múltiples maneras. El diseño y la implementación de interfaces de usuario utilizan las teorías y métodos de interacción persona-computadora para adaptarse completamente a los hábitos de pensamiento humanos. Las interfaces de entrada de usuario se pueden dividir en dos tipos: interfaces simples e interfaces complejas.

La interfaz simple solo proporciona un cuadro de texto para que los usuarios ingresen cadenas de consulta; la interfaz compleja permite a los usuarios limitar consultas, como operaciones lógicas (Y, O, NO; +, -), relaciones de proximidad ( adyacente, NEAR), rango de nombre de dominio (como .edu, .com), posición de apariencia (como título, contenido), tiempo de información, longitud, etc. Algunas empresas e instituciones están considerando actualmente desarrollar estándares para las opciones de consulta.