¿Qué son los motores de búsqueda de índices de directorios?
¿Qué son los motores de búsqueda de índice de directorio?
Baidu Google Yahoo Yahoo Sohu Search Sina Search NetEase Search Zhongsou Tianwang Search China Search Extreme Search Netfrog Search 3721 Search TOM Search Directory Index Search Engine ¿Qué son? allí
Generalmente dividido en dos tipos: contenido de sitios web ordinarios y música
Baidu Google Yahoo Yahoo Sohu Search Sina Search NetEase Search Zhongsou Tianwang Search Zhonghua Search Extreme Search Netfrog Search 3721 Search QQ Search TOM Índice del directorio de búsqueda ¿Cómo funciona el motor de búsqueda?
Principales tecnologías
Un motor de búsqueda consta de cuatro partes: motor de búsqueda, indexador, rastreador e interfaz de usuario.
Buscador
La función de un buscador es recorrer Internet, descubrir y recopilar información. A menudo es un programa informático que funciona las 24 horas del día. Debe recopilar varios tipos de información nueva tanto como sea posible y lo más rápido posible. Al mismo tiempo, debido a que la información en Internet se actualiza muy rápidamente, debe actualizar periódicamente la información antigua que se ha recopilado para evitar conexiones inactivas y conexiones inválidas. Cable. Actualmente existen dos estrategias para recopilar información:
● Comenzar a partir de un conjunto de URL iniciales, seguir los hipervínculos (hipervínculos) en estas URL y recorrerlos de forma heurística o en profundidad. Descubrir información en Internet. Estas URL de inicio pueden ser cualquier URL, pero suelen ser sitios muy populares que contienen muchos enlaces (como Yahoo!).
● Divide el espacio Web según nombres de dominio, direcciones IP o nombres de dominio de países, y cada buscador es responsable de la búsqueda exhaustiva de un subespacio.
Existen varios tipos de información recopilada por los motores de búsqueda, incluidos HTML, XML, artículos de grupos de noticias, archivos FTP, documentos de procesamiento de textos e información multimedia.
La implementación de los motores de búsqueda suele utilizar tecnología informática distribuida y paralela para aumentar la velocidad de descubrimiento y actualización de la información. El descubrimiento de información por parte de los motores de búsqueda comerciales puede llegar a millones de páginas web por día.
Indizador
La función del indexador es comprender la información buscada por el rastreador, extraer entradas de índice de ella y utilizarlas para representar archivos y generar tablas de índice para la biblioteca de archivos. .
Hay dos tipos de elementos de índice: elementos de índice objetivos y elementos de índice de contenido: los elementos objetivos no tienen nada que ver con el contenido semántico del documento, como el nombre del autor, la URL, la hora de actualización, la codificación y la longitud. , enlace
Popularidad (Enlace
Popularidad), etc., los elementos del índice de contenido se utilizan para reflejar el contenido del archivo, como palabras clave y sus pesos, frases, palabras, etc. . Los elementos del índice de contenido se pueden dividir en dos tipos: elementos de índice único y elementos de índice múltiple (o elementos de índice de frases). Para el inglés, los elementos de índice único son palabras en inglés, que son más fáciles de extraer porque hay separadores naturales (espacios) entre palabras. Para idiomas escritos continuamente como el chino, las palabras deben segmentarse;
En los motores de búsqueda, a un único elemento del índice generalmente se le asigna un peso para indicar el grado de discriminación del archivo por el elemento del índice, y también se utiliza para calcular la relevancia de los resultados de la consulta. Los métodos utilizados generalmente incluyen métodos estadísticos, métodos de teoría de la información y métodos de probabilidad. Los métodos para extraer elementos de índice de frases incluyen métodos estadísticos, métodos de probabilidad y métodos lingüísticos.
Las tablas de índice generalmente utilizan algún tipo de lista de inversión (Lista de inversión), es decir, los archivos correspondientes son consultados por elementos de índice. La tabla de índice también puede registrar la posición donde aparecen los elementos del índice en el archivo para que el rastreador pueda calcular la relación de adyacencia o proximidad (proximidad) entre los elementos del índice.
Los indexadores pueden utilizar un algoritmo de indexación centralizado o un algoritmo de indexación descentralizado. Cuando la cantidad de datos es grande, se debe implementar la indexación instantánea; de lo contrario, no podrá mantenerse al día con el rápido aumento en la cantidad de información. Los algoritmos de indexación tienen un gran impacto en el rendimiento del indexador (como la velocidad de respuesta durante consultas pico a gran escala). La eficacia de un motor de búsqueda depende en gran medida de la calidad de su índice.
Buscador
La función del buscador es verificar rápidamente archivos en la base de datos de índice según la consulta del usuario, evaluar la relevancia del archivo y la consulta, y evaluar los resultados. ordenar e implementar algún tipo de mecanismo de retroalimentación de relevancia para el usuario.
Existen cuatro modelos de recuperación de información comúnmente utilizados por los buscadores: modelo de teoría de conjuntos, modelo algebraico, modelo de probabilidad y modelo híbrido.
4. Interfaz de usuario
La función de la interfaz de usuario es ingresar consultas de usuarios, mostrar resultados de consultas y proporcionar mecanismos de retroalimentación de relevancia para el usuario. El objetivo principal es facilitar a los usuarios el uso de los motores de búsqueda y la obtención de información efectiva y oportuna de los motores de búsqueda de manera eficiente y de múltiples maneras. El diseño y la implementación de interfaces de usuario utilizan las teorías y métodos de interacción persona-computadora para adaptarse completamente a los hábitos de pensamiento humanos. La interfaz de entrada del usuario se puede dividir en dos tipos: interfaz simple e interfaz compleja.
La interfaz simple solo proporciona un cuadro de texto para que los usuarios ingresen cadenas de consulta; la interfaz compleja permite a los usuarios restringir consultas, como operaciones lógicas (Y, O, NO; +, -), relaciones de proximidad ( Vecino similar, NEAR), rango de nombre de dominio (como .edu, .), posición de apariencia (como título, contenido), tiempo de información, longitud, etc. Algunas empresas e instituciones están considerando desarrollar estándares para las opciones de consulta.
Funciones
En primer lugar, los motores de búsqueda son recuperaciones automáticas de sitios web, mientras que la indexación de directorios se basa completamente en operaciones manuales. Después de que un usuario envía un sitio web, los editores del directorio explorarán personalmente su sitio y decidirán si lo aceptan basándose en un conjunto de criterios personalizados o incluso en la impresión subjetiva del editor.
En segundo lugar, cuando un motor de búsqueda incluye un sitio web, siempre que el sitio web en sí no infrinja las reglas pertinentes, el inicio de sesión normalmente puede realizarse correctamente. La indexación de directorios tiene requisitos mucho más altos para los sitios web y, a veces, es posible que no tenga éxito incluso si inicia sesión varias veces. Especialmente para los súper índices como Yahoo, iniciar sesión es aún más difícil.
Además, al iniciar sesión en un motor de búsqueda, generalmente no necesitamos considerar la clasificación del sitio web. Al iniciar sesión en el índice del directorio, el sitio web debe ubicarse en el directorio más apropiado (Directorio). .
Finalmente, en el motor de búsqueda
la información relevante de cada sitio web se extrae automáticamente de la página web del usuario, por lo que desde la perspectiva del usuario, tenemos más autonomía para indexar el directorio que requiere ese sitio web; La información debe completarse manualmente y existen varias restricciones
. Es más, si el personal considera que la información del directorio y del sitio web que usted envía es inapropiada, puede ajustarlos en cualquier momento, sin consultarlo previamente.
El índice de directorio, como su nombre indica, almacena sitios web en los directorios correspondientes por categoría. Por lo tanto, al consultar información, los usuarios pueden seleccionar búsquedas de palabras clave o buscar capa por capa según el directorio de categorías. Si busca utilizando palabras clave, los resultados obtenidos son los mismos que los de los motores de búsqueda, que también clasifican los sitios web según el grado de relevancia de la información, pero hay más factores humanos involucrados. Si consulta por directorio jerárquico, la clasificación de los sitios web en un determinado directorio está determinada por el orden de las letras del título (hay excepciones). ¿La metaetiqueta es efectiva para los motores de búsqueda de índices de directorios?
Hay un código importante "" (comúnmente conocido como etiqueta META) en el código fuente HTML de una página web. La etiqueta META se utiliza para describir los atributos de un archivo de página web HTML, como autor, fecha y hora, descripción de la página web, palabras clave, actualización de la página, etc. ¿Qué son los motores de búsqueda de índice de directorio, meta y texto completo?
Los motores de búsqueda se pueden dividir en tres categorías según sus métodos de trabajo: 1. Motores de búsqueda de directorios: Los motores de búsqueda de directorios incluyen principalmente Yahoo! , LookSmart, Acerca de, DMOZ, Galaxy, etc. 2. Motores de búsqueda de texto completo: los motores de búsqueda de texto completo incluyen principalmente Google, Baidu, AltaVista, Inktomi, Alltheweb, etc. 3. Metabuscadores: los metabuscadores incluyen principalmente InfoSpace, Dogpile, Vivisimo, Peking University Skynet, Sohu, Lycos, Metacrawler, etc.
¿Quién conoce las ventajas y desventajas de los motores de búsqueda de índices de directorios, motores de búsqueda de texto completo y metabuscadores? Sea lo más detallado posible.
¡Dame dinero! Uso urgente
■ Motor de búsqueda de texto completo
El motor de búsqueda de texto completo es un verdadero motor de búsqueda. Los representantes en el extranjero incluyen Google, Fast/AllTheWeb, AltaVista, Inktomi, Teoma, WiseNut. , etc., y los nacionales incluyen El famoso es Baidu. Todas son bases de datos establecidas extrayendo información de varios sitios web en Internet (principalmente texto de páginas web), recuperando registros relevantes que coinciden con las condiciones de consulta del usuario y luego devolviendo los resultados al usuario en un orden determinado o, por lo tanto, son búsquedas verdaderas. motores.
Desde la perspectiva de la fuente de resultados de búsqueda, los motores de búsqueda de texto completo se pueden subdividir en dos tipos. Uno tiene su propio programa de búsqueda (Indexer), comúnmente conocido como programa "Spider" o ". robot" (Robot), y construye su propia base de datos web, y los resultados de la búsqueda se llaman directamente desde su propia base de datos, como los 7 motores mencionados anteriormente; el otro es alquilar la base de datos de otros motores y organizarla en un personalizado formato Resultados de búsqueda, como motores Lycos.
■ Índice de directorio
Aunque el índice de directorio tiene una función de búsqueda, no es un motor de búsqueda real en el sentido estricto. Es solo una lista de enlaces a sitios web clasificados por directorio. Los usuarios no necesitan realizar ninguna búsqueda de palabras clave y pueden encontrar la información que necesitan basándose únicamente en el directorio de categorías. El índice de directorios más representativo es el famoso Yahoo! Otros famosos incluyen Open Directory Project (DMOZ), LookSmart, About, etc. Las búsquedas nacionales en Sohu, Sina y NetEase también entran en esta categoría.
■ Metabuscador (META Search Engine)
Cuando el metabuscador acepta una solicitud de consulta de un usuario, busca en varios otros motores al mismo tiempo y devuelve los resultados al usuario quien. Los metabuscadores famosos incluyen InfoSpace, Dogpile, Vivisimo, etc. (lista de metabuscadores chinos. El metabuscador chino más representativo es el motor de búsqueda Souxing). En términos de organización de los resultados de búsqueda, algunos organizan directamente los resultados de la búsqueda según el motor de origen, como Dogpile, mientras que otros reorganizan y combinan los resultados según reglas personalizadas, como Vivisimo.
Además de las tres categorías de motores anteriores, también existen las siguientes formas no convencionales:
1. Motores de búsqueda agregados: como el motor lanzado por HotBot al final. de 2002. Este motor es similar al motor de búsqueda META, pero la diferencia es que en lugar de llamar a varios motores para realizar búsquedas al mismo tiempo, el usuario selecciona entre los cuatro motores proporcionados, por lo que es más exacto llamarlo motor de búsqueda "colectivo". .
2. Motores de búsqueda de portales: Aunque brindan servicios de búsqueda, como AOL Search y MSN Search, no tienen directorios clasificados ni bases de datos web, y sus resultados de búsqueda provienen íntegramente de otros motores.
3. Enlaces gratuitos para todos (FFA): este tipo de sitio web generalmente simplemente se desplaza y organiza las entradas de enlaces. Algunos de ellos tienen categorías simples, pero su escala es menor que la de Yahoo y otros índices de directorio. .Ven mucho más pequeño. ¿Qué sitios web utilizan motores de búsqueda de índices de directorios?
Todos