Red de conocimiento informático - Aprendizaje de código fuente - La historia de los motores de búsqueda

La historia de los motores de búsqueda

La historia del desarrollo y la aplicación de los motores de búsqueda

Antes de 1990, nadie podía buscar en Internet.

En 1990, la Universidad de McGill en Canadá) Profesores y los estudiantes de la Facultad de Ciencias de la Computación desarrollaron Archie. En ese momento, la World Wide Web (World Wide Web) aún no había aparecido y las personas compartían e intercambiaban recursos a través de FTP. Archie podía recopilar y analizar información de nombres de archivos en FTP. servidor y proporciona resultados de búsqueda de archivos en varios hosts FTP. Los usuarios deben ingresar el nombre exacto del archivo para buscar, y Archie le dice al usuario qué servidor FTP puede descargar el archivo. Aunque los recursos de información recopilados por Archie no son páginas web (archivos HTML). , están relacionados con el método de trabajo básico de los motores de búsqueda. Es lo mismo: recopilar automáticamente recursos de información, crear índices y proporcionar servicios de recuperación. Por lo tanto, Archie es reconocido como el creador de los motores de búsqueda modernos.

La palabra Robot tiene un significado especial para los programadores. Computer Robot se refiere a un programa automático que puede realizar repetidamente una tarea a una velocidad que los humanos no pueden alcanzar. Debido a que los programas de Robot utilizados específicamente para recuperar información se arrastran por Internet como arañas, por lo tanto, los motores de búsqueda. Los programas de robots se llaman programas araña.

En 1993, Matthew Gray desarrolló World Wide Web Wanderer, que fue el primer "robot" en utilizar las relaciones de enlace entre páginas web HTML para detectar el tamaño de la World Wide Web. . Al principio solo se usaba para contar el número de servidores en Internet y luego también podía capturar direcciones web (URL).

En abril de 1994, dos estudiantes de doctorado de la Universidad de Stanford. Los estadounidenses chinos Jerry Yang y David Filo*** cofundaron Yahoo. A medida que aumentó el número de visitas y los enlaces incluidos, el directorio de Yahoo comenzó a admitir búsquedas simples en las bases de datos. Debido a que los datos de Yahoo! Realmente clasificado como motor de búsqueda, en realidad es solo un directorio de búsqueda. Yahoo adquirió Inktomi el 23 de diciembre de 2002, y Overture, incluidos Fast y Altavista, el 14 de julio de 2003. En noviembre de 2003, Yahoo adquirió todo Capital adquirió la empresa 3721. /p>

A principios de 1994, Brian Pinkerton, un estudiante de la Universidad de Washington, inició su pequeño proyecto WebCrawler. El 20 de abril de 1994, WebCrawler se lanzó oficialmente con solo 6.000 El contenido del servidor es el primero. Motor de búsqueda de texto completo en Internet que admite la búsqueda de todo el texto de un archivo. Antes, los usuarios solo podían buscar por URL y resumen. El resumen generalmente provenía de comentarios humanos o de las primeras 100 palabras del texto recuperadas automáticamente por un programa.

En julio de 1994, Michael Mauldin de la Universidad Carnegie Mellon conectó el programa araña de John Leavitt a su programa de indexación y creó Lycos. Además de la clasificación por relevancia, Lycos también proporciona coincidencias de prefijos y restricciones de similitud de caracteres. Fue el primero en utilizar un resumen automático de páginas web en los resultados de búsqueda, y la mayor ventaja es que supera con creces la cantidad de datos de otros motores de búsqueda.

1994 A finales de año, se presentó oficialmente Infoseek. Su interfaz amigable y su gran cantidad de funciones adicionales lo convirtieron en un importante representante de motores de búsqueda como Lycos.

En 1995, apareció una nueva forma de motor de búsqueda: Yuan Search Engine (A Meta Search Engine Roundup).

Los usuarios solo necesitan enviar una solicitud de búsqueda una vez, y el metabuscador es responsable del procesamiento de la conversión y la envía a múltiples motores de búsqueda independientes preseleccionados. Todos los resultados de la consulta devueltos por cada motor de búsqueda independiente se centralizarán y procesarán antes de ser devueltos. para el usuario El primer motor de metabúsqueda fue Metacrawler, desarrollado por los estudiantes de maestría de la Universidad de Washington, Eric Selberg y Oren Etzioni.

En diciembre de 1995, DEC lanzó oficialmente AltaVista, el primer motor de búsqueda que admitía búsquedas en lenguaje natural. el primer motor de búsqueda que implementa una sintaxis de búsqueda avanzada (como AND, OR, NOT, etc.). Los usuarios pueden utilizar AltaVista para buscar el contenido de grupos de noticias (Newsgroups) y obtener artículos de Internet, y también pueden buscar texto en imágenes. Nombres de búsqueda, subprogramas Java de búsqueda, objetos ActiveX de búsqueda AltaVista también afirma ser el primer motor de búsqueda que permite a los usuarios enviar o eliminar URL a la biblioteca de índice web y puede conectarse en 24 horas. características de AltaVista, busca en todos los sitios web que tienen enlaces que apuntan a una determinada URL. En la interfaz orientada al usuario, AltaVista también ha realizado muchas innovaciones y ha colocado "consejos" debajo del área del cuadro de búsqueda para ayudar a los usuarios a expresar mejor la búsqueda. términos Estos pequeños consejos se actualizan a menudo, de modo que después de buscar varias veces, los usuarios verán muchas funciones interesantes que quizás nunca hayan conocido. Esta serie de funciones ha sido adoptada ampliamente por otros motores de búsqueda. un sistema de presentación gráfica LiveTopics que ayuda a los usuarios a encontrar lo que buscan entre miles de resultados de búsqueda.

El 26 de septiembre de 1995, Eric Brewer, profesor asistente en la Universidad de California, Berkeley, y Paul Gauthier, un estudiante de doctorado, fundó Inktomi el 20 de mayo de 1996. Ese día, se estableció la empresa Inktomi y el poderoso HotBot apareció frente al mundo. Afirmaba que podía rastrear e indexar más de 10 millones de páginas todos los días, por lo que tenía. contenido nuevo que superó con creces a otros motores de búsqueda. HotBot también hizo un uso extensivo de cookies para almacenar las preferencias de búsqueda personales de los usuarios.

En agosto de 1997, apareció oficialmente el motor de búsqueda Northernlight. con la base de datos más grande. No tenía palabras vacías. Tenía excelentes noticias actuales y constaba de más de 7.100 publicaciones. La colección especial, una buena sintaxis de búsqueda avanzada, fue la primera en admitir una clasificación automática simple de los resultados de búsqueda. >

Antes de octubre de 1998, Google era sólo un pequeño proyecto de BackRub en la Universidad de Stanford. En 1995, el estudiante de doctorado Larry Page comenzó a estudiar diseño de motores de búsqueda y registró el nombre de dominio google.com el 15 de septiembre de 1997. Al final. En 1997, con la participación de Sergey Brin, Scott Hassan y Alan Steremberg, BachRub comenzó a ofrecer una demostración. En febrero de 1999, Google completó la transformación de la versión Alpha a la versión Beta. Google consideró el 27 de septiembre de 1998 como su cumpleaños. PageRank (Pagerank) como base para juzgar la importancia de las páginas web, mejorando en gran medida la relevancia de los resultados de búsqueda, la cultura geek de Google y el concepto "No seas malvado" le dieron a Google una reputación y una reputación de marca muy altas. Google anunció su nombre chino "Google", que es el primer nombre dado por Google en un país de habla no inglesa.

La empresa Fast (Alltheweb) fue fundada en 1997 y es un instituto de investigación de la Universidad Noruega. de Ciencia y Tecnología (NTNU).

Un subproducto de la investigación académica. En mayo de 1999, lanzó su propio motor de búsqueda AllTheWebi. El objetivo de Fast era ser el motor de búsqueda más grande y rápido del mundo. Ha sido casi el mismo en los últimos años. (Alltheweb) la búsqueda web puede utilizar la clasificación automática ODP, admite búsqueda en Flash y PDF, admite búsqueda en varios idiomas y también proporciona búsqueda de noticias, búsqueda de imágenes, búsqueda de videos, MP3 y FTP, y tiene funciones de búsqueda avanzadas extremadamente potentes (febrero). 25 de 2003, Búsqueda rápida en Internet (el departamento fue adquirido por Overture).

En agosto de 1996, se estableció la empresa sohu para producir directorios de clasificación de sitios web chinos. Alguna vez tuvo la reputación de "buscar mapas cuando visitaba". "Con el rápido aumento de los sitios web de Internet, este tipo de directorio de clasificación editado manualmente ya no es adecuado. Sohu lanzó un sitio web independiente de búsqueda de nombres de dominio "Sogou" en agosto de 2004, autodenominado "búsqueda de tercera generación". motor".

Openfind se fundó en enero de 1998. Su tecnología se originó en el laboratorio GAIS dirigido por el profesor Wu Sheng de la Universidad Nacional Chung Cheng en Taiwán. Al principio, Openfind sólo producía motores de búsqueda chinos. En su apogeo , también proporcionó motores de búsqueda chinos para los tres portales famosos Sina, Qimo y Yahoo. Sin embargo, después de 2000, el mercado de Baidu y Google se separó. En junio de 2002, Openfind relanzó la versión Beta del motor de búsqueda Openfind. basado en el Proyecto GAIS30, lanzó PolyRankTM, anunció que había rastreado un total de 3,5 mil millones de páginas web y comenzó a ingresar al campo de la búsqueda en inglés.

En enero de 2000, dos exalumnos de la Universidad de Pekín, inventores de La patente de análisis de hipervínculos y el ex ingeniero senior de Infoseek Robin Li y su amigo Xu Yong (becario postdoctoral de la Universidad de California, Berkeley) fundaron Baidu en Zhongguancun, Beijing. Baidu lanzó la versión Beta del motor de búsqueda .com (anteriormente Baidu). Solo proporcionó motores de búsqueda para otros portales como Sohu, Sina, Tom, etc.). El motor de búsqueda Baidu se lanzó oficialmente el 22 de octubre de 2001 y se centra en la búsqueda en chino. Otras características del motor de búsqueda Baidu incluyen: instantánea de Baidu, vista previa de la página web/. vista previa de todas las páginas web, términos de búsqueda relacionados, consejos para corregir errores tipográficos, búsqueda de mp3, búsqueda en Flash Después del inicio del Proyecto Blitzen en marzo de 2002, las actualizaciones tecnológicas se aceleraron significativamente. Más tarde, Tieba, Zhiba, Map, Estudios chinos, Una serie de. Productos como las enciclopedias son muy populares entre los internautas. Cotizó en Nasdaq el 5 de agosto de 2005, con un precio de emisión de 27,00 dólares y el nombre en clave BIDU. El precio de apertura fue de 66,00 dólares y cerró a 122,54 dólares, un aumento de 353,85. y un récord de 5 El aumento más alto en un día para nuevas acciones cotizadas en el mercado de valores de EE. UU. desde 2003.

El 23 de diciembre de 2003, la Búsqueda Huicong original operó oficialmente de forma independiente y estableció China Search en febrero. 2004, China Search lanzó una red de motor de búsqueda de escritorio Pig 1.0, en marzo de 2006, Zhongsou cambió el nombre de Internet Pig a IG (Internet Gateway).

En junio de 2005, Sina lanzó oficialmente su motor de búsqueda desarrollado de forma independiente. "Aiwen".

Clasificación de motores de búsqueda

Los motores de búsqueda se pueden dividir en tres tipos principales según sus métodos de trabajo, a saber, motor de búsqueda de texto completo (motor de búsqueda de texto completo), índice de directorio motor de búsqueda (Search Index/Directory) y metabuscador (Meta Search Engine).

Motor de búsqueda de texto completo

El motor de búsqueda de texto completo es un auténtico motor de búsqueda representativo extranjero. entre ellos se incluyen Google, Fast/AllTheWeb, AltaVista, Inktomi, Teoma, WiseNuti, etc., los famosos nacionales incluyen Baidu. Todas son bases de datos establecidas extrayendo información de varios sitios web en Internet (principalmente texto de páginas web).

, recupera registros relevantes que coinciden con las condiciones de consulta del usuario y luego devuelve los resultados al usuario en un orden determinado, por lo que son motores de búsqueda reales.

Desde la perspectiva de la fuente de los resultados de búsqueda, completo- Los motores de búsqueda de texto pueden subdividirse en dos tipos. Uno es tener su propio programa de búsqueda (Indexer), comúnmente conocido como programa "Spider" o programa "Robot", y crear su propia base de datos de páginas web y los resultados de la búsqueda. se llama directamente desde su propia base de datos, como los 7 motores mencionados anteriormente, el otro es alquilar la base de datos de otros motores y organizar los resultados de la búsqueda en un formato personalizado, como el motor Lycos.

Directorio. index

Aunque el índice del directorio tiene una función de búsqueda, no es un motor de búsqueda real en el sentido estricto. Es solo una lista de enlaces a sitios web clasificados por directorio. Los usuarios no necesitan realizar palabras clave (Keywords). ) consultas y solo confía en directorios clasificados. Puede encontrar la información que necesita. El índice de directorio más representativo es el famoso Yahoo. Otros famosos incluyen Open Directory Project (DMOZ), LookSmart, About, etc. y las búsquedas de NetEase también pertenecen a esta categoría 1.

Metamotor de búsqueda

Cuando un metamotor de búsqueda acepta una solicitud de consulta de un usuario, busca en varios otros motores al mismo tiempo. al mismo tiempo y devuelve los resultados al usuario. El famoso metabuscador. Los motores de búsqueda incluyen InfoSpace, Dogpile, Vivisimo, etc. (lista de metabuscadores chinos). El metabuscador chino más representativo es el motor de búsqueda Souxing. disposición, algunos resultados de búsqueda se organizan directamente según el motor de origen, como Dogpile. Algunos reorganizan y combinan los resultados según reglas autodefinidas, como Vivisimo.

Además de las tres categorías anteriores motores de búsqueda, también hay varios motores de búsqueda no estándar, motores de búsqueda de portales, listas de enlaces gratuitos, etc. Forma principal:

Dado que todos los sitios web anteriores brindan servicios de consulta de búsqueda para los usuarios, por conveniencia, generalmente nos referimos a ellos como motores de búsqueda.

Características de varios motores de búsqueda

Características del motor de búsqueda de Baidu

El motor de búsqueda de Baidu utiliza un programa de "araña web" de alto rendimiento para buscar información automáticamente en Internet El algoritmo de programación personalizable y altamente escalable permite al buscador recopilar la mayor cantidad de información de Internet en un período de tiempo muy corto. El alcance cubre regiones de habla china como China continental, Hong Kong, Taiwán, Macao y Singapur, así como algunos sitios en América del Norte y Europa. El motor de búsqueda Baidu tiene la base de datos de información china más grande del mundo, con un volumen total de. Más de 60 millones de páginas y sigue creciendo rápidamente a un ritmo de cientos de miles de páginas por día. Debido al eficiente algoritmo de indexación de información aplicado en segundo plano, el tiempo de recuperación se ha mejorado enormemente con una excelente velocidad de respuesta y estabilidad. Con mucho tráfico, el tiempo medio de respuesta local del motor de búsqueda Baidu para recuperar más de 60 millones de páginas web es inferior a 0,5 segundos.

Tiene principalmente las siguientes características y funciones:

p>

1) Método de procesamiento de información basado en la combinación de palabras.

2) Admite los principales estándares de codificación chinos.

3) Algoritmo de correlación inteligente.

4) La búsqueda Los resultados pueden indicar atributos enriquecidos de la página web (como título, URL, hora, tamaño, codificación, resumen, etc.) y resaltar la cadena de consulta del usuario, lo que facilita que los usuarios determinen si deben leer el texto original.

5) La búsqueda de Baidu admite la recuperación secundaria (también conocida como recuperación progresiva o recuperación forzada).

6) Tecnología de recomendación inteligente para términos de búsqueda relacionados.

7) Uso de múltiples -tecnología de subprocesos, eficiente El último algoritmo de búsqueda, la plataforma UNIX estable y el servidor localizado garantizan la velocidad de respuesta más rápida.

8) Podemos proporcionar una variedad de métodos de servicio, como una semana, dos semanas y cuatro semanas Podemos brindarle servicios en 7 días. Completa la actualización de las páginas web en 10 días y actualmente es el motor de búsqueda chino con el tiempo de actualización más rápido y la mayor cantidad de datos.

9) El resultado de la búsqueda admite agrupación de contenido, agrupación de sitios web, agrupación de contenido, agrupación de sitios web, etc. Una variedad de métodos.

10) Inteligencia y escalabilidad

La tecnología de búsqueda avanzada garantiza la recopilación más rápida y eficiente de información de Internet.

11) La estructura distribuida, el algoritmo de optimización cuidadosamente diseñado y el diseño tolerante a fallos garantizan la alta disponibilidad, la alta escalabilidad y el alto rendimiento del sistema. bajo grandes volúmenes de tráfico, rendimiento y alta estabilidad.

12) La alta capacidad de configuración permite que los servicios de búsqueda satisfagan las necesidades de diferentes usuarios.

13) Tecnología avanzada de visualización de resumen dinámico de páginas web.

14) Instantánea única de Baidu.

15) Admite una variedad de sintaxis de búsqueda avanzada, lo que hace que las consultas de los usuarios sean más eficientes y los resultados más precisos.

Funciones del motor de búsqueda de Google

p>

El motor de búsqueda de Google utiliza un programa araña (Spider) para recopilar y descubrir automáticamente información en Internet de cierta manera, y el indexador indexa la información recopilada para proporcionar a los usuarios el texto completo de la web. páginas Un sistema de consulta de información de Internet para servicios de recuperación.

Tiene principalmente las siguientes características y funciones:

1) Adopta tecnología avanzada a nivel de página web (PageRankTM).

2) En la misma interfaz, los usuarios pueden personalizar el idioma y el tipo de sitio web a buscar.

3) Tiene la función de análisis de hipervínculos.

4) Cumplir con las palabras clave La posición relativa.

5) Mejora la relevancia de los motores de búsqueda chinos y logra mejor la coincidencia semántica entre las cadenas de búsqueda y los caracteres chinos en las páginas web.

Características de búsqueda de Sohu del motor

El contenido del sitio web de Sohu es rico y colorido, y está estrechamente relacionado con nuestras vidas. El directorio jerárquico de Sohu es un sistema de directorio de clasificación de alta calidad especialmente diseñado para usuarios chinos, con más de 150.000. Los enlaces a sitios chinos seleccionados se clasifican en 18 categorías principales, tales como: entretenimiento, computadoras e Internet, negocios y economía, ciencia, arte, literatura, servicios de vida, ciencia y tecnología, política y derecho, etc. Y los usuarios valiosos a menudo. solo se preocupan por lo que necesitan información especializada. Por lo tanto, hemos establecido un sistema de árbol de directorio completo y rico debajo de cada directorio inicial, formando una autopista de información que se extiende en todas direcciones para llevarlo a su destino de manera conveniente y rápida. No solo permite a los usuarios encontrar la información que más necesitan. La información especializada también permite a los anunciantes encontrar grupos de usuarios específicos más fácilmente para lograr el mejor efecto publicitario. Además del directorio jerárquico de Sohu, también se han creado siete canales de Sohu: Sohu News y Financial. Informes, Sohu Sports e Internet Monkey, multimedia, recursos extranjeros, comunidad Sohu.

Tiene principalmente las siguientes características y funciones:

1) La tecnología de clasificación manual más avanzada 2; ) Interfaz amigable totalmente en chino; 3) En línea con el idioma y los hábitos culturales chinos; 4) Una estructura de página web en forma de árbol compuesta por 18 categorías y casi 150.000 enlaces 5) La forma más intuitiva y sencilla de proporcionar a los usuarios en línea; contenido que necesitan.

Características del motor de búsqueda de Beida Tianwang

Beida Tianwang incluye 1,35 millones de páginas web y 90.000 artículos de grupos de noticias, y se actualiza rápidamente; las funciones están estandarizadas; completo, incluido el título de la página web, la fecha, la longitud y el código; puede realizar búsquedas adicionales en los resultados de los comentarios; admite consultas por correo electrónico. También proporciona búsqueda de la Universidad de Pekín, la Academia de Ciencias de China y otros sitios FTP.

Tiene principalmente las siguientes características y funciones:

1) Admite búsquedas en chino e inglés en términos de idioma. La mayoría de los motores de búsqueda nacionales solo incluyen sitios web chinos y se utilizan para encontrar sitios web nacionales en inglés.

p>

2) Admite www en formato de archivo El formato de transferencia de archivos también admite el formato de transferencia de archivos FTP. Skynet divide los archivos FTP en cuatro categorías: películas, dibujos animados, música mp3, descargas de programas y recursos de desarrollo. búsquelos capa por capa como un motor de búsqueda de navegación por directorio. Encuentre los archivos FTP que necesita.

Cómo utilizar los motores de búsqueda

Los motores de búsqueda pueden ayudarle a encontrar información específica en Internet, pero también devuelven mucha información irrelevante. Si utiliza algunas de las técnicas que se describen a continuación, encontrará que los motores de búsqueda tardan el menor tiempo posible en encontrar la información exacta que necesita.

Buscar en categorías.

Muchos motores de búsqueda (como Yahoo!) muestran clases

Categorías como Computadoras e Internet, Negocios y Economía. Si hace clic en una de las categorías y luego usa el motor de búsqueda, tendrá la opción de buscar en todo Internet o buscar en la categoría actual. Obviamente, el tiempo dedicado a buscar en una. menos categorías específicas y evita una gran cantidad de sitios web irrelevantes.

Por supuesto, es posible que también desee buscar en Internet información fuera de categorías específicas.

Utilice palabras clave específicas

Si desea buscar sitios web con temas de aves, puede ingresar la palabra clave "pájaro" en el motor de búsqueda. Sin embargo, el motor de búsqueda arrojará mucha información irrelevante, como "pájaros". hablando de bádminton. "birdie" o diferentes formas de cocinar aves de caza. Para evitar este problema, utilice una palabra clave más específica, como "ornitología" (ornitología, una rama de la zoología). Es menos probable que los motores de búsqueda muestren sitios web irrelevantes.

Utilice varias palabras clave

También puede limitar el alcance de la búsqueda utilizando varias palabras clave, por ejemplo. para obtener información sobre Miami, Florida, ingrese las dos palabras clave "Miami" y "Florida". Si ingresa solo una de estas palabras clave, el motor de búsqueda arrojará información como el equipo de fútbol americano Miami Dolphins o información irrelevante sobre el equipo de béisbol Florida Marlins. En términos generales, cuantas más palabras clave proporcione, más precisos serán los resultados que arroja el motor de búsqueda.

Utilice operadores booleanos

Muchos motores de búsqueda Se permiten dos operadores booleanos diferentes. en búsquedas: AND y OR Si desea buscar todos los sitios web que contengan las palabras "hot" y "dog", simplemente ingrese las siguientes palabras clave en el motor de búsqueda:

hot AND dog<. /p>

La búsqueda arrojará sitios web con temas de perros calientes, pero también arrojará algunos resultados extraños, como sitios web sobre cómo calentar a un perro en un día caluroso para que los perros se refresquen.

Si desea buscar todos los sitios web que contienen la palabra "hot" o la palabra "dog", sólo necesita ingresar las siguientes palabras clave:

hot OR dog

La búsqueda arrojará sitios web relacionados con estas dos palabras. Los temas de estos sitios web pueden ser hot dogs (perros calientes), perros o diferentes aires acondicionados en días calurosos (hot day) para refrescarse, chile picante. salsas o comida para perros, etc.

Preste atención a los resultados devueltos por los motores de búsqueda

El orden de los sitios web devueltos por los motores de búsqueda puede afectar la cantidad de clics de las personas. Por lo tanto, para aumentar el clic -A través de la tarifa de un sitio web, algunos sitios web pagarán a los motores de búsqueda para que aparezcan en la parte superior de la lista de sitios web relacionados. Los buenos motores de búsqueda identificarán el contenido del sitio web y lo organizarán de acuerdo con su orden, pero otros motores de búsqueda. probablemente no haga esto.

Además, debido a que los motores de búsqueda suelen buscar las palabras clave más utilizadas, muchos sitios web ocultan las mismas palabras clave en sus propias páginas web. Esto detiene la búsqueda. Los motores buscan en Internet para obtener más información sobre la palabra clave.

Al igual que leer un periódico, escuchar la radio o ver las noticias en la televisión, sea consciente de lo que está obteniendo. La fuente de información. Los motores de búsqueda pueden ayudarle a encontrar información, pero no pueden verificar la confiabilidad de la información porque cualquiera puede publicar información en línea.