Red de conocimiento informático - Aprendizaje de código fuente - ¿Cuál es la tecnología principal de los rastreadores de motores de búsqueda?

¿Cuál es la tecnología principal de los rastreadores de motores de búsqueda?

Un rastreador web (también conocido como araña web, robot web o más comúnmente conocido como cazador web) es un programa o script que rastrea automáticamente la World Wide Web de acuerdo con reglas específicas. Algunos otros nombres utilizados con menos frecuencia incluyen hormigas, autoindexadores, emuladores o gusanos.

Estos procesos se denominan rastreo web o rastreo de araña. Muchos sitios web, especialmente los motores de búsqueda, utilizan rastreadores para proporcionar datos actualizados. Se utilizan principalmente para proporcionar una copia de las páginas que han visitado y luego los motores de búsqueda pueden indexar las páginas resultantes para proporcionar un acceso rápido. Las arañas también se pueden usar para automatizar tareas, como verificar enlaces y validar código html; también se pueden usar para rastrear tipos específicos de información de páginas web, como rastrear direcciones de correo electrónico (a menudo utilizadas para spam).

Una araña web es un robot o agente de software. A grandes rasgos, comienza con un conjunto de enlaces URL a visitar, que pueden denominarse semillas. El rastreador visita estos enlaces e identifica todos los hipervínculos en estas páginas y luego los agrega a una lista de URL, que puede denominarse frente de búsqueda. Estas URL se visitarán repetidamente según determinadas políticas.

Dos tipos de rastreadores y las diferencias entre ellos

Los motores de búsqueda enviarán rastreadores para visitar el sitio web e indexarán el contenido del sitio web, pero cuando el motor de búsqueda envía rastreadores para visitar el sitio web, afectará el rendimiento del sitio web. En el archivo de registro de su servidor, puede ver la ruta y la dirección IP correspondiente de cada acceso. Si accede a él un programa rastreador, su agente de usuario mostrará el nombre del programa rastreador del motor de búsqueda, como Googlebot o MSNBot. El motor tiene su propio agente de usuario; los principales programas de rastreo se enumeran a continuación.

Baidu baidu.com--Baiduspider

Google google.com--Googlebot

Yahoo yahoo.com--Yahoo

Sí Dao yodao.com--Yahoo

El agente de usuario del motor de búsqueda mostrará el nombre de Googlebot o MSNBot. Youdao yodao.com - YodaoBot

Soso soso.com - Sosospider/Sosoimagespider

Sogou sogou.com - sogou