Red de conocimiento informático - Aprendizaje de código fuente - Directorio de robots de motores de búsqueda

Directorio de robots de motores de búsqueda

¿Qué es una araña web? Web Spider es un nombre muy vívido. Si se compara Internet con una telaraña, entonces una araña es una araña que se arrastra por la red. Las arañas web buscan páginas web a través de las direcciones de enlaces de las páginas web. Comienzan desde una determinada página del sitio web (generalmente la página de inicio), leen el contenido de la página web, encuentran otras direcciones de enlaces en la página web y luego las utilizan. direcciones de enlace para encontrar la siguiente página web. De esta manera, el bucle continúa hasta que se hayan rastreado todas las páginas web de este sitio web. Si consideramos todo Internet como un sitio web, las arañas web pueden utilizar este principio para rastrear todas las páginas web de Internet.

De este modo, una araña web es un rastreador, un programa que rastrea páginas web. Para hablar del origen de las arañas web, tenemos que empezar por los motores de búsqueda. ¿Qué es un motor de búsqueda? El origen de los motores de búsqueda está estrechamente relacionado con el origen de las arañas web.

Un motor de búsqueda se refiere a un sistema que recopila automáticamente información de Internet y la proporciona a los usuarios para que la consulten después de cierta clasificación. La información en Internet es vasta y desordenada. Toda la información es como pequeñas islas en el vasto océano. Los enlaces web son puentes entre estas pequeñas islas que le muestran un mapa de información claro. en cualquier momento.

Desde su prototipo en 1990 hasta ahora, el motor de búsqueda se ha convertido en una parte indispensable de la vida de las personas y ha experimentado demasiados cambios en tecnología y conceptos.

En enero de 1994, se lanzó el primer directorio de categorías con capacidad de búsqueda y navegación, EINetGalaxy. Después apareció Yahoo, hasta que ahora conocemos a Google y Baidu. Pero no son los primeros en aprovechar los motores de búsqueda. A partir de la búsqueda de archivos en FTP, apareció el prototipo del motor de búsqueda. En ese momento, no existía la World Wide Web. En ese momento, la gente buscaba páginas web manualmente y luego usaba programas araña. ¿Cómo podemos recopilar la cantidad de páginas web? El tiempo cada vez más corto se convirtió en la dificultad y el enfoque en ese momento, y se convirtió en el foco de la investigación de las personas.

Aparece el prototipo del motor de búsqueda

Si quieres rastrearlo, el historial de los motores de búsqueda es más largo que el de WorldWideWeb. Mucho antes de la llegada de la Web, ya existían muchos recursos de información en Internet diseñados para que la gente los disfrutara. En ese momento, estos recursos existían principalmente en varios sitios FTP que permitían el acceso anónimo. Para que a las personas les resulte más fácil encontrar lo que necesitan en recursos FTP dispersos, en 1990, varios estudiantes universitarios de la Universidad McGill en Canadá desarrollaron el software Archie. Es una lista de búsqueda de nombres de archivos FTP. El usuario debe ingresar el nombre exacto del archivo a buscar y Archie le indicará qué dirección FTP puede descargar el archivo. Archie es en realidad una gran base de datos, además de un conjunto de métodos de búsqueda asociados con esta gran base de datos. Aunque Archie aún no es un motor de búsqueda, a juzgar por su principio de funcionamiento, es el antepasado de todos los motores de búsqueda.

Cuando apareció la World Wide Web (WorldWideWeb), la gente podía difundir información de páginas web a través de html, y la información en Internet comenzó a crecer exponencialmente. La gente ha utilizado diversos métodos para recopilar, clasificar y organizar información en Internet para facilitar la búsqueda. En este entorno nació el ya conocido sitio web Yahoo. Jerry Yang, un chino-estadounidense que todavía estudiaba en la Universidad de Stanford, y sus compañeros se obsesionaron con Internet. Recopilaron páginas web interesantes en Internet y las compartieron con sus compañeros. Posteriormente, en abril de 1994, los dos fundaron juntos Yahoo. A medida que crecía el número de visitas y los enlaces incluidos, el Directorio de Yahoo comenzó a admitir búsquedas simples en bases de datos. Pero debido a que los datos de Yahoo se ingresan manualmente, en realidad no se puede clasificar como un motor de búsqueda y, de hecho, es solo un directorio en el que se pueden realizar búsquedas.

Cuando apareció el programa "araña", los motores de búsqueda en el sentido moderno comenzaron a tomar forma.

En realidad, es un "robot" informático (Computer Robot). Un "robot" informático se refiere a un programa de software que puede realizar una determinada tarea sin interrupción a una velocidad que los humanos no pueden alcanzar. Porque el programa "robot" utilizado específicamente para recuperar información es como una araña que se arrastra por la red, una y otra vez, incansablemente. Por lo tanto, los programas "robots" de los motores de búsqueda se denominan programas "araña".

Este tipo de programa en realidad utiliza la relación de enlace entre documentos HTML para rastrear páginas web una por una en la Web, captura estas páginas web en el sistema para su análisis y las coloca en la base de datos. La primera persona en desarrollar un programa "araña" fue Matthew Gray. Desarrolló World Wide Web Wanderer en 1993. Originalmente fue creado para contar la cantidad de servidores en Internet y luego se desarrolló para capturar URL. La idea de los motores de búsqueda modernos proviene de Wanderer, y muchas personas posteriormente mejoraron el programa spider sobre esta base.

El sitio web Lycos, lanzado el 20 de julio de 1994, fue el primero en integrar el programa "spider" en su programa de indexación. La mayor ventaja que le aporta la introducción de "spider" es que su volumen de datos es muy superior al de otros motores de búsqueda. Desde entonces, casi todos los motores de búsqueda dominantes se han basado en "arañas" para recopilar información de las páginas web. Infoseek es otro importante motor de búsqueda que se lanzó al público a finales de 1994. Al principio, Infoseek era sólo un motor de búsqueda discreto. Seguía los conceptos de Yahoo! y Lycos sin innovaciones exclusivas. Pero su interfaz fácil de usar y numerosos servicios adicionales le han ganado una reputación entre los usuarios. En diciembre de 1995, su acuerdo estratégico con Netscape lo convirtió en un potente motor de búsqueda: cuando el usuario hace clic en el botón de búsqueda del navegador Netscape, aparece el servicio de búsqueda de Infoseek, que anteriormente proporcionaba Yahoo! El 15 de diciembre de 1995 se lanzó oficialmente Alta Vista. Es el primer motor de búsqueda que admite sintaxis de búsqueda avanzada. Integra con éxito todas las tecnologías de recuperación de información humana anteriores y resuelve problemas clave que incluyen el procesamiento de raíz, la recuperación de palabras clave, la lógica booleana y la clasificación de consultas a través de modelos de espacio vectorial. Antes de su lanzamiento oficial, Alta Vista ya contaba con 200.000 visitantes. En sólo tres semanas, el número de visitantes aumentó de 300.000 a 2 millones por día. Su éxito radica en satisfacer las necesidades de los usuarios en tres aspectos: el alcance de la indexación en línea supera el de cualquier motor de búsqueda anterior; los resultados de búsqueda pueden devolverse a los usuarios desde una enorme base de datos en sólo unos segundos; on Se utiliza una tecnología de diseño modular que permite que el sitio web rastree las tendencias populares mientras expande continuamente las capacidades de procesamiento. Entre los muchos motores de búsqueda de la época, Alta Vista se destacó y se convirtió en sinónimo de búsqueda web. Google se apoya en esos gigantes para subvertir y crear. "Buscar en línea" Lo que cambió la forma en que la gente navega por Internet es el ahora famoso Google. Google no es el inventor del motor de búsqueda, e incluso está un poco por detrás, pero ha hecho que la gente se enamore de la búsqueda.

En septiembre de 1998, cuando Page y Brin fundaron Google, la comprensión que tenía la industria de la función de búsqueda en Internet era: cuanto más frecuentemente aparece una palabra clave en un documento, más probable es que el documento aparezca en los resultados de búsqueda. La posición del arreglo será más prominente. Esto lleva al problema de que si una página está llena de una determinada palabra clave, ocupará un lugar destacado, pero dicha página no tendrá significado para el usuario. Page y Brin inventaron la tecnología "PageRank" para clasificar los resultados de búsqueda. Es decir, la clasificación se basa en la frecuencia y la importancia de la página a la que se vincula en Internet. Cuanto más sitios web importantes en Internet apunten a esta página, mayor será la clasificación de la página. Al enlazar desde la página web A a la página web B, Google considera que "la página web A votó por la página web B".

Google califica la importancia de una página según la cantidad de votos que recibe. Sin embargo, además de considerar el número puro de votos de una página web, Google también analiza las páginas web de votación. Los votos emitidos por páginas web "importantes" tendrán un mayor peso y ayudarán a aumentar la "importancia" de otras páginas web. ". Los métodos de búsqueda sofisticados y totalmente automatizados de Google eliminan cualquier influencia humana en los resultados de búsqueda. Nadie puede gastar dinero para comprar una clasificación de página más alta, garantizando así la objetividad y equidad de la clasificación de la página. Además, los internautas también adoran profundamente las búsquedas integradas, como resúmenes dinámicos, instantáneas de páginas web, soporte de formatos de múltiples documentos, mapas, diccionarios de valores y búsqueda de personas. Muchos otros motores de búsqueda han seguido el ejemplo de Google y han lanzado estos servicios. AllTheWeb, un motor de búsqueda lanzado por Fast (Alltheweb), tiene su sede en Noruega y su popularidad en el extranjero es cercana a la de Google. La búsqueda web de Alltheweb admite búsquedas en Flash y PDF, admite búsquedas en varios idiomas y también proporciona búsqueda de noticias, búsqueda de imágenes, búsqueda de videos, MP3 y FTP, y tiene funciones de búsqueda avanzadas extremadamente potentes. Baidu de China está atrayendo a la audiencia de Internet de China al "comprender mejor al chino". Tiene una base de datos de más de mil millones de páginas web chinas, y el número de estas páginas web está creciendo a un ritmo de decenas de millones cada día.

Los motores de búsqueda se están convirtiendo cada vez más en una parte importante de la vida de las personas. No hay nada que no se pueda buscar, como encontrar información, buscar mapas y escuchar música.

Tres principios básicos de los buscadores

1. Utilice el programa del sistema araña para acceder automáticamente a Internet y rastrear otras páginas web a lo largo de todas las URL de cualquier página web. Repita este proceso y recopile todas las páginas web rastreadas.

2. El programa del sistema de análisis e indexación analiza las páginas web recopiladas, extrae información relevante de la página web y realiza una gran cantidad de cálculos complejos basados ​​en un determinado algoritmo de correlación para obtener los resultados de cada página web. el contenido de la página y los hipervínculos. La relevancia (o importancia) de cada palabra clave y luego utilice esta información relevante para crear una base de datos de índice de páginas web.

3. Cuando el usuario ingresa una búsqueda de palabra clave, el programa del sistema de búsqueda encuentra todas las páginas web relevantes que coinciden con la palabra clave de la base de datos del índice web. La correlación se ordena numéricamente. Cuanto mayor es la correlación, mayor es la clasificación. Finalmente, el sistema de generación de páginas organiza la dirección del enlace de los resultados de búsqueda y el resumen del contenido de la página y se los devuelve al usuario.

¡En este punto, es posible que tengas una comprensión preliminar de los motores de búsqueda y las arañas web! Es casi imposible para los motores de búsqueda rastrear todas las páginas web de Internet. A juzgar por los datos publicados actualmente, el motor de búsqueda con mayor capacidad sólo rastrea alrededor del 40% del número total de páginas web. La razón de esto es, por un lado, el cuello de botella de la tecnología de rastreo, que no puede atravesar todas las páginas web y muchas páginas web no se pueden encontrar a través de enlaces de otras páginas web; la otra razón es el problema de la tecnología de almacenamiento y la tecnología de procesamiento; Si según el promedio de cada página Calculado en un tamaño de 20K (incluidas las imágenes), la capacidad de 10 mil millones de páginas web es de 100 × 2000G bytes. Incluso si se puede almacenar, todavía hay problemas con la descarga (cálculo basado en un. máquina descarga 20K por segundo, se requieren 340 máquinas para descargar continuamente durante un año para descargar todas las páginas web). Al mismo tiempo, debido a la gran cantidad de datos, también habrá un impacto en la eficiencia a la hora de realizar búsquedas. Por lo tanto, muchas arañas web de motores de búsqueda solo rastrean aquellas páginas web importantes, y la base principal para evaluar la importancia al rastrear es la profundidad del enlace de una determinada página web.

Al rastrear páginas web, las arañas web generalmente tienen dos estrategias: primero la amplitud y primero la profundidad (como se muestra en la figura siguiente).

La amplitud primero significa que la araña web primero rastreará todas las páginas web vinculadas en la página web inicial y luego seleccionará una de las páginas web vinculadas para continuar rastreando todas las páginas web vinculadas en esta página web. Este es el método más utilizado porque permite a las arañas web procesar en paralelo y mejorar su velocidad de rastreo. Profundidad primero significa que la araña web comenzará desde la página de inicio y seguirá un enlace uno por uno. Después de procesar esta línea, pasará a la siguiente página de inicio y continuará siguiendo los enlaces.

Este método tiene la ventaja de que es más fácil de diseñar para las arañas web. La diferencia entre las dos estrategias será más clara como se muestra en la siguiente figura.

Dado que es imposible rastrear todas las páginas web, algunas arañas web establecen niveles de acceso para algunos sitios web menos importantes. Por ejemplo, en la figura anterior, A es la página web inicial y pertenece a la capa 0, B, C, D, E y F pertenecen a la capa 1, G y H pertenecen a la capa 2 e I pertenece a la capa 3. Si el nivel de acceso establecido por la araña web es 2, no se accederá a la página web I. Esto también permite que algunas páginas web de algunos sitios web se puedan buscar en los motores de búsqueda, mientras que otras partes no se pueden buscar. Para los diseñadores de sitios web, un diseño de estructura de sitio web plano ayuda a los motores de búsqueda a rastrear más páginas web.

Cuando los arañas web visitan páginas web, a menudo encuentran problemas con los datos cifrados y los permisos de la página web. Algunas páginas web requieren permisos de membresía para acceder. Por supuesto, los propietarios de sitios web pueden evitar que las arañas web rastreen sus informes (que se presentarán en la siguiente sección), pero algunos sitios web que venden informes esperan que los motores de búsqueda puedan buscar sus informes, pero no pueden permitir que los motores de búsqueda sean completamente gratuito. Para visualizarlo es necesario proporcionar al web spider el correspondiente nombre de usuario y contraseña. Las arañas web pueden rastrear estas páginas web con los permisos otorgados para realizar búsquedas. Cuando el buscador hace clic para ver la página web, también debe proporcionar la verificación del permiso correspondiente.

Cada araña web tiene su propio nombre y, al rastrear páginas web, indicará su identidad al sitio web. Cuando una araña web rastrea una página web, enviará una solicitud. Hay un campo en esta solicitud llamado Agente de usuario, que se utiliza para identificar la identidad de la araña web. Por ejemplo, el logotipo de la araña web de Google es GoogleBot, el logotipo de la araña web de Baidu es BaiDuSpider y el logotipo de la araña web de Yahoo es Inktomi Slurp. Si hay registros de acceso en el sitio web, el administrador del sitio web puede saber qué arañas de motores de búsqueda han estado aquí, cuándo han estado aquí, cuántos datos han leído, etc. Si un webmaster descubre un problema con una araña en particular, puede contactar al propietario a través de su logotipo.

Cuando una araña web ingresa a un sitio web, generalmente accede a un archivo de texto especial Robots.txt. Este archivo generalmente se coloca en el directorio raíz del servidor del sitio web. El administrador del sitio web puede usar robots.txt para definirlo. a qué redes de directorios no pueden acceder las arañas, o a qué directorios no pueden acceder determinadas arañas web. Por ejemplo, el directorio de archivos ejecutables y el directorio de archivos temporales de algunos sitios web no desean ser buscados por los motores de búsqueda. Entonces el administrador del sitio web puede definir estos directorios como directorios de acceso denegado. La sintaxis de Robots.txt es muy simple. Por ejemplo, si no hay restricciones en el directorio, se puede describir con las dos líneas siguientes: User-agent: *Disallow:

Por supuesto, Robots. .txt es solo un protocolo si la araña web Si los diseñadores no siguen este protocolo, los administradores del sitio web no pueden evitar que las arañas web accedan a ciertas páginas. Sin embargo, las arañas web generales seguirán estos protocolos y los administradores de sitios web también pueden negar el acceso a las arañas web. ciertas páginas web de otras maneras.

Cuando las arañas web descargan una página web, identificarán el código HTML de la página web y habrá una marca META en la parte del código. A través de estos identificadores, puede indicar a las arañas web si es necesario rastrear esta página web y también puede indicarles a las arañas web si es necesario seguir rastreando los enlaces de esta página web. Por ejemplo: significa que no es necesario rastrear esta página web, pero sí es necesario rastrear los enlaces dentro de la página web.

Los motores de búsqueda crean índices de páginas web y procesan archivos de texto. Para las arañas web, las páginas web rastreadas incluyen varios formatos, incluidos html, imágenes, doc, pdf, multimedia, páginas web dinámicas y otros formatos. Una vez capturados estos archivos, es necesario extraer la información de texto de estos archivos.

La extracción precisa de la información de estos documentos desempeña, por un lado, un papel importante en la precisión de las búsquedas de los motores de búsqueda y, por otro lado, influye en cierta medida en el correcto seguimiento de otros enlaces por parte de las arañas web. Para documentos como doc y pdf, generados por software proporcionado por fabricantes profesionales, los fabricantes proporcionarán las interfaces de extracción de texto correspondientes. Las arañas web solo necesitan llamar a las interfaces de estos complementos para extraer fácilmente la información de texto del documento y otra información relacionada del archivo. Pero los documentos como HTML son diferentes. HTML tiene su propia sintaxis, que utiliza diferentes identificadores de comando para representar diferentes fuentes, colores, posiciones y otros formatos, como:,,, etc. Estos identificadores deben filtrarse al extraer información de texto. . Filtrar identificadores no es difícil, porque estos identificadores tienen ciertas reglas y solo necesita obtener la información correspondiente de acuerdo con diferentes identificadores. Sin embargo, al identificar esta información, es necesario registrar mucha información de diseño simultáneamente, como el tamaño de fuente del texto, si es un título, si está en negrita, si es una palabra clave en la página, etc. La información ayuda a calcular la posición de la palabra en la importancia de la página web. Al mismo tiempo, para las páginas web HTML, además del título y el texto, habrá muchos enlaces publicitarios y enlaces de canales públicos. Estos enlaces no tienen nada que ver con el cuerpo del texto. filtrar estos enlaces inútiles. Por ejemplo, un sitio web tiene un canal de "Introducción del producto", porque la barra de navegación está en cada página web del sitio web. Si el enlace de la barra de navegación no se filtra, al buscar "Introducción del producto", se mostrarán todas las páginas web del sitio web. ser buscado. No hay duda de que traerá mucho spam. Filtrar estos enlaces no válidos requiere contar una gran cantidad de patrones de estructura de páginas web, extraer algunas singularidades y filtrarlos de manera uniforme. Algunos sitios web importantes con resultados especiales también deben procesarse individualmente. Esto requiere un cierto grado de escalabilidad en el diseño de arañas web.

Para archivos como multimedia e imágenes, el contenido de estos archivos generalmente está determinado por el texto ancla del enlace (es decir, el texto del enlace) y los comentarios del archivo relacionado. Por ejemplo, si hay un enlace con el texto "Foto de Maggie Cheung" y el enlace apunta a una imagen en formato bmp, entonces la araña web sabrá que el contenido de esta imagen es "Foto de Maggie Cheung". De esta manera, los motores de búsqueda pueden encontrar esta imagen cuando buscan "Maggie Cheung" y "foto". Además, muchos archivos multimedia tienen atributos de archivo y, al considerar estos atributos, también se puede comprender mejor el contenido del archivo.

Las páginas web dinámicas siempre han sido un problema al que se enfrentan las arañas web. La llamada página web dinámica es una página generada automáticamente por un programa en comparación con una página web estática. La ventaja de esto es que el estilo de la página web se puede cambiar de manera rápida y uniforme y también puede reducir el espacio ocupado. la página web en el servidor, pero también aumenta el tiempo de rastreo de las arañas web. Ven y ten algunos problemas. A medida que los lenguajes de desarrollo continúan aumentando, existen cada vez más tipos de páginas web dinámicas, como asp, jsp, php, etc. Este tipo de páginas web pueden resultar un poco más fáciles para las arañas web. Lo que es más difícil de procesar para las arañas web son las páginas web generadas por algunos lenguajes de secuencias de comandos (como VBScript y JavaScript). Si desea procesar estas páginas web a la perfección, las arañas web deben tener su propio intérprete de secuencias de comandos. Para muchos sitios web donde los datos se almacenan en bases de datos, la información debe obtenerse mediante búsquedas en bases de datos en este sitio web, lo que genera grandes dificultades para las arañas web. Para este tipo de sitio web, si el diseñador del sitio web quiere que los motores de búsqueda puedan buscar los datos, debe proporcionar una forma de recorrer todo el contenido de la base de datos.

La extracción de contenido web siempre ha sido una tecnología importante en las arañas web. Todo el sistema generalmente adopta la forma de complementos. A través de un programa de servicio de administración de complementos, se utilizan diferentes complementos para procesar páginas web en diferentes formatos. La ventaja de este método es que tiene buena escalabilidad. Cada vez que se descubre un nuevo tipo en el futuro, su método de procesamiento puede convertirse en un complemento y agregarse al programa de servicio de administración de complementos.

Dado que el contenido del sitio web cambia con frecuencia, las arañas web también necesitan actualizar constantemente el contenido de las páginas web que rastrean. Esto requiere que las arañas web escaneen el sitio web durante un período determinado para ver qué páginas. Es necesario actualizar las páginas, qué páginas son páginas nuevas y qué páginas son enlaces inactivos que han caducado.

El ciclo de actualización de los motores de búsqueda tiene un gran impacto en la tasa de recuerdo de las búsquedas en los motores de búsqueda. Si el ciclo de actualización es demasiado largo, siempre habrá algunas páginas web recién generadas que no se podrán buscar; si el ciclo es demasiado corto, la implementación técnica será difícil y se desperdiciarán ancho de banda y recursos del servidor. Las arañas web de los motores de búsqueda no actualizan todos los sitios web en el mismo ciclo. Para algunos sitios web importantes con una gran cantidad de actualizaciones, el ciclo de actualización es corto. Por ejemplo, algunos sitios web de noticias se actualizan cada pocas horas. Sitios web, el ciclo de actualización es corto El sitio web tiene un ciclo de actualización largo, tal vez solo se actualiza una vez cada mes o dos.

En términos generales, cuando las arañas web actualizan el contenido del sitio web, no necesitan volver a rastrear las páginas del sitio web. Para la mayoría de las páginas web, solo necesitan determinar los atributos de las páginas web (principalmente la fecha). y obtener los atributos se comparan con los últimos atributos recuperados. Si son iguales, no es necesario actualizarlos.

Ahora tiene una comprensión preliminar del principio de funcionamiento de las arañas web. Después de comprenderlo, debe considerar las reglas de rastreo de las arañas en la producción futura de sitios web. Si tiene mejores ideas, publíquelas aquí. Firebird está muy dispuesto a comunicarse con usted y juntos estudiaremos técnicas de producción de sitios web e intentaremos que su sitio web cumpla con los estándares y esté en línea con los hábitos de los usuarios.

La importancia de los motores de búsqueda modernos para las páginas web generalmente se cuantifica por el valor de las relaciones públicas.

En términos generales, cuanto mayor sea el valor de relaciones públicas, mayor será la clasificación en los resultados de búsqueda (mayores serán las noticias importantes). Actualmente, muchas personas utilizan muchos métodos para mejorar el valor de relaciones públicas de sus sitios web, excepto). Además de la optimización interna del sitio web, la mayoría de la gente utiliza enlaces externos.

Así:

PR(A) = (1-d) d(PR(t1)/C(t1) ... PR(tn)/C(tn) )

PR(A) representa la puntuación de relaciones públicas agregada a su sitio web según el sistema Pagerank? de un sitio de enlace externo t1; PR(t1) representa la puntuación de relaciones públicas del sitio web de enlace externo en sí. (t1) representa el número de enlaces externos propiedad del sitio de enlace externo. Todos deberían recordar: el peso de votación de un sitio web es solo 0,85 del puntaje de relaciones públicas del sitio web, y este peso de 0,85 se distribuye uniformemente a cada sitio web externo al que enlaza.

Supongamos que un sitio web llamado akamarketing.com está vinculado al sitio web XYZ.C O M con un valor PR de 4 y un número de enlaces externos de 10. La fórmula de cálculo es la siguiente:

PR(AKA) = (1-0,85) 0,85*(4/10)

PR(AKA) = 0,15 0,85*(0,4)

PR(AKA) = 0,15 0,34

PR(AKA) = 0,49

Es decir, si mi sitio web recibe un enlace de un sitio web con un valor PR de 4 y un número de enlaces externos de 9, Al final, mi sitio web obtendrá una puntuación de PR de 0,49.

Veamos si mi sitio web recibe un enlace de un sitio web con una puntuación de relaciones públicas de 8 y un número de enlaces externos de 16, entonces la puntuación de relaciones públicas que obtendré será:

PR(AKA) = (1-0,85) 0,85*(8/16)

PR(AKA) = 0,15 0,85(0,5)

PR(AKA) = 0,15 0,425

PR(AKA) = 0,575

Los dos ejemplos anteriores muestran que el valor de relaciones públicas del sitio de enlace externo es importante y que el número de enlaces externos al sitio también es un factor importante. para considerar.