¿Qué debo hacer si no hay rastro al usar Pr?
El nombre completo de PR es PageRank, que obtuvo una patente en Estados Unidos en septiembre de 2001. El titular de la patente es Larry Page, uno de los fundadores de Google. Por lo tanto, la página en pageRank no se refiere a la página web, sino a la página, es decir, este método de clasificación lleva el nombre de la página.
Introducción al algoritmo
PageRank
Idea básica: si hay un enlace desde la página web T a la página web A, significa que el propietario de T piensa que A es más importante, lo que otorga parte de la puntuación de importancia de T. El valor de esta puntuación de importancia es: PR(T)/C(T)
Donde PR(T) es el valor de PageRank de T, C(T) es el número de enlaces de T, entonces el Valor de PageRank de a Es la acumulación de una serie de puntuaciones de importancia de página similares a T.
PR(A)=(1-d) d(PR(t 1)/C(t 1) … PR(TN)/C(TN))
a representa Página a.
PR(A) representa el valor PR de la página A.
d es el índice de amortiguación. Generalmente se cree que D=0,85.
T1...tn representa las páginas T1 a tn vinculadas a la página a.
c representa el número de enlaces externos en la página. C(t1) es el número de enlaces externos en la página t1.
Se puede ver en la fórmula de cálculo que el valor PR debe calcularse de forma iterativa.
Ventajas: Es un algoritmo estático que no tiene nada que ver con las consultas. Los valores de PageRank de todas las páginas web se calculan fuera de línea, lo que reduce efectivamente la cantidad de cálculo durante las consultas en línea y reduce en gran medida la respuesta a la consulta. tiempo.
Desventajas: las consultas de las personas tienen características de tema y PageRank ignora la relevancia del tema, lo que resulta en una menor relevancia y actualidad de los resultados. Además, PageRank discrimina seriamente las nuevas páginas web;
Tema sensible
(clasificación de páginas sensibles al tema)
Idea básica: se propone en respuesta al descuido de los temas por parte de PageRank. Idea central: calcular un conjunto de vectores de PageRank sin conexión. Cada vector del conjunto está relacionado con un tema determinado, es decir, calcular la puntuación de una página sobre diferentes temas. Se divide principalmente en dos etapas: cálculo del conjunto de vectores de PageRank relacionado con el tema y determinación del tema durante la consulta en línea.
Ventajas: según la solicitud de consulta del usuario y el contexto relacionado, determina con precisión los temas relacionados con la consulta del usuario (los intereses del usuario) y devuelve los resultados de la consulta.
Desventajas: La relevancia del tema no se utiliza para mejorar la precisión de la puntuación de enlaces.
La cima de la colina
Idea básica: La diferencia con PageRank es que solo se consideran enlaces a páginas de expertos. Incluye principalmente dos pasos: búsqueda de páginas expertas y clasificación de páginas de destino. Ventajas: fuerte correlación y resultados precisos. Desventajas: la búsqueda y determinación de páginas de expertos desempeñan un papel clave en el algoritmo. La calidad de las páginas de expertos determina la precisión del algoritmo, y la calidad y la equidad de las páginas de expertos son difíciles de garantizar si se ignora el impacto de una gran cantidad de ellas. las páginas no expertas no pueden reflejar toda la opinión pública de Internet; cuando no hay suficientes páginas expertas, regresan vacías, por lo que Hilltop es adecuado para una clasificación de consultas detallada.