concepto
PageRank es un algoritmo propuesto por Google para medir la importancia de una página web en particular en relación con otras páginas web en el índice del motor de búsqueda. PageRank, creado por los fundadores de Google, Larry Page y Sergey Brin, en 1997, implementó el concepto de valor de enlace como factor de clasificación.
GOOGLE PageRank no es el único algoritmo de clasificación relacionado con enlaces, sino uno de los más utilizados. Otros algoritmos son:
- Algoritmo de la cima de la colina
- ExpertRank
- GOLPES
- TrustRank
Considere el papel de los hipervínculos en Internet
Entra en la cadena ==== vota
PageRank permite enlaces para "votar", y un hipervínculo a una página equivale a votar por esa página.
Número de cadenas entrantes
Si un nodo de página recibe más enlaces entrantes apuntados por otras páginas web, entonces la página es más importante.
Calidad entrante
La calidad de los enlaces entrantes que apuntan a la página A es diferente, y las páginas de alta calidad pasarán más peso a otras páginas a través de enlaces. Por lo tanto, cuantas más páginas de alta calidad apunten a la página A, más importante será la página A.
Valor de relaciones públicas de pagerank de estudio de caso
Desde la perspectiva de A :
Necesitas distribuir tu valor PR a B y D
Desde el punto de vista de B :
Recibió valores PR de A, C, D
El cálculo iterativo hace que el valor PR converja a un valor estable
Implementación de algoritmos
valor inicial
Cada página en Google establece el mismo valor PR
El algoritmo pagerank le da a cada página un valor PR inicial de 1.
Cálculo iterativo (convergencia)
Google recalcula constantemente el PageRank de cada página. Luego, después de repetidos cálculos, el valor de PR de estas páginas tenderá a ser estable, es decir, el estado de convergencia.
¿Cómo determinar los criterios de convergencia en aplicaciones empresariales específicas?
- El valor PR de cada página es igual al último PR calculado
- Establecer un indicador de diferencia (0.0001). Cuando la diferencia de PR promedio entre todas las páginas y el último cálculo es menor que el estándar, converge.
PRa - PRa' = |Δ|
- Establezca un porcentaje (99 %), cuando el 99 % de las páginas sean iguales al último PR calculado
Corrección de algoritmo
Desde la perspectiva de Internet:
Solo fuera, no dentro: PR será 0
Solo dentro, no fuera: las relaciones públicas serán muy altas
acceso directo a la página web
Corregir la fórmula de cálculo de PageRank
Aumentar el factor de amortiguamiento
Sobre la base de la fórmula simple, se agrega el factor de amortiguamiento (factor de amortiguamiento) d, y el valor general es d = 0.85.
Fórmula completa de cálculo de PageRank
d: coeficiente de amortiguamiento
M(i): el conjunto de páginas que apuntan a i
L(j): el número de enlaces salientes de la página
PR(pj): valor PR de la página j
n: número de todas las páginas
datos
A B D
ANTES DE CRISTO
TAXI
D B C
Calcular el valor PR de ABCD
segundo 1/2
D 1/2
A B D
Agrupación: la suma de los valores de PR de todas las páginas que apuntan a la i-ésima página.
Todas las páginas que apuntan a la i-ésima página se agrupan en un grupo y el cálculo iterativo se reduce.
El valor inicial de PR es 1
valor L
<compensación, A B D>
A->B
A->D
PR∆B=1/2
PR∆D=1/2
A B D
ANTES DE CRISTO
PR∆C=1
TAXI
PR∆B=1/2
PR∆A=1/2
D B C
PR∆B=1/2
PR∆C=1/2
REDUCIR:
PR∆B=1/2
PR∆B=1/2
PR∆B=1/2
PR∆D=1/2
PR∆A=1/2
<A,1/2>
<A,B\tD>
<A,1/2\tB\tD>
PR∆C=1/2
PR∆C=1
<PRA,1/2>
<PRB,3/2>
<RPC, 3/2>
<PRD,1/2>
A 1/2 B D
B 3/2 C
C 3/2 AB
D 1/2 B C
Los resultados de salida incluyen: relación de puntería y valor PR
A 1/2 B D
<B,1/4>
<P,1/4>
<A, 1/2 B D>
ideas para resolver problemas
**Las primitivas MR no se destruyen
El cálculo de PR es un proceso iterativo, primero considere un cálculo
pensar:
la página contiene hipervínculos
En cada iteración, el valor obtenido al dividir el valor de pr por el número de enlaces se pasa a la página enlazada
entonces: cada iteración debe incluir la relación del enlace de la página y el valor pr de la página
mr: La misma clave es un grupo de características
mapa:
1. Comprenda los datos: agregue el valor pr inicial por primera vez
2. Mapeo k:v
1. Pase la relación de enlace de página, la clave es la página y el valor es la relación de enlace de página
2. Calcule el valor pr del enlace, la clave es la página vinculada y el valor es el valor pr
reducir:
*, agrupar por página
1. Dos tipos de valor se procesan por separado
2. Finalmente fusionado en una pieza de salida de datos: la clave es la página y el nuevo valor de pr, el valor es la relación del enlace