Algoritmo: PageRank

concepto

PageRank es un algoritmo propuesto por Google para medir la importancia de una página web en particular en relación con otras páginas web en el índice del motor de búsqueda. PageRank, creado por los fundadores de Google, Larry Page y Sergey Brin, en 1997, implementó el concepto de valor de enlace como factor de clasificación.

GOOGLE PageRank no es el único algoritmo de clasificación relacionado con enlaces, sino uno de los más utilizados. Otros algoritmos son:

  1. Algoritmo de la cima de la colina
  2. ExpertRank
  3. GOLPES
  4. TrustRank

Considere el papel de los hipervínculos en Internet

Entra en la cadena ==== vota

PageRank permite enlaces para "votar", y un hipervínculo a una página equivale a votar por esa página.

Número de cadenas entrantes

Si un nodo de página recibe más enlaces entrantes apuntados por otras páginas web, entonces la página es más importante.

Calidad entrante

La calidad de los enlaces entrantes que apuntan a la página A es diferente, y las páginas de alta calidad pasarán más peso a otras páginas a través de enlaces. Por lo tanto, cuantas más páginas de alta calidad apunten a la página A, más importante será la página A.

Valor de relaciones públicas de pagerank de estudio de caso

Desde la perspectiva de A :

Necesitas distribuir tu valor PR a B y D

Desde el punto de vista de B :

Recibió valores PR de A, C, D

 

El cálculo iterativo hace que el valor PR converja a un valor estable

 

Implementación de algoritmos

valor inicial

             Cada página en Google establece el mismo valor PR

             El algoritmo pagerank le da a cada página un valor PR inicial de 1.

Cálculo iterativo (convergencia)

    Google recalcula constantemente el PageRank de cada página. Luego, después de repetidos cálculos, el valor de PR de estas páginas tenderá a ser estable, es decir, el estado de convergencia.

¿Cómo determinar los criterios de convergencia en aplicaciones empresariales específicas?

  1. El valor PR de cada página es igual al último PR calculado
  2. Establecer un indicador de diferencia (0.0001). Cuando la diferencia de PR promedio entre todas las páginas y el último cálculo es menor que el estándar, converge.

PRa - PRa' = |Δ|

  1. Establezca un porcentaje (99 %), cuando el 99 % de las páginas sean iguales al último PR calculado

Corrección de algoritmo

Desde la perspectiva de Internet:

        Solo fuera, no dentro: PR será 0

        Solo dentro, no fuera: las relaciones públicas serán muy altas

        acceso directo a la página web

Corregir la fórmula de cálculo de PageRank

Aumentar el factor de amortiguamiento

Sobre la base de la fórmula simple, se agrega el factor de amortiguamiento (factor de amortiguamiento) d, y el valor general es d = 0.85.
Fórmula completa de cálculo de PageRank

        d: coeficiente de amortiguamiento

        M(i): el conjunto de páginas que apuntan a i

        L(j): el número de enlaces salientes de la página

        PR(pj): valor PR de la página j

        n: número de todas las páginas

datos

A B D

ANTES DE CRISTO

TAXI

D B C

Calcular el valor PR de ABCD

segundo 1/2

D 1/2

A B D

Agrupación: la suma de los valores de PR de todas las páginas que apuntan a la i-ésima página.

Todas las páginas que apuntan a la i-ésima página se agrupan en un grupo y el cálculo iterativo se reduce.

El valor inicial de PR es 1

valor L

<compensación, A B D>

A->B

A->D

PR∆B=1/2

PR∆D=1/2

A B D

ANTES DE CRISTO

PR∆C=1

TAXI

PR∆B=1/2

PR∆A=1/2

D B C

PR∆B=1/2

PR∆C=1/2

REDUCIR:

PR∆B=1/2

PR∆B=1/2

PR∆B=1/2

PR∆D=1/2

PR∆A=1/2

<A,1/2>

<A,B\tD>

<A,1/2\tB\tD>

PR∆C=1/2

PR∆C=1

<PRA,1/2>

<PRB,3/2>

<RPC, 3/2>

<PRD,1/2>

A 1/2 B D

B 3/2 C

C 3/2 AB

D 1/2 B C

Los resultados de salida incluyen: relación de puntería y valor PR

A 1/2 B D

<B,1/4>

<P,1/4>

<A, 1/2 B D>

ideas para resolver problemas

**Las primitivas MR no se destruyen

El cálculo de PR es un proceso iterativo, primero considere un cálculo

pensar:

la página contiene hipervínculos

En cada iteración, el valor obtenido al dividir el valor de pr por el número de enlaces se pasa a la página enlazada

entonces: cada iteración debe incluir la relación del enlace de la página y el valor pr de la página

mr: La misma clave es un grupo de características

mapa:

1. Comprenda los datos: agregue el valor pr inicial por primera vez

2. Mapeo k:v

1. Pase la relación de enlace de página, la clave es la página y el valor es la relación de enlace de página

2. Calcule el valor pr del enlace, la clave es la página vinculada y el valor es el valor pr

reducir:

*, agrupar por página

1. Dos tipos de valor se procesan por separado

2. Finalmente fusionado en una pieza de salida de datos: la clave es la página y el nuevo valor de pr, el valor es la relación del enlace

Supongo que te gusta

Origin blog.csdn.net/yaya_jn/article/details/131363111
Recomendado
Clasificación