Algoritmo PageRank (callejones sin salida, problema de trampas de araña)

Rango de página

  • 1 Conceptos básicos
  • 2 Explicación básica del algoritmo
  • 3 preguntas sin salida
  • 4 preguntas sobre trampas para arañas
  • 5 ventajas y desventajas del algoritmo
  • 6 ¿Usar β puede resolver el problema de los callejones sin salida?

 

 

1. Conceptos básicos

1.1 Introducción a los antecedentes

1.1.1 propuesto por google

1.1.2 Si el valor de PageRank es alto, aparecerá en la parte superior al buscar contenido

1.1.3 PageRank se llama PR. Clasifica las páginas web y calcula la importancia del sitio web. El valor PR representa su factor de importancia.

2.1 Idea central del algoritmo

2.1.1 Suposición de cantidad: en el diagrama del modelo de página web, cuantos más enlaces entrantes recibe una página web de otras páginas web, más importante es la página web y el valor de PR está representado por el tamaño en el diagrama.

2.1.2 Supuesto de calidad: cuando una página web de alta calidad apunta a otra página web, la página web señalada también es importante

2.1.3 Enlaces internos y externos, literalmente

 

2. Explicación básica del algoritmo

2.1 Fórmula de PageRank

              Cuando i=0, el valor de PR inicial es 1n , donde n es el número total de páginas web, es decir, cada página web es igualmente importante.

   Ejemplo de cálculo del valor PR:

      Entre ellos, ABCD son páginas web que se apuntan entre sí. El valor PR inicial es 1/4. Utilice la fórmula de PageRank para actualizar el valor de PR. (Debido a que el valor PR solo se actualiza una vez y es inestable, debe actualizarse varias veces)

 

Calcular PR(A)

Calcular PR(B)

Por analogía, el valor de PR de todas las páginas web se obtiene en la primera iteración y se ordenan según el valor de PR, los resultados son los siguientes.

Convierta el valor de PR en matriz (fácil de calcular y actualizar el valor de PR)

Entre ellos, M es la expresión matricial del valor PR actual y V es el valor PR obtenido la última vez.


Después de una iteración continua según PR = M*V, el vector de columna generado después de varias iteraciones es el valor PR final de la página web.

Resultado de la segunda iteración:

Como se puede ver en la figura siguiente, PR = M*V, y se puede obtener el siguiente valor de PR

 

3. Problema de callejones sin salida

Si A apunta a B y B no apunta a ninguna página web, el valor PR de B será 0

Se puede encontrar que en el proceso iterativo, el PR se convertirá gradualmente en 0. Este problema se llama problema de callejones sin salida.

Use la verificación PR = M*V, obtenga el mismo resultado, en la segunda iteración, el valor PR se convierte en 0

 

3.1 Usa Teleport para resolver el problema de los callejones sin salida

   Debido a que hay una columna en la matriz M que es todo 0 durante el proceso iterativo, cuando M*V, ocurre un problema de callejones sin salida. Teleport establece una (dimensión 1xN). Si la i-ésima columna en M es 0, ai=[1, 1,...,1], en otros estados, a es todo 0.

 

3.2 Uso de Teletransporte para resolver el ejemplo del problema Calles sin salida

   A través de Teleport, agregue 1n a las columnas en la matriz M que son todas 0 , para resolver el problema de que los nodos en la red solo contienen enlaces entrantes pero no enlaces salientes.

 

 

4. El problema de las trampas para arañas

Ejemplos de trampas para arañas:
  

Cuando la red existe y solo se autoapunta a sí misma, durante el proceso de actualización del valor de PR, el valor de PR del nodo autoapuntado volverá gradualmente a 1, y los otros nodos volverán a 0. Estas son las trampas de araña problema.

4.1, método de resolución de problemas de trampas de araña, teletransporte aleatorio

Paso 1: Matriz de probabilidad de transición de columna: es decir, la probabilidad de que B salga de la cadena y apunte a otros nodos. Sea la matriz de probabilidad de transición de columna la matriz M. ejemplo

   Paso 2:

   Para hacer el problema de que solo hay una fila de 1 en cierta columna en la matriz M, se agrega a la probabilidad promedio de otros nodos con la probabilidad de 1-β. ejemplo:

Creo que es para solucionar el problema de que solo hay un 1 en una columna en M sin afectar en lo posible el ratio de valor de PR de otros nodos.

Mediante la matriz M revisada, mediante PR = M*V, se resuelve que el valor de PR está sesgado hacia el nodo con anillo.

4.2 Resumen de la fórmula de corrección del problema de las trampas para arañas

Fórmula de solución final: resolverá los callejones sin salida y las trampas de araña juntos

Al resolver problemas de Callejones sin salida y Trampas de arañas, se corrige la matriz M.

 

 

5 ventajas y desventajas del algoritmo PageRank

6 ¿Usar β puede resolver el problema de los callejones sin salida?

Por lo tanto, solo β no puede resolver el problema de los callejones sin salida.

Supongo que te gusta

Origin blog.csdn.net/qq_41427834/article/details/110262036
Recomendado
Clasificación