Aprendizaje automático: la base para dividir árboles de decisión (entropía, ganancia de información, tasa de ganancia de información, valor de Gini e índice de Gini)

1. Entropía

En física, la entropía es una medida del "caos".

Cuanto más ordenado es el sistema, menor es el valor de entropía; cuanto más caótico o disperso es el sistema, mayor es el valor de entropía.

En 1948, los agricultores propusieron el concepto de entropía de la información (Entropía).

       Descripción desde la perspectiva de la integridad de la información: cuando el estado ordenado del sistema es consistente, cuanto más concentrados estén los datos, menor será el valor de entropía.

Cuanto más disperso esté el lugar, mayor será el valor de entropía. 

      Descripción desde la perspectiva del orden de la información: cuando la cantidad de datos es consistente, cuanto más ordenado es el sistema y menor es el valor de entropía, más caótico o fragmentado es el sistema.

Cuanto más dispersos, mayor será el valor de entropía.

La "entropía de la información" es el indicador más utilizado para medir la pureza de un conjunto de muestras. Supongamos que el conjunto de muestra actual D tiene

La proporción de k muestras de clase es pk (k = 1, 2,. . . , |y|), D es el número total de muestras y Ck es la k-ésima muestra de clase.

cantidad. Entonces la entropía de información de D se define como (log se basa en 2, lg se basa en 10):

Entre ellos: cuanto menor sea el valor de Ent(D), mayor será la pureza de D.

Ejemplo: Supongamos que no vimos el Mundial, pero queremos saber qué equipo será el campeón, solo podemos adivinar que cierto equipo es

O no el campeón, y luego el público responde con respuestas correctas o incorrectas. Queremos minimizar el número de conjeturas tanto como sea posible. ¿Qué método debemos utilizar?

Respuesta: Dicotomía.

Si hay 16 equipos, numerarlos respectivamente, primero preguntar si están entre 1-8, si es así, continuar preguntando si están entre 1-4, y así sucesivamente.

Empuja hasta que finalmente determines qué equipo es el campeón. Si el número de equipos es 16, debemos preguntar 4 veces para obtener la respuesta final.

Entonces la entropía de la información de las noticias sobre el campeón del mundo es 4.

Entonces, ¿cómo se calcula la entropía de la información igual a 4?

Ent(D) = -(p1 * logp1 + p2 * logp2 + ... + p16 * logp16), donde p1, ..., p16 son los 16 equipos respectivamente

La probabilidad de ganar el campeonato. Cuando la probabilidad de que cada equipo gane el campeonato es igual a 1/16, Ent(D) = - (16 * 1/16 * log1/16) = 4

Cuando la probabilidad de cada evento es la misma, la entropía es mayor y más incierto es el evento.

2. Ganancia de información

Ganancia de información: la diferencia de entropía antes y después de dividir el conjunto de datos por una determinada característica. La entropía puede representar la incertidumbre del conjunto de muestras: cuanto mayor es la entropía, más pequeña es la muestra.

Cuanto mayor es la incertidumbre. Por lo tanto, la diferencia en la entropía del conjunto antes y después de la división se puede utilizar para medir la división del conjunto de muestra D utilizando las características actuales.

El efecto es bueno o malo.

Ganancia de información = entrada (antes) - entrada (después)

La ganancia de información representa el grado en que se reduce la entropía de la información de la clase Y al conocer la información de la característica X.

Supongamos que el atributo discreto a tiene V valores posibles:

Si se usa a para dividir el conjunto de muestra D, se generarán V nodos de rama, entre los cuales el v-ésimo nodo de rama contiene todos los nodos en D

La muestra con valor av en el atributo a está marcada como D. Podemos calcular la entropía de información de D de acuerdo con la fórmula de entropía de información dada anteriormente, y luego

Teniendo en cuenta que diferentes nodos de rama contienen diferentes números de muestras, asigne pesos a los nodos de rama.

Es decir, cuanto mayor es el número de muestras, mayor es la influencia de los nodos de rama, por lo que se puede calcular la "información obtenida al dividir el conjunto de muestras D utilizando el atributo a".

Ganancia" (ganancia de información).

Entre ellos: la ganancia de información Ganancia(D,a) de la característica a para el conjunto de datos de entrenamiento D se define como la entropía de información Ent(D) del conjunto D y la característica dada a

La diferencia entre la entropía condicional de información Ent (D∣a) de D bajo la condición, es decir, la fórmula es:

Explicación detallada de la fórmula: Cálculo de la entropía de la información:

Cálculo de entropía condicional: 

Entre ellos: Dv representa el número de muestras contenidas en el v-ésimo nodo de rama en el atributo a

Ckv representa el número de muestras incluidas en la k-ésima categoría entre el número de muestras incluidas en el v-ésimo nodo de rama en el atributo a.

En términos generales, cuanto mayor sea la ganancia de información, mayor será la "mejora de la pureza" obtenida al utilizar el atributo a para dividir. por lo tanto, nosotros

La ganancia de información se puede utilizar para seleccionar los atributos de partición del árbol de decisión. El famoso algoritmo de aprendizaje del árbol de decisión ID3 [Quinlan, 1986] es

Los atributos de partición se seleccionan según el criterio de ganancia de información. Entre ellos, el ID en el nombre ID3 es Dichotomizador iterativo.

La abreviatura de dispositivo).

Por ejemplo: la primera columna es el número del foro, la segunda columna es el sexo, la tercera columna es el nivel de actividad y la última columna es si el usuario se ha perdido. necesitamos resolver

Decidir una pregunta: ¿Cuál de las dos características, género y actividad, tiene un mayor impacto en la pérdida de usuarios?

Este problema se puede resolver calculando la ganancia de información, estadísticamente basada en la información de la tabla de la derecha. Entre ellos, Positivo es una muestra positiva (perdida),

Negativo es una muestra negativa (no perdida) y los siguientes valores son el número correspondiente de personas en diferentes divisiones. Hay tres entropías disponibles: 

① Calcular la entropía de la información de la categoría (entropía general)

②Entropía de información de los atributos de género

③Obtención de información de género

④Entropía de información de la actividad 

⑤Ganancia de información de la actividad

La ganancia de información de la actividad es mayor que la ganancia de información del género. En otras palabras, la actividad tiene un mayor impacto en la rotación de usuarios que el género. haciendo especial

Al seleccionar o analizar datos, debe centrarse en el indicador de actividad. 

3. Tasa de ganancia de información

En la introducción anterior, ignoramos intencionalmente la columna "número". Si también se utiliza "número" como atributo de división candidato, la información se

Según la fórmula de ganancia de información, su ganancia de información se puede calcular en 0,9182, que es mucho mayor que otros atributos de partición candidatos. Calcular la entropía de información de cada atributo.

Durante el proceso se encontró que el valor de este atributo es 0, es decir, su ganancia de información es 0.9182. Pero es obvio que la clasificación da como resultado el resultado final.

Si no tiene un efecto de generalización, no puede predecir eficazmente nuevas muestras.

De hecho, el criterio de ganancia de información favorece atributos con un mayor número de valores posibles. Para reducir los posibles efectos adversos de esta preferencia,

El famoso algoritmo de árbol de decisión C4.5 no utiliza directamente la ganancia de información, sino que utiliza una "relación de ganancia" para seleccionar el atributo de partición óptimo.

sexo. Tasa de ganancia: La tasa de ganancia se calcula utilizando la información anterior ganancia Ganancia (D, a) y el "valor intrínseco" correspondiente al atributo a.

La relación se define conjuntamente.

Cuanto mayor sea el número de valores posibles del atributo a (es decir, mayor V), mayor será normalmente el valor de IV(a).

La métrica de información dividida se utiliza para considerar la información de cantidad y la información de tamaño divididas cuando se divide un determinado atributo, y esta información se denomina contenido del atributo.

Información instrisica. La relación de ganancia de información utiliza ganancia de información/información intrínseca, lo que hará que la importancia de los atributos aumente con la información intrínseca.

La información aumenta y disminuye (es decir, si el atributo en sí es muy incierto, entonces estaré menos inclinado a elegirlo),

Esto puede considerarse como una compensación por la pura ganancia de información.

En el ejemplo anterior, se calcula la métrica de información de división de atributos:

Calcule la tasa de ganancia de información:

La tasa de actividad de ganancia de información es mayor, por lo que al construir un árbol de decisión, se prefiere este método al seleccionar nodos.

En el proceso, podemos reducir la preferencia de selección de atributos con más valores. 

Ejemplo 2: La primera columna es el clima, la segunda columna es la temperatura, la tercera columna es la humedad, la cuarta columna es la velocidad y la última columna es si la actividad está progresando.

DE ACUERDO. Con base en los datos de la siguiente tabla, determine si la actividad se realizará en el clima correspondiente.

Este conjunto de datos tiene cuatro atributos, conjunto de atributos A={clima, temperatura, humedad, velocidad}, dos etiquetas de categoría y conjunto de categorías L={enter

Aceptar, cancelar}. 

① Calcule la entropía de la información de la categoría. La entropía de información de clase representa la suma de las incertidumbres que ocurren en varias clases en todas las muestras. Según el concepto de entropía.

Piénselo, cuanto mayor es la entropía, mayor es la incertidumbre y mayor es la cantidad de información necesaria para resolver las cosas.

② Calcule la entropía de información de cada atributo. La entropía de información de cada atributo es equivalente a un tipo de entropía condicional. Significa que bajo la condición de ciertos atributos,

La suma de las incertidumbres que surgen de varias categorías. Cuanto mayor sea la entropía de la información de un atributo, menos "puras" serán las categorías de muestra contenidas en este atributo. 

③Calcule la ganancia de información. Ganancia de información = entropía - entropía condicional, aquí está la entropía de información de categoría - entropía de información de atributos, que representa información

El grado en que se reduce la incertidumbre. Si la ganancia de información de un atributo es mayor, significa que puede ser mejor utilizar este atributo para la división de la muestra.

Reducir la incertidumbre de las muestras divididas. Por supuesto, seleccionar este atributo puede completar el objetivo de clasificación más rápido y mejor. La ganancia de información es

Índice de selección de características del algoritmo ID3. 

Supongamos que se agrega una columna "número" delante de los datos de la Tabla 1 anterior, con un valor de (1--14). Si "número" también se utiliza como atributo de clasificación de candidatos

propiedad, de acuerdo con los pasos anteriores: en el proceso de calcular la entropía de información de cada atributo, el valor del atributo es 0, es decir, su ganancia de información es

0,940. Pero es obvio que con esta clasificación el resultado final no tiene efecto de generalización. En este momento, es imposible elegir en función de la información obtenida.

Funciones de clasificación efectivas. Por lo tanto, C4.5 opta por utilizar la tasa de ganancia de información para mejorar ID3. 

④ Calcule la métrica de información dividida de atributos. Utilice la métrica de información dividida para considerar la información cuantitativa y la información de tamaño divididas cuando se divide un determinado atributo.

Información, esta información se llama información intrínseca de atributos (información intrínseca). La tasa de ganancia de información es ganancia de información/información intrínseca,

Esto hará que la importancia del atributo disminuya a medida que aumenta la información intrínseca (es decir, si el atributo en sí es muy incierto,

Entonces es menos probable que lo elija), lo que puede considerarse como una compensación por la pura ganancia de información.

⑤ Calcule la tasa de ganancia de información.

La tasa de ganancia de información del cielo es la más alta, por lo que se elige el cielo como atributo de división. Después de descubrir la división, bajo la condición de que el clima sea "Yin", la categoría es "Pura".

"Sí, así que defínelo como un nodo hoja y seleccione el nodo que no sea "puro" para continuar dividiéndolo. 

Flujo del algoritmo C4.5:

while(当前节点"不纯"):
    1.计算当前节点的类别熵(以类别取值计算)
    2.计算当前阶段的属性熵(按照属性取值吓得类别取值计算)
    3.计算信息增益
    4.计算各个属性的分裂信息度量
    5.计算各个属性的信息增益率
end while
当前阶段设置为叶⼦节点

Ventajas de C4.5:

① El uso de la tasa de ganancia de información para seleccionar atributos supera la desventaja de usar la ganancia de información para seleccionar atributos que tienden a seleccionar atributos con más valores.

②Se utiliza un método de pospoda para evitar el crecimiento incontrolado del árbol y evitar el sobreajuste de los datos.

③Manejo de valores faltantes En algunos casos, los datos disponibles pueden carecer de los valores de algunos atributos. Si 〈x, c(x)〉 es

Una instancia de entrenamiento en el conjunto de muestra S, pero se desconoce el valor A(x) de su atributo A. Una estrategia para tratar con un valor de atributo faltante es asignarle la estructura

El valor más común de este atributo en la instancia de entrenamiento correspondiente al punto n; otra estrategia más compleja es asignar un valor a cada valor posible de A.

Probabilidad, C4.5 utiliza este método para tratar con valores de atributos faltantes.

4. Valor de Gini e índice de Gini

El árbol de decisión CART [Breiman et al., 1984] utiliza el "índice de Gini" para seleccionar atributos de partición. CARRITO es

Abreviatura de árbol de clasificación y regresión, este es un algoritmo de aprendizaje de árbol de decisión bien conocido. Tanto las tareas de clasificación como las de regresión son

Valor de Gini disponible Gini (D): la probabilidad de que dos muestras se seleccionen aleatoriamente del conjunto de datos D y sus etiquetas de categoría sean inconsistentes. Valor de Gini (D)

Cuanto más pequeño sea, mayor será la pureza del conjunto de datos D. La pureza del conjunto de datos D se puede medir mediante el valor de Gini:

         D es el número total de muestras y Ck es el número de muestras de la k-ésima categoría. 

Gini_index (D): generalmente, el atributo con el coeficiente de Gini más pequeño después de la división se selecciona como subatributo optimizado.

1. Calcule el índice de Gini de los atributos numerados no seriales del conjunto de datos {si es propietario de una casa, estado civil, ingreso anual} respectivamente y obtenga el índice de Gini.

El atributo más pequeño se utiliza como atributo del nodo raíz del árbol de decisión. 

2. El valor de Gini del nodo raíz es:

3. Al dividir según si hay casa, el proceso de cálculo del índice de Gini es: 

4. Si se divide según el atributo de estado civil, el atributo estado civil tiene tres valores posibles {casado, soltero, divorciado}, respectivamente.

Calcule la ganancia del coeficiente de Gini después de la división. {casado} | {soltero,divorciado} {soltero} | {casado,divorciado} {divorciado} |

{soltero Casado} 

Comparando los resultados del cálculo, al dividir el nodo raíz según el atributo de estado civil, el grupo con el índice de Gini más pequeño se toma como resultado de la división, es decir:

{casado} | {soltero,divorciado} 。

5. De la misma manera, se puede obtener el Gini del ingreso anual: para los atributos del ingreso anual que son atributos numéricos, primero debe ordenar los datos en orden ascendente y luego

Las muestras se dividen en dos grupos utilizando el valor medio de los valores adyacentes como separador. Por ejemplo, ante los dos valores de renta anual de 60 y 70

Cuando , calculamos que el valor medio es 65. El índice de Gini se calcula utilizando el valor mediano de 65 como punto divisorio.

Según los cálculos sabemos que entre los tres atributos que dividen el nodo raíz, hay dos con índices más pequeños: el atributo ingreso anual y el estado civil, cuyos índices son ambos

es 0,3. En este momento, seleccione el atributo {casado} que aparece primero como primera división. 

6. A continuación, utilice el mismo método para calcular los atributos restantes respectivamente, en los que está el coeficiente de Gini del nodo raíz (si el préstamo está en mora en este momento)

Cada uno tiene 3 registros).

7. Respecto a si existe un atributo de casa, puedes obtener: 

8. Para los atributos de renta anual: 

Después del proceso anterior, el árbol de decisión construido es el que se muestra a continuación:

Flujo del algoritmo CART:

while(当前节点"不纯"):
    1.遍历每个变量的每⼀种分割⽅式,找到最好的分割点
    2.分割成两个节点N1和N2
end while
每个节点⾜够“纯”为⽌


 

 

 

 

 

 

Supongo que te gusta

Origin blog.csdn.net/weixin_43961909/article/details/132576668
Recomendado
Clasificación