Minería de datos: modelo de selección - árbol de modelo

Árbol de decisiones

Árboles de decisión: método de aprendizaje supervisado es un no paramétrico, se puede resumir datos de una serie de características y etiquetas de reglas de decisión, y con la estructura del diagrama de árbol para presentar estas reglas para hacer frente a los problemas de clasificación y regresión.
Para dar un ejemplo muy intuitiva, después de una tabla de datos, en el que la información para determinar si jugar.
Aquí Insertar imagen Descripción
De acuerdo con la información anterior, la nueva información para determinar lo que es de la situación, y luego sacar conclusiones. Sino simplemente desde el punto de vista de esta tabla, la sensación será particularmente engorroso. Así que la gente piensa de la utilización de árboles de decisión para manejar esta situación, si-entonces estructura, es relativamente fácil de entender intuitivamente.
Aquí Insertar imagen Descripción
Aquí están algunos conceptos de nodo de árbol de decisión.
Aquí Insertar imagen Descripción
Decisión de aprendizaje árbol típicamente comprende tres etapas: selección de características, y la generación de un árbol de decisión del árbol de la poda. ¿Qué función de selección y poda de árbol de decisiones es el tema central.

Selección de características

impureza

los nodos del árbol de decisiones necesitan descubrir los mejores métodos y las mejores ramas, y para medir los "mejores" indicadores llamados "impureza". La pureza no se calcula sobre la base de nodo hoja.
Aquí Insertar imagen Descripción
Debido a que el nodo de hoja de árbol de decisión categórica sobre la regla de decisión es regla de la mayoría , si un nodo hoja, una categoría que representa el 90%, entonces preferimos esa categoría, fue condenado a la muestra la probabilidad de error es muy baja, y si una categoría representó el 51%, representando el 49% de las otras categorías, las muestras fue condenado a criticar probabilidad es alta. Por lo tanto, no baje la pureza, el mejor es el ajuste del conjunto de entrenamiento de los árboles de decisión . ¿Cómo no para medir la pureza de la misma? Aquí para introducir el concepto de entropía.

índice de entropía y de Gini

entropía métrica de una información, que indica el grado de caos de la información . Cuanta más información ordenada, más baja es la entropía de la información . Aquí está la entropía fórmula. t representa un nodo del árbol de decisiones, el establecimiento de P (i | t) representa la unión determinada
proporción de los puntos de la muestra pertenecen a la clase i t ocupado, cuanto mayor es esta relación, más puro es el nodo.
Aquí Insertar imagen Descripción
Otro indicador es el índice de Gini (Gini), se utiliza principalmente para determinar la pureza del árbol de decisión CART, cuanto mayor sea el índice de Gini, mayor es la incertidumbre en el conjunto de muestras . La fórmula es:
Aquí Insertar imagen Descripción
con el siguiente ejemplo para ilustrar este se calcula sin pureza:
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
último árbol optimizado de tal manera que el objetivo general es la pureza más bajo no es un nodo de hoja, es decir, que no corresponde a la medida de pureza mínimo .
El uso de diferentes métodos para medir la impureza producirá diferentes árboles de decisión. Hay árboles ID3, C4.5, clasificación CART y de regresión.

ID3

La información entropía ID3 para medir la impureza, el objetivo es reducir al mínimo todos los nodos de la hoja de la entropía total. Así, ID3 seleccionado la segmentación punto, se elige el nodo hijo información de la característica entropía más pequeño del nodo está formada segmentación de segmentación. Que la entropía de información entre los nodos principales y secundarios debe ser lo suficientemente grande . ganancia de información es la diferencia entre los dos.
Aquí Insertar imagen Descripción
Por ejemplo:
para determinar si se producirá el comportamiento de compra del ordenador.
Aquí Insertar imagen Descripción
En ausencia de tratamiento, primero calcular la entropía total. s1 y s2 representa el número de muestras correspondientes al nivel de clasificación.
Aquí Insertar imagen Descripción
No hay tiempo de corte, la entropía total de 0.940 en el presente documento como el ejemplo puntos edad de corte:
Aquí Insertar imagen Descripción
información de segmentación entropía es 0.694.
Aquí Insertar imagen Descripción
información de ganancia calculado:
Aquí Insertar imagen Descripción
A continuación, otras características de la ganancia de información se calcula:
Aquí Insertar imagen Descripción
encontró que la edad de un primer punto de división, la ganancia de información es el máximo, por lo tanto, todos los puntos seleccionados como la primera característica de la edad. Otros puntos de cálculo de la división, también, finalmente consiguen un árbol de decisión.
Aquí Insertar imagen Descripción

Árbol de decisiones

modelo de árbol de decisión es un modelo típico codiciosos, el objetivo general es una solución óptima a nivel mundial (cada vez en busca de ganancia de información las mayores características de división), pero la solución óptima global con las características presentadas en las ampliaciones de espacio de búsqueda aumentado de forma exponencial eficiente difíciles de obtener.
Así que nos quedamos con, considere el uso de paso de optimización local por resultado la derivación paso - siempre y cuando la información de la máxima ganancia, vamos a ser capaces de obtener el modelo óptimo. Por supuesto, la optimización local no es necesariamente igual al óptimo global.
Limitaciones en el ID3 :
1. como ID, ID siguientes niveles de clasificación de muchos, por lo tanto, de acuerdo con esta división para obtener ganancia de información será grande, pero sin ID importancia práctica para nosotros, tal división es problemática.
2. Manejo de las variables continuas, con el significado de la identificación es la misma, los datos son muy fragmentados, obtener ganancia de información será grande, aunque esta característica tiene sentido, pero otras características no son justos.
3. La existencia de valores perdidos afectará el cálculo de la ganancia de información.
4. Un árbol de decisión es encontrar ganancia de información sólo si la profundidad de los nodos hoja en el árbol de categorías o alcanza el valor establecido, se detiene, esto hará que el efecto del conjunto de entrenamiento árbol de decisión es muy buena, pero el nuevo conjunto de datos con el tren no fijar el mismo efecto, lo que resulta en la prueba es relativamente pobre.
Aquí Insertar imagen Descripción

C4K5

C4.5 se añade como un nivel variable categórica de término de penalización en el cálculo de la entropía total del método de cálculo ganancia de información nodo hijo .
La fórmula de cálculo p entropía (i | t) es decir, el número total de muestras en un categorías de muestra, en un P (v) es decir, el número total de muestras en una proporción de nodos secundarios del nodo padre del número total de muestras.
Tal índice de una rama, de modo que cuando cortamos puntos automáticamente para evitar demasiados esos niveles de clasificación, la entropía disminuye la excesiva influencia de las características del modelo, reduciendo caso exceso de ajuste.
IV se calcula como sigue:
Aquí Insertar imagen Descripción
el más clasificado, menor es el valor de P (V) es, mayor es el valor IV.
Aquí Insertar imagen Descripción
En C4.5, la ganancia de información antes de su uso como una indicación del grado de ramificación dividida por campo segmentación de selección, es decir, la relación de ganancia de información. La naturaleza es la mayor ganancia de información, y una rama pequeña de la columna (es decir, la pureza de actualización pronto, pero esas características no están confiando en la categoría especial para mejorar la multa) . Cuanto mayor sea el IV, que es, más el nivel de clasificación de una columna, mayor es la proporción castigo relación de ganancia logra. Por supuesto, todavía esperamos GR más grande es mejor.
Aquí Insertar imagen Descripción
Por ejemplo:
aquí se calcula con la información de relación de ganancia.
Aquí Insertar imagen Descripción
Para cada edad, dividido en tres ramas 5,4,5 muestras. El cálculo de P (V) 5 / 14,4 / 14/5/14
en el valor de fórmula IV. A continuación, la ganancia de información previamente calculada dividiendo el valor de IV, obtener la relación de ganancia de información. Seleccione el valor máximo dividido GR.
Aquí Insertar imagen Descripción
El procesamiento de los datos continuos en C4.5 :
Aquí Insertar imagen Descripción
C4.5 al procesar datos continua está ordenada primero primero, entonces los dos números medios número seleccionado de puntos vecinos como la segmentación (si los N valores de edad), pero no dicha imagen en la que el mismo ID, para generar la categoría N-1, sino más bien convierte en el esquema binario N-1, es decir, una pluralidad de N-1 variables discretas, y luego calcula información de relación de ganancia, la división característica.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Por lo tanto, el proceso pasa al conjunto de modelo de datos de árbol comprende una variable continua en la construcción, para consumir más recursos de computación. Ya que el árbol se divide de acuerdo con la pureza mínima no es la forma, para tener una mayor influencia en nombre de la clasificación por puntos para el resultado final, que también proporciona consejos que se van a agrupar las variables continuas.
Como se muestra anteriormente, de acuerdo a la división de 36,5, el resultado del campo de destino del género todavía mejores resultados de clasificación.

CARRO

algoritmo CART para cada uno de una característica divide por dos, por lo tanto árbol de decisión de compra está un modelo de estructura de árbol binario.

Cuando la selección CART, característica de regresión utilizando el error cuadrado medio, cuando el problema de la clasificación, utilizando el índice de Gini .

procesos algoritmo de árbol de clasificación CART

valores discretos de salida. C4.5 proceso de flujo casi, pero la selección de características voluntad de indicadores en el índice de Gini. Predecir el resultado es el método de voto de la mayoría .
Aquí Insertar imagen Descripción
árbol de clasificación CART procesamiento de datos continuos , al modo de un proceso C4.5 es el mismo. Primero ordenar los datos, entonces el valor del valor intermedio de la función adyacente. puntos de división se calculó el índice de Gini, seleccionar el más pequeño como puntos de corte.
Aquí Insertar imagen Descripción
árbol de clasificación Carro procesamiento de datos discretos cuando la categoría de los dos puntos de característica continuas, para obtener diferentes combinaciones, Gini calcula, para encontrar la división mínima índice de Gini a la característica.
Aquí Insertar imagen Descripción

Carro flujo algoritmo de árbol de regresión

valor de producción continua.
Aquí Insertar imagen Descripción
Los datos continuos de procesamiento de árboles de regresión CART , no se emplea el índice de Gini, pero por reducir al mínimo el error cuadrático medio criterio y el método se caracteriza como la selección del punto de división.
Tales como la edad, de acuerdo con la división de un nodo, el nodo obtiene el valor predicho c1 media izquierda, y c2 y luego obtiene el valor predicho media derecha del nodo.
Después de obtener los nodos izquierdo y derecho respectivamente yi cm y el error cuadrático medio, entonces el error cuadrado medio del resultado dos resumió, un objetivo es encontrar un nodo, tal división nodo determinado y el error cuadrático medio mínimo.
Después de que el nodo obtenido, correspondiente a los datos en dos, el nodo izquierdo es el c1 valor predicho, el nodo izquierdo es el C2 valor predicho. Esto es cierto sobre el valor medio en el nodo.
El resultado se prevé el uso de las hojas finales media o la mediana .
Aquí Insertar imagen Descripción
Por ejemplo :
en primer lugar para encontrar el punto de división, y calcula el error cuadrático medio ym (s). Encontrado que cuando x = (el punto de división a 6,5), el valor mínimo m (S) de 6,5. Es decir, este punto de división es de aproximadamente, menos de 6,5, la predicción es 6,24 (valor medio de la izquierda), el lado derecho de la misma razón.
Se calcula la subdivisión abajo residual.
Aquí Insertar imagen Descripción
Después de la primera suma residual calculado de errores cuadrados dividida.
Pasos anteriores, pero esta vez los datos es residual. Encontrar el punto de división 3.5, por lo que la adición de la segmentación por encima de un punto 3.5 segmentación.
Por lo tanto constantemente dividiendo, hasta una división particular, la suma residual de cuadrados de datos para cumplir con los requisitos, es decir, para detener la división.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Una pregunta : ¿Por qué aquí se describe bajo el árbol no les gusta el modelo lineal como los requisitos de calidad de datos son altas, tales como la normalización, los valores que faltan, los valores atípicos.
En primer lugar, el árbol de decisión es una división de espacio. Si x es 1,10,100,1000 ...... esto, la diferencia es relativamente grande, pero solo punto de división, el cálculo real no se utiliza, el valor utilizado es el detrás de la etiqueta. Por lo tanto, el árbol de decisión y sin pre-procesamiento de datos excesiva.
Segundo problema : aquí de nuevo esos datos en el árbol de decisión. Hay datos discretos o continuos descripción de arriba, pero si los datos en tanto discreta, cuando no son continuas, la forma de tratar? Es un árbol de decisión puede identificar discretos valores o valores continuos de cosas?
Una vez más, independientemente de los datos en, que acaba de punto de división discreta o continua, sólo una pequeña partición de datos discretos, los datos de la partición de puntos consecutivos .
Tercera pregunta : Árbol de CART en comparación con el C4.5 multi-árbol, árbol binario en el que las ventajas?
Por ejemplo, para muestras de datos consecutivo N, ya que el C4.5 multi-árbol genera la N-1 características discretas, la cantidad de cálculo se incrementa. El carro va a generar dos funciones discretas que se dirigen y otras características. A continuación, los siguientes cálculos, entonces esta otra clasificación. Este es el principio básico de CART, reduce sustancialmente la cantidad de cálculo.

Aquí Insertar imagen Descripción

poda de árboles

Debido a las características del algoritmo de árbol de decisión ( nodo total de las hojas no es la pureza más bajo ), por lo tanto, el árbol de decisión es fácil de exceso de ajuste. La poda puede ser controlado usando el método tenía problemas al ajustar.
Árbol de la poda y poda dividida después de la primera poda.

En primer lugar la poda

Configurar antes de podar valor umbral de cada parámetro, se alcanza este valor, deja de árbol que crece.

1. El control de la profundidad del árbol.
2. El número de muestras en el nodo
3. Calcular la información de relación de ganancia, el tamaño del índice Gini, menor que un cierto valor es a la producción parada.
Aquí Insertar imagen Descripción

después de la poda

Sr. en un árbol de decisión, el árbol de decisión es entonces generar todas las posibles después de la poda, la posibilidad de seleccionar el mejor árbol generalización mediante la validación cruzada. método de poda de árboles CART se divide en dos etapas:
Aquí Insertar imagen Descripción

Comparación de tres Árbol modelo

Aquí Insertar imagen Descripción

Pros y los contras del árbol de decisión

1. El árbol de decisión puede ser intuitivo para mostrar a la gente de dibujo.
7. El árbol de decisiones procesamiento bin similar.
Aquí Insertar imagen Descripción
1. La idea de árbol de decisión, por lo que el total no es una pureza mínima, el algoritmo de árbol de decisión es fácil de exceso de ajuste. Por lo tanto, el ajuste de los parámetros árbol de decisión es hacia una menor ajuste.
5. Debido a la naturaleza del árbol de decisión, en el que la muestra tiende a orientar una gran proporción (tal como el resultado final del árbol de clasificación, se seleccionará como la categoría de salida más), los datos de desequilibrio para el efecto no es muy buena.
Aquí Insertar imagen Descripción

referencias

https://blog.csdn.net/weixin_46032351/article/details/104543864?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
https://weizhixiaoyi.com/archives/141.html
https://www.bilibili.com/video/BV1vJ41187hk?from=search&seid=13147394097118063633

Publicado 26 artículos originales · ganado elogios 29 · Vistas a 10000 +

Supongo que te gusta

Origin blog.csdn.net/AvenueCyy/article/details/105107305
Recomendado
Clasificación