04 Asistente de modelado

Modelo de regresión lineal

https://zhuanlan.zhihu.com/p/49480391

La regresión lineal es una técnica de regresión ampliamente utilizada, y también es el modelo más simple en el aprendizaje automático. Tiene muchas formas de promoción. En esencia, es una combinación lineal de una serie de características. Visto como una línea recta, puede considerarse como un plano en un espacio tridimensional.

La forma más común de regresión lineal es

Donde x vector representa una muestra {x1, x2, x3 .... xn}, donde x1, x2, x3 representan las diversas características de la muestra, w es un vector que representa el peso de cada característica, y b es una representación escalar El valor predicho cuando las características son todas 0 puede considerarse como la base o el sesgo del modelo. Se ve muy simple.

Aquí, w multiplicado por x en álgebra lineal en realidad representa el producto interno de dos vectores. Suponiendo que w y x son ambos vectores de columna, representa el producto interno w'x de los vectores w y x. De manera similar, x aquí también puede ser una matriz X, w y X también pueden escribirse como w'X, pero b también debe escribirse en forma de un vector.

Modelo de árbol de decisión

https://zhuanlan.zhihu.com/p/65304798

Modelo GBDT

https://zhuanlan.zhihu.com/p/45145899

El modelo GBDT es un modelo integrado, que es una adición lineal de muchos árboles CART.

El modelo GBDT se puede expresar de la siguiente forma: Estamos de acuerdo en que ft (x) representa el modelo de t-ésima ronda, y ht (x) representa el árbol de decisión de t-ésima. La definición del modelo es la siguiente:

El árbol de elevación adopta el algoritmo de avance. El modelo en el paso t está formado por el modelo en el paso t-1, que puede escribirse como:

La función de pérdida se define naturalmente como esta:

Aunque la idea general es bastante clara, cómo determinar qué tipo de árbol agregar en el paso t es realmente un gran problema. En respuesta a este problema, Freidman propuso usar el gradiente negativo de la función de pérdida para ajustar el valor aproximado de la pérdida actual, y luego ajustar un árbol de regresión CART . Es decir, el gradiente negativo del modelo debe ajustarse cada vez. El gradiente negativo de la función de pérdida de la i-ésima muestra en la ronda t se expresa como:

Para cada muestra en el nodo hoja, encontramos el valor de salida ctj que minimiza la función de pérdida, es decir, el nodo hoja que mejor se ajusta es el siguiente (tenga en cuenta que yi aquí es el valor verdadero, no el residual):

En este momento, se obtiene la función de ajuste del árbol de decisión de esta ronda:

Entonces esta ronda de aprendices fuertes obtendrá:

Luego itere hasta que la función de pérdida converja

Modelo XGBoost

https://zhuanlan.zhihu.com/p/86816771

Antes de empujar el GBDT, comenzará directamente desde el capítulo 2.2 original.

La función objetivo, el último elemento es el elemento de regularización añadido. Tenga en cuenta que esta es una fórmula recursiva, y el término de regularización es solo para el árbol T. Específicamente, es la segunda norma de los vectores de peso de todos los nodos de las hojas de este árbol.

Luego hicimos la expansión Taylor anterior de la función objetivo. De hecho, se supone que el residuo es cercano a cero, por lo que es lo mismo que la expansión McLaughlin en el libro de texto de números altos . Tenga en cuenta que la pérdida anterior L (y, y ^ t-1) es una constante, por lo que puede ignorarla

McLaughlinExpandir

En el último paso, clasifique la muestra i en el nodo hoja j donde se encuentra y reescriba la forma de la función objetivo como se muestra arriba. Donde I j se refiere al conjunto de muestras clasificadas en el nodo hoja j. Donde Wj se refiere al peso del nodo hoja j

Luego deduzca 0 para w y encuentre la solución analítica de w

Sustituya w en la función objetivo para obtener

Tenga en cuenta que, como se mencionó anteriormente, esta es una fórmula recursiva. Dado que yt-yt-1 es una constante, puede ignorarse independientemente de él. El resto se trata de yt, que es el árbol t-th. Después de optimizar el árbol t-th de acuerdo con esta fórmula, es necesario continuar optimizando el árbol t + 1-th.

Sigue el algoritmo detrás de la optimización específica del árbol, y sabremos que encontrar la estructura de un árbol que pueda minimizar la fórmula anterior es definitivamente un problema de NP. ¿Cuál es la estrategia de optimización GBDT? Avaricioso, encuentre el resultado de división óptimo de cada paso, es decir, realice un bucle doble a través de todas las funciones y todos los puntos de división, y elija el mejor cada vez. Este algoritmo es realmente bueno, pero es un poco costoso atravesar cada punto de división posible cada vez. Pero Chen Tianqi adoptó un algoritmo de segmentación aproximado: este algoritmo seleccionó primero algunos posibles puntos de división a través del algoritmo de cuantiles ponderado, y luego atravesó estos pocos puntos de división para encontrar el mejor punto de división.

El método específico para generar posibles puntos de división es el cuantil ponderado, que se pondera con la segunda derivada:

A primera vista, estaba cegado y ponderado con una derivada de segundo orden, aunque la explicación fue dada, todavía me pareció escandalosa. Al preguntarle al maestro, el maestro también quedó estupefacto, y luego leyó un artículo para dar una buena explicación.

Ver esta fórmula es equivalente a la función de pérdida, hi es la segunda derivada de una muestra en el frente y gi / hi es una constante en la parte posterior, por lo que hi puede considerarse como la importancia de una muestra al calcular el residuo.

Debido a que cada uno de nuestros nodos, es la pérdida la que se divide de manera uniforme, no el número de muestras, y la contribución de cada muestra a la pérdida puede ser diferente. La división uniforme de las muestras dará como resultado una distribución desigual de la pérdida, y los cuantiles obtenidos serán Hay una desviación. Agregue pesos, no permita que algunos nodos tengan muestras importantes que son grandes y grandes, similar a la siguiente figura:

En este caso, el subárbol de la derecha solo necesita una muestra con un peso particularmente grande. El subárbol de la izquierda tiene un peso demasiado bajo y proporciona más muestras. De esta manera, la pérdida es uniforme en la estructura del árbol.

Modelo LightGBM

https://zhuanlan.zhihu.com/p/89360721

La razón por la cual LGB es más preciso que XGB puede ser seleccionar muestras con grandes gradientes (grandes residuos) para la división de características para generar árboles, tomando prestada la idea de Adaboost de cambiar los pesos de las muestras. Cada árbol tiene una mejor capacidad para dividir ciertas muestras de entrenamiento, lo que da como resultado una mayor heterogeneidad entre cada árbol.

Nota:

El precio de los datos (precio) presenta una distribución de cola larga, que no conduce a nuestra predicción de modelado. La razón es que muchos modelos suponen que los términos de error de datos se ajustan a una distribución normal, y los datos de cola larga violan esta suposición. Blog de referencia: https://blog.csdn.net/Noob_daniel/article/details/76087829

Sobre los conceptos de sobreajuste, complejidad del modelo, regularización, etc.

¿Describe "sobreajuste" en un lenguaje fácil de entender? https://www.zhihu.com/question/32246256/answer/55320482
Complejidad del modelo y capacidad de generalización del modelo http://yangyingming.com/article/434/
Comprensión intuitiva de la regularización https://blog.csdn.net/jinping_shi/article/details/52433975

En los métodos de filtrado y selección de características ajustadas, el proceso de selección de características es significativamente diferente del proceso de capacitación del alumno. La selección de funciones incorporadas selecciona automáticamente las funciones durante la capacitación del alumno. Las opciones integradas más utilizadas son la regularización L1 y la regularización L2. Después de agregar dos métodos de regularización al modelo de regresión lineal, se convirtieron en regresión de cresta y regresión de lazo respectivamente.

Modelo de ajuste

Los tres métodos de ajuste de parámetros utilizados comúnmente son los siguientes:

    Algoritmo codicioso https://www.jianshu.com/p/ab89df9759c8
    parámetro de ajuste de cuadrícula https://blog.csdn.net/weixin_43172660/article/details/83032029
    Parámetro de ajuste de Bayes https://blog.csdn.net/ linxid / article / details / 81189154

Libros de texto recomendados:
• "Métodos de aprendizaje estadístico" https://book.douban.com/subject/10590856/
• "Python vs. Machine Learning" https://book.douban.com/subject/26987890/
• "Orientado a la máquina Ingeniería de características https://book.douban.com/subject/26826639/

wjsjjss

21 artículos originales publicados · Me gusta 1 · Visitantes 1824

carta privada preocupaciones