Minería de datos: modelo de selección - Regresión Lineal

regresión lineal

Una regresión lineal

La regresión lineal de la primera de contacto está en la forma y = ax + b, que es para la regresión lineal es. Damos a los datos por el método de mínimos cuadrados, de manera que la suma de cuadrados residual de los bienes y los valores predichos, y (esto es, para optimizar la función de pérdida) mínimo. De mayo de Coeficiente de la primera derivada, se permite a 0, para obtener el un desconocido, b, para dar ecuación.
Aquí Insertar imagen Descripción

La regresión lineal múltiple

En circunstancias normales, los datos no es sólo una dimensión que nos encontramos, pero los datos multidimensional, a continuación, utilizar la regresión lineal múltiple. Multivariable lineal fórmula de regresión es:
Aquí Insertar imagen Descripción
Lo anterior es una fórmula correspondiente a los datos, si todos los datos en conjunto, la ecuación se convierte en:
Aquí Insertar imagen Descripción
Para una mayor simplicidad, la fórmula anterior se vuelve a escribir en un formato de matriz. En donde, X es nuestros datos, w es necesario para obtener un parámetro, y ^ es la variable predicha.
Aquí Insertar imagen Descripción
Al resolver una regresión, la definición de la suma residual de cuadrados entre los valores previstos y reales y a la pérdida de la función, por lo que la función mínima, para obtener los coeficientes requeridos. En la regresión múltiple de la misma manera para dar la siguiente ecuación.
Aquí Insertar imagen Descripción
Por lo tanto, nuestro objetivo es encontrar un conjunto de w, de modo que la función de pérdida mínima.
Aquí Insertar imagen Descripción
Hay dos maneras de resolver, uno de descenso de gradiente, el segundo es método de la ecuación normal.
método de descenso de gradiente: 1 :
la regresión lineal por derivación, que es el otro 0, la respuesta. Sin embargo, particularmente cuando la cantidad de datos, este método será muy lento, método de descenso de gradiente a continuación, se puede usar para obtener más rápido que los parámetros que minimizan la función de pérdida.
descenso de gradiente: el equivalente de nuestro bajar proceso, y cada vez que vamos un paso hacia abajo para encontrar el lugar más bajo, por lo que la forma más fiable es mirar alrededor de la parte más baja puede llegar al paso, se continúa el proceso, entonces la resultante es el punto más bajo.
Para la función se obtiene derivadas parciales de la función de todos los parámetros (variables), y cada actualización de estos parámetros hasta que alcanza el punto más bajo, nota que estos parámetros deben actualizarse en cada ronda juntos, en vez de uno por uno actualización .
Aquí Insertar imagen Descripción
Cálculo :
se define como función de pérdida:
Aquí Insertar imagen Descripción
Con el fin de hacer la función de pérdida mínimo, el valor del parámetro disminuye en la dirección del gradiente negativo.
dirección Gradiente: el resultado de evaluar la derivada parcial.
El grado de deterioro: la tasa de aprendizaje
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
último parámetro de variación de pendiente de descenso ecuación:
Aquí Insertar imagen Descripción
Parámetros a través de la iteración constante, encontrar el mínimo de un conjunto de parámetros para que la pérdida de la función.
Sobre el aprendizaje de tasa A :

  • Si un demasiado pequeño, entonces el tiempo de aprendizaje será muy largo, lo que resulta en el algoritmo ineficiente, como un método directo de los mínimos cuadrados.
  • Si una demasiado grande, ya que cada paso de la actualización es demasiado grande, es posible que no converge al punto más bajo. Debido a la mayor desviación del punto más bajo de la derivada de la función, si una demasiado grande, una actualización directamente a través del punto más bajo, llegó más alta que la anterior actualización del lugar. A continuación, el siguiente paso sería la actualización más grande, por lo que los choques repetidos, y más lejos del punto óptimo.

2: método de la ecuación normal de :
es la derivada parcial de parámetros, pero la aplicación de la derivación de la matriz de conocimiento.
Aquí Insertar imagen Descripción
En el que las reglas de guía matriz son las siguientes:
Aquí Insertar imagen Descripción
Por lo tanto, la simplificación de la fórmula para obtener:
Aquí Insertar imagen Descripción
Desde minimización, así que la primera derivada es 0, es decir, igual a 0. Los resultados anteriores
Aquí Insertar imagen Descripción
obtenidos de este modo parámetros de la solución. No necesariamente existir pero donde la solución de matriz inversa, es decir, puede haber colinealidad múltiple (el grado de correlación lineal entre la función de una gran cantidad), y por lo tanto añadido L1, L2 regularización ser controlado.
Constant, en aproximadamente el mismo número de iteraciones resultados de descenso de gradiente de estos dos métodos.

cresta de regresión

cresta de regresión está detrás de la función de pérdida de regularización L2 original añadido. En este momento, la fórmula de la función de pérdida:
Aquí Insertar imagen Descripción
En este caso, la derivada parcial del parámetro entonces w.
Aquí Insertar imagen Descripción
Otra primera derivada de 0.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Este multicolinealidad evitarse. (Matriz del molde no es 0)
Aquí Insertar imagen Descripción
se puede observar que cuanto mayor es el valor de a, se comprimirá los parámetros de la matriz diagonal originales .
Aquí Insertar imagen Descripción
En la diagonal de la matriz debido a la adición de una, no se produce es cero. A menos algunos lugares como un 0 o un elementos de la matriz diagonal -a. Sin embargo, debido a que un hombre es el control, es posible mediante el ajuste del valor de a, para evitar esta situación, para obtener la matriz inversa está siempre presente.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Cuando hay una matriz de correlación de altura, se puede transferir grandes una, para hacer que el determinante de una matriz se hace grande, de modo que la matriz inversa se reduce, controlando de este modo el vector de parámetro de desplazamiento. Cuando una más grande, el modelo no está influenciada fácilmente colinealidad.

  • Cuanto mayor sea el valor de a, parámetros estimados dará lugar a un cambio más grande, no puede caber la verdadera cara de los datos son correctos, la variación interpretación de los parámetros originales.
  • El valor de un fenómeno multicolinealidad más pequeño, original ocurre, las predicciones de impacto.

retorno Lasso

Lasso función de la pérdida de retorno juntos en la regularización posterior de L1 para evitar la colinealidad múltiple.
Aquí Insertar imagen Descripción
Solución de parámetro del proceso w w es todavía derivada parcial.
Aquí Insertar imagen Descripción
Otra primera derivada es 0,5
Aquí Insertar imagen Descripción
a la consolidación de fórmula simplificada.
Aquí Insertar imagen Descripción
Pero esta vez encontró a los parámetros de la solución deseada, se dio el caso de la matriz inversa no existe. Por lo tanto, Lasso no puede resolverse debido a circunstancias provocados entre las características altamente correlacionados matriz inversa no existe, y el problema de regresión cresta puede ser resuelto correlación precisa entre las características causados por el método de mínimos cuadrados no se puede utilizar .
Sin embargo, en la práctica, que, básicamente, no encontramos con el problema de multicolinealidad datos relevantes precisas para cada función hay algunas desviaciones y su volatilidad. Es decir, Y1 = Ay2, a es una constante, esto no suele suceder. Por lo tanto, se supone que debe existir la matriz inversa. Puede obtenerse:
Aquí Insertar imagen Descripción
mediante el aumento de una, podemos añadir un término negativo para el cálculo del parámetro w, lo que limita el tamaño de la estimación de parámetros w, se evita debido a parámetro multicolinealidad w es demasiado grandes problemas de desalineación modelo de estimación. Lasso no es un problema de multicolinealidad solución fundamental, sino para limitar el impacto de multicolinealidad traer .
L1, L2 será el tamaño del coeficiente de compresión w, la característica menos contribución valor de la etiqueta, que los coeficientes serán pequeñas, comprime más fácilmente. Sin embargo, L2 de regularización solamente sea lo más cerca posible al coeficiente de compresión 0, pero L1 regularización sparsity dominante, y por lo tanto será comprimido a 0 coeficiente . Por lo tanto, las características pueden ser seleccionadas por L1, una pequeña contribución contará con valores de etiqueta retiradas.

regresión polinómica

La regresión lineal se utiliza para ajustar una línea recta a los datos, los datos para no lineal, la regresión lineal no es muy bueno, en este momento, puede ser regresión polinómica no lineal a los datos de ajuste.
Aquí Insertar imagen Descripción
La regresión lineal, nuestros argumentos encajan ecuación es una tecla:
Aquí Insertar imagen Descripción
por la variación polinómica (línea modelo L-dimensional de la herramienta, mediante el aumento del número de variables independientes, y el mapeo de los datos a un espacio de alta dimensional ), de manera que modelo lineal no lineal que se ajusta a los datos. ecuación de regresión polinómica unidimensional es:
Aquí Insertar imagen Descripción
una ecuación de regresión polinómica multi-dimensional es:
Aquí Insertar imagen Descripción
Cuando transformación polinómica, polinomio producirá el número más alto de todos los términos de orden superior hasta bajo . Caracterizado por las características de la multiplicación de sí mismo con otras características o multiplicada para obtener una nueva variable en la ecuación, sino que también puede ser utilizado para hacer características de ingeniería, la estructura de combinación de multiplicación entre una serie de características.
Aquí Insertar imagen Descripción
modelo polinomial o lineal es un modelo no lineal, se añadió estrechamente definido lineales y lineales generalizados modelos. Es decir regresión polinómica modelo lineal generalizado, en lugar de un modelo lineal estrecho.
Aquí Insertar imagen Descripción
Otro punto a destacar es que los cambios polinomio de regresión lineal más tarde llamados regresión polinómica, polinomio no significa que el cambio sólo se puede utilizar con la regresión lineal. En realidad, los cambios polinómicas locos dimensiones de datos crezca, pero también aumenta la probabilidad de exceso de montaje , por lo tanto cambios polinómicas y más y ser capaz de manejar exceso de ajuste modelos lineales, tales como la regresión Ridge, Lasso, etc. utilizado conjuntamente, el efecto será mejor.

El procesamiento del conjunto de datos

Antes de utilizar el modelo, por lo general para hacer el manejo de datos. Para el modelo de regresión lineal, hay varios puntos que requieren atención.

el Undimensionalization

Dado que la función de pérdida utilizando un modelo de regresión lineal es un método de mínimos cuadrados, para medir la diferencia entre el valor predicho y el valor verdadero, es decir, la distancia entre dos puntos. Por lo tanto, si el número de salas de datos y casas área de vivienda en la que, para predecir precios de la vivienda, entonces el número de la habitación es relativamente área mucho más pequeña, para obtener el coeficiente final se sesgada. Además, utilizando un método de descenso de gradiente para la resolución, la velocidad afectará a la solución. Por lo tanto, para eliminar la diferencia entre el valor del tamaño de los datos, mientras que la distribución de los datos que deben conservarse, los métodos utilizados tienen la normalización y la estandarización.

Tratamiento de datos clasificada

Debido a la diferencia entre el valor predicho y la verdadera medida del valor, es decir, el tamaño del valor. Entre 123 y tamaño de los datos de clasificación hay ningún valor en absoluto, es subjetiva significado dado, pero el equipo no puede reconocer, ya que, al estar caliente datos codificados.
Hot codificado : Más algoritmo se realiza basándose en el espacio vectorial métrica calculada, con el fin de hacer que el valor no variable de relación de orden parcial que tiene ningún orden parcial, y son equidistantes desde el origen. Usando el valor codificado de una sola caliente de las características discretas se extiende a espacio euclidiano, en el que un valor discreto correspondiente a un punto en el espacio euclidiano.
El uso de discreto de una sola caliente característica de codificación, la distancia entre la característica calculada hace más razonable. Por ejemplo, hay una características discretos, el tipo de trabajo en nombre de las características discretas, hay tres valores.

  • codificación One-caliente no se utiliza, que están representados x_1 = (1), x_2 = (2), x_3 = (3). La distancia entre los dos trabajo, (x_1, x_2) = 1, d (x_2, x_3) = 1, d (x_1, x_3) = 2. Obviamente representación tal, las características distancia calculada no es razonable.
  • Si una codificación de una sola caliente, se obtiene x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1), entonces la distancia entre los dos trabajan en tanto sqrt (2): es decir, la distancia entre cada dos de trabajo es el mismo, parece ser más razonable.

Uno en caliente que codifica no hay nuevas características, pero la entidad original se manifiesta en la forma de un cambio. Utilice una hot-función de codificación puede resolver el problema de clasificación, pero producirá una gran cantidad de matriz dispersa, métodos de reducción de dimensión PCA, tales como la extracción de características pueden ser utilizados.

distribución de los datos de conversión

Múltiples supuestos de regresión lineal son las siguientes:
1, un término de error aleatorio es el valor esperado o media de variable aleatoria 0;
2, para todas las observaciones variables explicativas, errores aleatorios tienen la misma varianza;
3, el término de error no está relacionado con el uno al otro ;
4, las variables explicativas es una variable determinista no es una variable aleatoria, y errores aleatorios son independientes el uno del otro;
5, existe preciso (completa) una relación lineal entre las variables explicativas, es decir, observaciones de la muestra matriz variable explicativa es matriz completa rango;
6, la distribución normal error aleatorio.
La curtosis y la asimetría de los datos no se ajusta a la normalidad, el error hará que los resultados. Es necesario transformar la normalidad de los datos. Los datos fueron sesgada de los datos correctos logarítmicas, exponenciales de la parte izquierda. O el uso de la transformación de Box-Cox.

Valores de datos faltantes

valores de datos faltantes deben llenarse.

referencias

https://www.bilibili.com/video/BV1vJ41187hk?from=search&seid=13147394097118063633
https://weizhixiaoyi.com/archives/141.html?utm_source=wechat_session&utm_medium=social&utm_oi=672213749885177856

Publicado 26 artículos originales · ganado elogios 29 · Vistas a 10000 +

Supongo que te gusta

Origin blog.csdn.net/AvenueCyy/article/details/105049023
Recomendado
Clasificación