La minería de datos: modelo de selección - regresión logística

La regresión logística

Antes de la introducción de la regresión lineal se utiliza principalmente para la predicción de regresión, y la regresión logística utilizado principalmente para tareas de clasificación. La regresión logística es de regresión lineal sobre la base, junto con la función sigmoide.
modelo de regresión lineal es:
Aquí Insertar imagen Descripción
también se puede escribir como:
Aquí Insertar imagen Descripción
Si necesita para predecir el valor de la distribución es 0-1, se puede introducir una función, la ecuación lineal se convierte en z g (z), de modo que el valor de g (z) en (0, entre 1), cuando el valor de g (z) es cercana a cero, la muestra se juzga Categoría Categoría 0; cuando el valor de g (z) está cerca de 1, la muestra se juzga como Categoría Categoría 1.
esta función es la función sigmoidea. Que oscilan entre (0,1), un dominio de menos infinito a infinito.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Después de la introducción de la función sigmoide, para dar la forma general del modelo de regresión logística:
Aquí Insertar imagen Descripción
En este caso, los valores de y en [0,1], por lo tanto 1-Y, e Y es un Además inevitable. Si dejamos a hacia el 1-y y forma pueden tener la oportunidad (odds) de / (1-y), que puede ser visto como categoría 1 y la probabilidad de 0. Es decir, el valor de la regresión lineal de probabilidad log.
Aquí Insertar imagen Descripción
y (x) se parece a la oportunidad de enfrentarse a la naturaleza de los números es en realidad nuestra z regresión lineal, que son en realidad el resultado de un modelo de regresión lineal para predecir el logaritmo de probabilidad, para que los resultados de la infinita acercarse a 0 y 1.
Lineales tareas de regresión: Construcción función de predicción mediante la resolución de parámetro z, función de predicción z y los datos deseados pueden estar en forma tanto como sea posible,
la regresión logística es tareas básicas similares: Para construir un parámetros de la solución puede ser posible para adaptarse a la función de predicción y (x) de datos , y adquiere el correspondiente valor de la etiqueta por y matriz en la que la entrada a la función de predicción.
y (x) no es tan Bayesiano probabilidad da salida a una categoría, es sólo entre el valor (0,1), que se aproxima que la probabilidad de la misma. Generalmente 0,5 como punto límite.
Aquí Insertar imagen Descripción

Pérdida de la función de regresión logística

Binary etiqueta de regresión logística obey distribución de Bernoulli (es decir distribución 0-1), podemos predecir el caso de una muestra i es un vector de características x, θ es un parámetro de modelo de trabajo de la siguiente manera:
Aquí Insertar imagen Descripción
Cuando la i de la muestra verdadera categoría 1, si P1 es 1, P0 es 0, entonces los resultados predichos son consistentes con el valor real, sin pérdida de información. Si P1 es 0, P0 es 1, el valor predicho y el verdadero contraste con los resultados, una pérdida completa de la información. Y viceversa.
Aquí Insertar imagen Descripción
Los dos valores de probabilidad de la integración, la siguiente ecuación se pueden obtener (muestra individual):
Aquí Insertar imagen Descripción
Cuando 1 (verdadero etiqueta en la muestra i es 1, P0 es el poder de 1 0, esta vez, P = P1, si P1 es P1 Representante predicción valor de categoría probabilidad de 1 ), como el efecto del modelo, la pérdida es pequeña, del mismo modo, la licencia tag real 0 i es una muestra, es 1 si P0 ( valor predictivo P0 representante de la categoría de probabilidad 0 ), modelo el efecto es como, la pérdida es pequeña.
Por lo tanto, a fin de permitir un buen ajuste del modelo, que buscamos es dejar que el valor de P 1 . P es la naturaleza de la muestra i de la el parámetro θ vector de características x y función de predicción consiste en, predecir todos los posibles probabilidad y ^ por lo tanto 1 está en su máximo . Eso es lo que necesitamos es obtener máxima P. Esta encaja en el modelo de "minimizar la pérdida" problema, convertido en función de resolver el problema de valor extremo . (Para encontrar un conjunto de parámetros, de modo que el valor máximo de P) este proceso de derivación, de hecho, es el proceso de derivación de "probabilidad máxima", es decir, de tratar de maximizar el valor de la θ parámetro por P.
Y ^ de todos los posibles probabilidad P es:
Aquí Insertar imagen Descripción
el logarítmica P-:
Aquí Insertar imagen Descripción
Esta es nuestra función de entropía cruzada. Con el fin de definir mejor el significado de "pérdida", queremos convertir el problema máximo para los problemas mínimos, por lo que tomamos el negativo de log§, y dejar que el argumento de una función como un parámetro, tenemos nuestra función J pérdidas . (P buscando el valor máximo en un valor mínimo que buscan J)
Aquí Insertar imagen Descripción
Esto se basa en la función de regresión logística devuelve el valor de la probabilidad de pérdida de deriva propiedades. En esta función, siempre y cuando buscamos un mínimo, podemos hacer que el modelo se ajusta al efecto en los datos de entrenamiento la mejor, la pérdida de más bajo.
Aquí Insertar imagen Descripción

función de verosimilitud y la estimación de máxima verosimilitud

función de probabilidad :
Para la función: p (x | θ) tiene dos entradas: X representa un ciertos datos específicos; [theta] representa los parámetros del modelo.

  • La determinación de si θ se sabe, x es una variable, la función se llama función de probabilidad (función de probabilidad), que describe de diferente punto de muestra x, que es el número de probabilidad de ocurrencia, encontrar x.
  • Si x se determina conocido, [theta] es una variable, la función se llama la función de probabilidad (función de probabilidad), que describe los diferentes parámetros del modelo, la probabilidad de ocurrencia x es el número de puntos de muestra. Buscando θ.
  • Función de probabilidad y la función de probabilidad son dos procesos opuestos.

La estimación de máxima verosimilitud :
tirar General de una moneda, la probabilidad, se sabe que la distribución de monedas 0-1 distribución, encontrar la probabilidad de ocurrencia de positivo y negativo. Para la probabilidad, se sabe que la probabilidad de ocurrencia de positivo y negativo para la moneda, la distribución de monedas solicitud correspondiente.
Como llegar a través de una distribución de probabilidad conocida, entonces se utiliza la estimación de máxima verosimilitud. La idea es tener los parámetros necesarios para que los resultados (probabilidad positiva y negativa de que se produzca) aparecido la mayoría, pero también más en línea con nuestra conciencia normal.
Por ejemplo: si tiramos una moneda 100 veces aparecen positivos 50 y negativos 50 veces, registrada una nota positiva como la probabilidad P (Coin resultado | Distribution).
P (resultado de monedas | distribución)
= P (X1, X2, ..., XlOO | distribución)
= P (X1 | distribución) P (X2 | distribución) ... P (XlOO | distribución) resultado # asumió cada moneda es independientemente a.
= P ^ 50 (1-P ) ^ 50
En este caso, P puede ser tomado como 0.5, 0.3 también pueden tomar, en resumen, existen numerosos valores de p, pero los valores y qué tipo de resultados que hemos votado la más parecida a la moneda, el sentido más común de lo ? ( Rogamos en este parámetro se distribuye a maximizar los resultados parecen apoyar que le permiten valor P maximización ) La respuesta es P = 0,5, esta vez P ^ 50 (1-P) ^ máximo de 50 resultados. Por derivación, por lo que el derivado que es 0, el valor de P de encontrar.

regularización de regresión logística

Regularización se utiliza para evitar el exceso de ajustar el modelo del proceso, comúnmente utilizado L1 y L2 que tiene regularización positiva de las dos opciones, respectivamente, mediante la adición de múltiplos de L1 y L2 Paradigm Modelo vector de parámetros se consigue después de la función de pérdida.
La pérdida de la función de cambio, los parámetros de optimización para resolver la función de pérdida inevitable basado en el valor de cambio, tenemos una manera de ajustar el grado de ajuste del modelo.
Aquí Insertar imagen Descripción
En donde:
J está antes de la función de pérdida , C
se utiliza para controlar el grado de parámetro súper regularización , menor C es, menor es la pérdida de la función, la pérdida de más grave modelo de función de penalización, más fuerte es el efecto de los parámetros de regularización poco a poco comprimido cada vez más pequeños.
en la que n es el número total de ecuaciones , sino también el número total de parámetros en la ecuación,
J representando cada parámetro . Aquí, j es mayor que o igual a 1, porque en nuestro vector de parámetros θ, theta] 0 es el primer argumento, que interceptan, por lo general no participa en la regularización.
L1 y L2 regularización regularización puede ser controlado mientras overfitting, pero sus efectos no son los mismos. Cuando la resistencia a la regularización aumenta gradualmente (es decir, se vuelve gradualmente más pequeño C), los valores del parámetro a ser gradualmente más pequeño, pero parámetro L1 regularización serán comprimidas a 0 (para la selección de características), parámetro de regularización L2 tan pequeños como sea posible de modo que sólo , no llega a 0 (para prevenir el exceso de ajuste) . (Mencionado en la regresión lineal sobre-anterior, el deflector de evaluar los argumentos, la conclusión puede extraerse)
característica funciona de regresión logística :
Para la función de selección de clasificación, considere el uso de regresión logística, PCA y debido a SVD interpretabilidad no es fuerte.
La regresión logística requiere de datos es menor que el de regresión lineal, ya que no estamos utilizando el método de mínimos cuadrados para resolver , por lo que la regresión logística y la varianza de la distribución global de los datos no pidieron, no es necesario excluir la colinealidad entre las características .

regresión logística gradiente de resolución de descenso

El propósito de las matemáticas es resolver modelo de regresión logística permite la optimización de los mejores valores de los parámetros del ajuste que permite a los valores de los parámetros para resolver la función de pérdida J se minimiza. Escoja método de gradiente usando una solución de disminución.
gradiente Definido :
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
descenso de gradiente :
gradiente es un vector, sino que también tiene la dirección tamaño. Su tamaño, la magnitud del vector se compone de las derivadas parciales, también conocido como magnitud de un vector, indicado por d.
Su dirección, geométricamente hablando, el valor de la función de pérdida de J es la dirección de más rápido crecimiento. Mientras el movimiento de coordenadas en la dirección opuesta del vector gradiente, el valor de la función de pérdida J reducirá el más rápido, más fácil de encontrar también la función de pérdida mínima .
La pérdida en la función de regresión logística es como sigue:
Aquí Insertar imagen Descripción
para el argumento derivado [theta] se puede obtener por el vector gradiente de la representación en el punto de coordenadas [theta] j-ésimo grupo de:
Aquí Insertar imagen Descripción
dado un conjunto de [theta], en la fórmula, el calculado d gradiente.
Y usando un gradiente [theta], se puede determinar la siguiente iteración θ + 1, por lo que todo el proceso es la función de pérdida en cada vez más pequeño.
Aquí Insertar imagen Descripción
El concepto de un largo paso :
concepto longitud del paso, similar a la triangular ∠A ángulo , tomando el valor de tan.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Dado que los parámetros por un vector de gradiente iterativo es el tamaño de un paso d * implementado, J se reduce mediante el ajuste de θ se consigue, de modo que el tamaño de paso se puede ajustar para reducir la tasa de pérdida de función.
función de pérdida reducida en dirección de la etapa más larga (∠A el valor más grande) , mayor es el cambio en θ, opuesto, si la longitud de paso es muy corto, cada θ variación es muy pequeña.

  • Paso demasiado : la función declive pérdida fue muy rápido, el número de iteraciones requiere muy poco, pero el proceso de descenso de gradiente puede omitir la función más baja pérdida de puntos, no se puede obtener el mejor valor.
  • El tamaño del paso es demasiado pequeño : A pesar de que la función se aproxima gradualmente el punto más bajo que necesitamos, pero iteración
    velocidad es muy lenta, se necesita una gran cantidad de iteraciones.
    Aquí Insertar imagen Descripción
    Final de la iteración, el valor mínimo de J se adquiere, se puede averiguar el vector de parámetros [theta] correspondiente al mínimo, las funciones de predicción de regresión logística también pueden establecerse de acuerdo con el parámetro θ vector.

el procesamiento de datos de regresión logística

Los datos desglosados

etiquetas de clasificación de datos necesitan ser tratados, y luego hacer un proceso de codificación en caliente, cuando la intervención a explicar lo hacen otros. La regresión logística para la tabla de puntuación, la clasificación se puede utilizar para AY datos de proceso.
Aquí Insertar imagen Descripción

Los datos numéricos

Como resultado del método de estimación de máxima verosimilitud en lugar del método de mínimos cuadrados, sin tratamiento especial. Pero puede considerar la normalización, acelerar la velocidad de procesamiento.

referencias

https://zhuanlan.zhihu.com/p/26614750?utm_source=wechat_session&utm_medium=social&utm_oi=672213749885177856
https://www.bilibili.com/video/BV1vJ41187hk?from=search&seid=13147394097118063633
https://www.cnblogs.com/ lianyingteng / p / 7792693.html

Publicado 26 artículos originales · ganado elogios 29 · Vistas a 10000 +

Supongo que te gusta

Origin blog.csdn.net/AvenueCyy/article/details/105079612
Recomendado
Clasificación