Perforar algoritmos de aprendizaje automático: regresión logística

Introducción: ¿Por qué "algoritmo de taladro de la serie" comienza a explicar la regresión logística?

(En primer lugar, quiero ser un hombre de científicos de datos) para convertirse en un científico de datos lo más importante es aprender tubería, que incluye el proceso de obtención y procesamiento de los datos, los datos de la comprensión, modelización, los resultados de evaluación (modelado y datos de fase de procesamiento) y Producto despliegue .En primer lugar aprender de regresión logística (regresión logística) puede ayudarle a familiarizarse con la tubería datos científicos tan pronto como sea posible, y no se le permitirá empezar a causa de una variedad de alto orden, los algoritmos de fantasía y desorientado
Aquí Insertar imagen Descripción
(Cómo obtener los resultados de minería de datos de juegos buenos? En la foto arriba) utilizando gran cantidad de regresión logística de los problemas no se pueden resolver directamente, después de las obras de reconstrucción rasgo por rasgo, puede ser una buena solución, llamada bien en el campo de aprendizaje automático el algoritmo, pero la mayoría de las tareas asignadas al modelo en sí, lo que debilita las características funcionales del proyecto, el cuerpo final que dio a luz a la profundidad del aprendizaje de esta máquina métodos de aprendizaje de extremo a extremo, pero el modelo de aprendizaje profundo es en sí mismo " ingeniería algoritmo de características + clasificación / regresión, "un tipo especial de método de aprendizaje de máquina, la capa de salida final es una regresión o clasificación, frente al proceso de ingeniería son característicos (sólo que no entiendo por qué construir estas características). por otro lado, también porque un mayor grado de dificultad de los datos no estructurados de imagen tales como características de la voz del proyecto, por lo que la profundidad del aprendizaje en estas áreas brillar. un montón de sentido algoritmo de regresión logística es que muestra los métodos a que el aprendizaje de la máquina mágica gesto más simple ( LR para tomar el mundo) que todavía tiene los tres elementos de algoritmos de aprendizaje automático: modelo (sigmoide), estrategia (estimación de máxima verosimilitud) algoritmo (gradiente Descenso).
La regresión lineal se aplica no sólo a la previsión, pero también a través de parámetro de ajuste del modelo, aprender la relación entre las variables dependientes e independientes. O en un lenguaje más "máquina de aprendizaje", se puede entender sus características (características) y relación entre su objetivo (target).
Cada neurona en la red neuronal puede ser visto como un modelo de regresión logística.
artículo de referencia: https://zhuanlan.zhihu.com/p/37621688

Optimización de regresión logística

1, el método de primer orden

algoritmo de descenso de gradiente y sus variantes serie

2, el método de segundo orden

método de Newton, cuasi-Newton método
ventaja del método de Newton: (matriz), es más rápido que el método de primer orden (Vector) solución de resolución de problemas cuando se busca una función.
Desventaja del método de Newton: método iterativo de Newton es una longitud fija, no hay factor de paso , no hay garantía de disminución constante en el valor de la función, incluso cuando falta grave. Existe la ley de Newton requiere una función de segundo orden debe ser derivable. Y una gran parte de la complejidad del cálculo de la matriz inversa de Hesse.

necesidad de regresión logística para funciones discretas

1, no lineal modelo para mejorar la expresión: lineales generalizados modelos pertenecientes regresión logística, la expresión se limita; en N TON sola variable trasero, cada uno con un peso variable separada es equivalente a la introducción de un modelo no lineal, el modelo puede mejorar expresión, aumentar el ajuste; aumento y disminución de características discretas son modelo fácil, rápido fácil iterativo;
2, velocidad: escaso producto vectorial multiplicación de la velocidad, tiendas de conveniencia el resultado del cálculo, fácil expansión;
3, robusto : las características de los datos discretos tienen una alta robustez anormal: por ejemplo, una característica que la edad> 30 es 1, 0 en caso contrario. Si las características no son discretos, un conjunto de datos anormales "edad de 300 años" causará gran modelo de interferencia;
(1) se intersecan y la combinación de características para facilitar: discretización puede cruzar caracterizado por las variables de M + N se convierte en M * n variables, introducen no linealidades mejorar aún más la expresión;
(2) modelo simplificado: en la que después de discretización, simplificar todo el modelo de papel modelo de regresión logística reduce el riesgo de sobreajuste.

supuestos de regresión logística

Suponga que la distribución de Bernoulli datos de objeto (una moneda clásica lanzamiento problema, lanza una moneda arrojada dos escuelas de estadísticas: la escuela clásica, bayesiano (más de probabilidad a priori))

modelo fórmula

h yo ( X ; yo ) = 1 1 + mi - yo T X h_ \ theta \ left (x; \ theta \ right) = \ frac {1} {1 + e ^ {- \ theta ^ {T} x}}

función de pérdida (política)

L yo ( X ) = Π yo = 1 metro h yo ( X yo ; yo ) y yo * ( 1 - h yo ( X yo ; yo ) ) 1 y i L_ \ theta \ left (x \ right) = \ prod _ {i = 1} ^ {m} h_ \ theta (x ^ {i}; \ theta) ^ {y {i}} * (1-h_ \ theta (x ^ {i}; \ theta)) ^ {1-y ^ {i}}
pérdida de función general hay cuatro, función cuadrado pérdida, una pérdida de la función logarítmica, función de pérdida HingeLoss0-1, el valor absoluto de la función de pérdida.
En un modelo de regresión logística, la velocidad de los parámetros de la solución de la función de formación del número de pérdidas es relativamente rápido.
Después de tomar el número (tienen signo negativo, la estimación de máxima verosimilitud y la correspondiente función de pérdida), como si el ejemplo positivo real, el valor de predicción de 1, penalización de 0, el valor predicho es 0, el valor de penalización infinito de regresión logística. forma dicotómica se puede comparar con "pick judías verdes": un montón de frijoles, alubias rojas frijol mungo, la regresión logística frijol rojo en vez pone en un bol, judías verdes en un bol, pero las judías verdes en un recipiente, y el resto es alubias rojas .

¿Por qué utilizar la regresión logística para cuadrar el número de pérdidas y sin pérdidas

Para la regresión logística, aquí el número de pérdidas y máxima verosimilitud son los mismos. Razón para no usar la pérdida cuadratura, cuando se utiliza como una función sigmoidea de la probabilidad de una muestra positiva, mientras que la pérdida de la pérdida como una función del cuadrado, a continuación, la función de pérdida construido no convexo, no es fácil de resolver, es fácil para obtener una solución óptima local de . Si se utiliza una probabilidad máxima que la función objetivo es la función de probabilidad logarítmica, la pérdida de función de orden superior es la función de parámetros desconocidos convexa continuamente diferenciable, que es fácil de encontrar el óptimo global.

la pérdida de la función de regresión logística significativa?

(1) visualmente, de acuerdo con el método de máxima verosimilitud estas probabilidades condicionales función logarítmica inversión multiplicativo pérdida de regresión logística resultante, la significación es deseable maximizar la probabilidad de ocurrencia de estas muestras, la propia hipótesis de máxima verosimilitud es la verdadera probabilidad de ocurrencia de las muestras más grandes, y los parámetros correspondientes es la capacidad de hacer estos datos aparecen los parámetros más probables, la esperanza se convierte en realidad negada probabilidad de ocurrencia de un mínimo de la muestra negativa (es decir, a nosotros por encima de funciones fórmula de pérdida).
(2) Binary entropía cruz es una forma especial de entropía cruzada, la entropía cruzada es una medida de la distribución de probabilidad de la diferencia, por lo que la función de pérdida de entropía mutua es la regresión logística, es la distribución indica la distribución de los valores predichos y los valores verdaderos, el grado de diferencia entre las dos distribuciones, que optimizan la función de pérdida es la diferencia esperanza en la distribución de los valores previstos y reales se hacen más pequeños y más pequeños.

Los métodos de formación (algoritmo)

(1) modificar la cantidad de entrenamiento: pendiente de descenso algoritmo y sus series de variantes (los pros y los contras?);
(2) modificar la tasa de aprendizaje (modelo de nivel, la jerarquía de parámetros): AdaGrad \ Adam \ RMSprop \ Momentum ( principio de los pros y los contras ??), etc.

Ventajas para aplicaciones industriales

1, en la forma de simple, modelos explicativos puede ser muy bueno. Pesado puede ver el impacto de las diferentes características de los resultados finales de la peso de la característica, el peso de una característica relativamente alto valor, entonces el impacto sobre las características del resultado final será relativamente grande.
2, el modelo funciona bien. En ingeniería es aceptable (como línea de base), cuenta con obras si se hace bien, el efecto no es tan malo, y podemos característica funciona desarrollado en paralelo, acelerar en gran medida la velocidad de desarrollo.
3, el entrenamiento más rápido. Clasificación, y sólo sólo el número de funciones relacionadas con el cálculo. Y la optimización de regresión logística distribuida SGD relativamente maduro, la velocidad de formación puede mejorarse aún más a través de la máquina de pila, por lo que varias versiones del modelo que pueden recorrer buena en un corto período de tiempo.
4, de pequeño tamaño, especialmente la memoria. Debido a que sólo necesita almacenar las dimensiones respectivas de un valor de característica.
5, para facilitar el ajuste de la salida. La regresión logística puede conseguir fácilmente los resultados de la clasificación finales, debido a que la salida es una puntuación de probabilidad para cada muestra, podemos cortar otras fácilmente estas puntuaciones de probabilidades, que se divide umbral (mayor que un cierto valor de umbral es una clase de menos de un cierto umbral es una clase).

defecto

1, la precisión no es muy alta. Debido a que la forma es muy simple (muy similar al modelo lineal), es difícil para adaptarse a la distribución real de los datos.
2, difícil de tratar el problema del desequilibrio de datos. Por ejemplo: Si tenemos muestras positivas y negativas para unos problemas muy irregulares, tales como muestras positivas y negativas de 10.000: 1. Ponemos todas las muestras eran valor predictivo positivo de la función de pérdida también permite relativamente pequeño. Sino como un clasificador, su capacidad para distinguir entre muestras positivas y negativas no es muy buena.
3, los datos de procesamiento no lineal es problemático. La regresión logística sin introducción de otros métodos, el procesamiento de datos sólo linealmente separables, o aún más, que trata dicotómico.
4, en sí regresión logística no puede filtrar características. A veces vamos a utilizar gbdt a las características del filtro, y luego en la regresión logística.

Fórmula Derivación

Artículo de referencia: https://zhuanlan.zhihu.com/p/44591359

algoritmo

import numpy as np
import pandas as pd
from numpy import random
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler
X = load_breast_cancer().data
y = load_breast_cancer().target
sd = StandardScaler()
X = sd.fit_transform(X)

def sigmoid(x):
	return 1.0 / (1 + np.exp(-x))

def BGD(X, y, alpha, maxIterations):
	dataMatrix = np.mat(X)
	labelMat = np.mat(y).T
	m, n = dataMatrix.shape
	theta = np.random.rand(n, 1)
	thetas = []
	for i in range(maxIterations):
		h = sigmoid(dataMaxtrix.dot(theta))
		error = h - labelMat
		thetas.append(theta.T.tolist()[0])
		theta = theta - alpha * (dataMatrix.T * error)
	thetas = pd.DataFrame(thetas)
	thetas.plot(figsize=(10, 10))
	return np.asarray(theta)

def SGD(X, y, alpha, maxIterations):
	m, n = X.shape
	theta = np.random.rand(n, 1)
	thetas = []
	for i in range(maxIterations):
		for k in range(m):
			randIndex = int(random.uniform(0, m))
			h = sigmoid(X[randIndex].dot(theta))
			error = h - y[randIndex]
			thetas.append(theta.T.tolist())
			theta = theta - alpha * (error * x[randIndex])
	thetas = pd.DataFrame(thetas)
	thetas.plot(figsize=(10, 10))
	return theta

modelo de regresión logística es modelo lineal o no lineal?

función sigmoide es una transformación puramente matemática puede aprender sin ningún parámetro, nuestra decisión se basa directamente en (z = x * theta) ecuación, una sigmoide no lineal solo responsable de la cartografía de la salida llena intuitiva decir que nuestra lógica de salida antes de entrar en la función de regresión sigmoidal es el valor lineal después de llama no lineal valor sigmoide, la superficie de decisión para el modelo de regresión logística es lineal, la salida de la vista del modelo de regresión logística no lineal, pero generalmente de toma de decisiones a la lineal definida avión y no lineal, por lo que será clasificado como una regresión logística lineal modelo.

En comparación con el método de regresión logística para resolver los problemas de múltiples clasificación

Para elaborar un ejemplo específico, existen tres categorías, tales como A, B, C, ovo manera es dos apareamiento entre dos tipos diferentes, (A, B), (A, C), (B, C), cada uno de los dos un modelo de tren entre las clases, hacer modelo de entrenamiento final para predecir los tres finales para obtener el resultado final de la utilización del método de votación, por supuesto, la probabilidad media también es posible. ovr es una clase en la que cuando la clase positiva, otras clases como tipo negativo, con lo que (A, otros), (B, otros), (C, otros), teniendo solamente el tipo de categoría otros tres África Modelo probabilidad como el resultado final, el segundo enfoque es, obviamente complica el grado más bajo y es actualmente el método más común de procesamiento de una multi-clasificación, incluyendo xgboost, lightgbm interna también se consiguen de esta manera. Predecir el rendimiento de ambos, de acuerdo con el libro de sandía para exponer el rendimiento es casi el mismo en la mayoría de los casos.

La regresión logística y definición de regresión Softmax y análisis de correlación de ambos

Si entre las clases son mutuamente excluyentes, con regresión softmax, si hay una pluralidad de intersección entre las clases de regresión logística

Si está utilizando la regresión logística, ¿cómo mejorar el rendimiento del modelo (cómo obtener los mejores parámetros de entrenamiento)?

En donde la discretización, en el que Scheduling cruz (la tasa de aprendizaje y un coeficiente positivo, etc.), extracción de características de orden superior gbdt, utilizando regularización y similares.

Artículo de referencia: https://zhuanlan.zhihu.com/p/68946840

Publicado 50 artículos originales · ganado elogios 31 · vistas 3426

Supongo que te gusta

Origin blog.csdn.net/weixin_35894210/article/details/105220394
Recomendado
Clasificación