la minería de datos lógicos algoritmo de regresión Python

algoritmo de regresión logística

algoritmo de regresión logística: Aunque el nombre con el regreso de la palabra, pero no es un algoritmo de regresión, es un algoritmo de clasificación binaria clásica.
Aquí Insertar imagen Descripción

función logística

Modelos de regresión logística de la variable dependiente sólo el 1 y 0 (no suceden a producirse) dos clases. Supongamos en x1, x2 ... papel XP de p variable independiente, y toma probabilidad es p = P | probabilidad (y = 1 X) realiza 0. 1-p, que la probabilidad de tomar uno y toma 0 para
pag 1 - pag \ Frac {p} {1-p}
Ventajas llamados eventos de (odds), el logaritmo natural de las probabilidades aumentan Transformación Logística
L la g i t ( p ) = l n ( p 1 p ) Logit (p) = ln (\ frac {p} {1-p}) se denomina ①
maquillaje ① = z, entonces
p = 1 1 + e z p = \ frac {1} {1 + e ^ {z}}
función logística llamada

Figura:

pasos modelos de regresión logística

a, establecer las variables indicadoras (la variable independiente y la variable dependiente), recogida de datos y el objeto de análisis, de acuerdo con los datos recogidos, se tamiza de nuevo rasgo

b, y tiene una probabilidad es p = P (Y = 1 | X), la probabilidad se establece en 0 1-p. uso
l n ( p 1 p ) ln (\ frac {p} {1-p})
Y las variables independientes que figuran en la ecuación de regresión lineal para estimar los coeficientes del modelo de regresión
c, la comprobación de modelo. Prueba de la eficacia del modelo hay muchos indicadores, hay precisión básica, seguido de una matriz de confusión, la curva ROC, los valores de KS y así sucesivamente.

d, la solicitud de modelo: valor del argumento de entrada, el valor de la variable de predicción se puede obtener, o para controlar el valor de la variable independiente basado en el valor de las variables de predicción.

Ejemplo:

edad educación La duración del servicio dirección ingresos ratio de deuda la deuda de tarjetas de crédito otros pasivos Incumplimiento de contrato
41 3 17 12 176.00 9.30 11.36 5.01 1
27 1 10 6 31.00 17.30 1.36 4.00 0

Por favor susurro Necesito un conjunto de datos

Scikit-learn esto usando análisis de regresión logística de los datos. Primera característica de cribado, hay muchas características métodos de cribado, contenidas principalmente en la selección de bibliotecas Scikit_Learn feature_, por comparación con una simple prueba de F (F_ regresión) valor valores y P F dados diversas características, tales variables pueden cribar ( seleccione F valor es grande o pequeña característica p-valor). Seguido de una característica de eliminación recursiva (Recursive Feature Eliminación, RFE) y una selección de estabilidad (StabilitySelection) y el otro método relativamente nuevo. Como se usa en este documento, la estabilidad del método de selección de regresión lógica aleatoria para la selección de características, y luego usar las características filtradas establecidos modelo de regresión logística, la precisión media de salida.

Código de regresión logística

# -*- coding: utf-8 -*-
# 逻辑回归 自动建模
import pandas as pd

# 参数初始化
filename = '../data/bankloan.xls'
data = pd.read_excel(filename)
x = data.iloc[:, :8].as_matrix()
y = data.iloc[:, 8].as_matrix()

from sklearn.linear_model import LogisticRegression as LR
from stability_selection.randomized_lasso import RandomizedLogisticRegression as RLR

rlr = RLR()  # 建立随机逻辑回归模型,筛选变量
rlr.fit(x, y)  # 训练模型
rlr.get_support()  # 获取特征筛选结果,也可以通过.scores_方法获取各个特征的分数
print(u'通过随机逻辑回归模型筛选特征结束。')
print(u'有效特征为:%s' % ','.join(data.columns[rlr.get_support()]))
x = data[data.columns[rlr.get_support()]].as_matrix()  # 筛选好特征

lr = LR()  # 建立逻辑货柜模型
lr.fit(x, y)  # 用筛选后的特征数据来训练模型
print(u'逻辑回归模型训练结束。')
print(u'模型的平均正确率为:%s' % lr.score(x, y))  # 给出模型的平均正确率,本例为81.4%

resultados:

通过随机逻辑回归模型筛选特征结束。
有效特征为:工龄,地址,负债率,信用卡负债
逻辑回归模型训练结束。
模型的平均正确率为:0.814285714286
Publicado 29 artículos originales · ganado elogios 379 · Vistas a 20000 +

Supongo que te gusta

Origin blog.csdn.net/weixin_43656359/article/details/104689024
Recomendado
Clasificación