Clasificación y predicción-regresión logística

1. Clasificación y predicción

1.1 Proceso de introducción e implementación

  1. La clasificación y la predicción son los dos tipos principales de problemas de predicción.
    • La clasificación es principalmente para predecir la etiqueta de clasificación (atributo discreto), construir un modelo de clasificación, ingresar el valor del atributo de la muestra, generar la categoría correspondiente y asignar cada muestra a una categoría predefinida.
    • La predicción consiste principalmente en establecer un modelo de función de valor continuo para predecir el valor de la variable dependiente correspondiente a una variable independiente dada, que se refiere a un modelo funcional donde dos o más variables dependen entre sí, para luego predecir y controlar.
  2. Proceso de implementación
    • El primer paso: aprender, establecer un modelo de datos mediante el análisis inductivo del conjunto de muestras de entrenamiento y obtener las reglas correspondientes
    • Paso 2: Clasificación / Predicción: primero use las muestras de prueba conocidas para evaluar la precisión y luego prediga los datos desconocidos después de pasar la prueba

1.2 Algoritmos de clasificación y predicción de uso común

  1. Introducción al método
    • Análisis de regresión: es el método estadístico más utilizado para determinar la relación cuantitativa entre atributos predictivos (tipo numérico) y otras variables. Incluyendo: regresión lineal, regresión no lineal, regresión logística, regresión de crestas, regresión de componentes principales, regresión de mínimos cuadrados parciales y otros modelos
    • Árbol de decisión: utilizando el método recursivo de arriba hacia abajo, compare los atributos de los nodos internos y bifurque desde el nodo de acuerdo con diferentes valores de atributo, y los nodos hoja finales son la clase de división de aprendizaje
    • Red neuronal artificial: Es un sistema de procesamiento de información que se establece imitando la estructura y función de la red neuronal cerebral, que representa el modelo de la relación entre las variables de entrada y salida de la red neuronal.
    • Red bayesiana: conviértase de nuevo en una red de creencias
    • Máquina de vectores de soporte: es un algoritmo que convierte la separabilidad no lineal de baja dimensión en separable lineal de alta dimensión a través de un determinado mapeo no lineal, y realiza un análisis lineal en un espacio de alta dimensión.

1.3 Introducción al análisis de regresión logística

  1. La esencia de la regresión logística es en realidad: asumir que los datos obedecen a esta distribución y luego usar la estimación de máxima verosimilitud para hacer la estimación de parámetros
  2. Para el problema de clasificación binaria, solo hay dos valores de 1-0 en el modelo de regresión (como sí y no, ocurrencia y no ocurrencia), asumiendo p variables independientes independientes x 1 x_1X1X 2 x_2X2X 3 x_3X3Xp x_pXpBajo la acción, la probabilidad de que y tome 1 es p = P (y = 1 ∣ X) p = P (y = 1 | X)pags=P ( y=1 X ) , la probabilidad de tomar 0 es1 - p 1-p1-p , la razón de la probabilidad de tomar 1 a 0 esp 1 - p \ frac {p} {1-p}1 - pp, Llamada la razón de probabilidades probabilidades del evento , y tomando el logaritmo de la razón de probabilidades , podemos obtener: Logit (p) = ln (p 1 - p) Logit (p) = ln (\ frac {p} {1-p})L o g i t ( p )=l n (1 - pp) , Entoncesp = 1 1 + e - zp = \ frac {1} {1 + ez}pags=1 + e - z1Función logística

1.4 Funcionamiento de la caja

import pandas as pd
from sklearn.linear_model import LogisticRegression as LR
filename = r"..\data\bankloan.xls"
data = pd.read_excel(filename)
x= data.iloc[:,:8].values
y = data.iloc[:,8].values
lr = LR()
lr.fit(x,y)
print('模型的平均准确度为:%s'%lr.score(x,y))

Supongo que te gusta

Origin blog.csdn.net/ava_zhang2017/article/details/108306518
Recomendado
Clasificación