La clasificación y la predicción son los dos tipos principales de problemas de predicción.
La clasificación es principalmente para predecir la etiqueta de clasificación (atributo discreto), construir un modelo de clasificación, ingresar el valor del atributo de la muestra, generar la categoría correspondiente y asignar cada muestra a una categoría predefinida.
La predicción consiste principalmente en establecer un modelo de función de valor continuo para predecir el valor de la variable dependiente correspondiente a una variable independiente dada, que se refiere a un modelo funcional donde dos o más variables dependen entre sí, para luego predecir y controlar.
Proceso de implementación
El primer paso: aprender, establecer un modelo de datos mediante el análisis inductivo del conjunto de muestras de entrenamiento y obtener las reglas correspondientes
Paso 2: Clasificación / Predicción: primero use las muestras de prueba conocidas para evaluar la precisión y luego prediga los datos desconocidos después de pasar la prueba
1.2 Algoritmos de clasificación y predicción de uso común
Introducción al método
Análisis de regresión: es el método estadístico más utilizado para determinar la relación cuantitativa entre atributos predictivos (tipo numérico) y otras variables. Incluyendo: regresión lineal, regresión no lineal, regresión logística, regresión de crestas, regresión de componentes principales, regresión de mínimos cuadrados parciales y otros modelos
Árbol de decisión: utilizando el método recursivo de arriba hacia abajo, compare los atributos de los nodos internos y bifurque desde el nodo de acuerdo con diferentes valores de atributo, y los nodos hoja finales son la clase de división de aprendizaje
Red neuronal artificial: Es un sistema de procesamiento de información que se establece imitando la estructura y función de la red neuronal cerebral, que representa el modelo de la relación entre las variables de entrada y salida de la red neuronal.
Red bayesiana: conviértase de nuevo en una red de creencias
Máquina de vectores de soporte: es un algoritmo que convierte la separabilidad no lineal de baja dimensión en separable lineal de alta dimensión a través de un determinado mapeo no lineal, y realiza un análisis lineal en un espacio de alta dimensión.
1.3 Introducción al análisis de regresión logística
La esencia de la regresión logística es en realidad: asumir que los datos obedecen a esta distribución y luego usar la estimación de máxima verosimilitud para hacer la estimación de parámetros
Para el problema de clasificación binaria, solo hay dos valores de 1-0 en el modelo de regresión (como sí y no, ocurrencia y no ocurrencia), asumiendo p variables independientes independientes x 1 x_1X1、X 2 x_2X2、X 3 x_3X3… Xp x_pXpBajo la acción, la probabilidad de que y tome 1 es p = P (y = 1 ∣ X) p = P (y = 1 | X)pags=P ( y=1 ∣ X ) , la probabilidad de tomar 0 es1 - p 1-p1-p , la razón de la probabilidad de tomar 1 a 0 esp 1 - p \ frac {p} {1-p}1 - pp, Llamada la razón de probabilidades probabilidades del evento , y tomando el logaritmo de la razón de probabilidades , podemos obtener: Logit (p) = ln (p 1 - p) Logit (p) = ln (\ frac {p} {1-p})L o g i t ( p )=l n (1 - pp) , Entoncesp = 1 1 + e - zp = \ frac {1} {1 + ez}pags=1 + e - z1Función logística
1.4 Funcionamiento de la caja
import pandas as pd
from sklearn.linear_model import LogisticRegression as LR
filename = r"..\data\bankloan.xls"
data = pd.read_excel(filename)
x= data.iloc[:,:8].values
y = data.iloc[:,8].values
lr = LR()
lr.fit(x,y)print('模型的平均准确度为:%s'%lr.score(x,y))