pitón preprocesamiento de datos: datos de procesamiento de colinealidad detallada

Hoy pequeña para que todos puedan compartir un conjunto de datos de pre-procesamiento de pitón: Datos detallados fueron procesamiento lineal, un buen valor de referencia, queremos ayuda. Siga las pequeñas series juntos Vamos a ver,
¿cuál es la cantidad de movimiento total:

Colinealidad refiere a la presencia de un alto grado de correlación lineal entre el argumento de entrada. Colinealidad puede causar la estabilidad y la precisión del modelo de regresión reducido en gran medida. Además, demasiados cálculos de dimensión no relacionadas son una pérdida de tiempo

causas de colinealidad:

Aparece la variable razón de colinealidad:

muestra de datos no es suficiente, lo que resulta en la presencia del azar colinealidad, que en realidad refleja el impacto de la falta de datos para el modelado de datos, colinealidad es sólo una parte del impacto de las

Hay muchas variables para dar juntos el tiempo o tendencia opuesta evolucionado, como la red de ventas y las ventas durante el Festival de Primavera se oponen a la hora normal de una tendencia a la baja.

Existen múltiples variables de una cierta relación va, pero la misma tendencia entre la variable general, el punto en el tiempo simplemente ocurren inconsistencias, por ejemplo entre los gastos de publicidad y ventas, la publicidad de marca es a menudo la primera exposición y una amplia gama de empuje de la información, después de un cierto después del tiempo de propagación, sería reflejado en las ventas.

Existe una relación lineal entre múltiples variables. Y representa el número de visitantes, por ejemplo, representado por los gastos de publicidad display x, entonces la relación entre los dos es probable que sea y = 2 * x + b

Cómo probar la colinealidad:

Inspección colinealidad:

La tolerancia (tolerancia): proporción residual es la tolerancia de cada modelo variable de regresión dependiente variable independiente a otras variables como se obtiene de la reducción del tamaño obtenido con un coeficiente de determinación a la figura. Los más pequeños los valores de tolerancia de las variables independientes pueden existir colinealidad entre las otras variables independientes.

factor de expansión VIF es el recíproco de la tolerancia de la varianza, la más evidente cuanto mayor sea el valor del problema co-lineal, por lo general 10 como una determinación de límites. Cuando el VIF <10, Multicolinealidad ausente; cuando 10 <= VIF <100, hay una fuerte multicolinealidad; cuando es grave VIF> = 100, multicolinealidad.

Valor característico (valor propio): Este método es en realidad variables de tomas independientes análisis de componentes, si la dimensión característica de la pluralidad de valores es igual a 0, no pueden ser colinealidad más grave.

Coeficiente de correlación: si el coeficiente de correlación R> existe una correlación fuerte podía 0,8

Cómo colinealidad mango:

proceso lineal Total:

El aumento del tamaño de la muestra: el aumento del tamaño de la muestra puede eliminar la falta ocasional de fenómeno de co-lineal dude cantidad de datos que aparecen en la premisa de este enfoque es factible prioridades

Regresión Ridge (Regresión Ridge): es en realidad una estimación de mínimos cuadrados modificado. Insesgamiento abandonado por el método de mínimos cuadrados, a la pérdida de parte de la información, a costa de reducir la precisión más práctico y coeficientes de regresión más fiables. Así, hay una regresión contraída colinealidad Regresión fuerte aplicaciones de uso más común.

Por etapas de regresión (regresión por pasos): Cada vez que la introducción de unas pruebas estadísticas independientes variables, y luego ir introduciendo otras variables, la prueba simultánea de los coeficientes de regresión de todas las variables, si la variable originalmente introducido más tarde debido a la introducción de la variable ya no significativa se convierte , siempre que se retira, la ecuación gradualmente más regresión.

Principal regresión componente (regresión de componentes principales): análisis de componentes principales, las variables que intervienen en el modelo original en unos pocos ingredientes principales, lo que los componentes principales son combinaciones lineales de las variables originales, entonces el análisis de regresión sobre la base de componente principal, lo que también podemos evitar la colinealidad sin perder las características de los datos importantes.

La extracción manual: combinación de la experiencia humana, con el argumento de exclusión, pero la capacidad operativa del operador, experimentan altas exigencias.

código Python para parte del método

import numpy as np
import pandas as pd
from sklearn.linear_model import Ridge
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
 
# 导入数据
df = pd.read_csv('https://raw.githubusercontent.com/ffzs/dataset/master/boston/train.csv')
 
# 切分自变量
X = df.iloc[:, 1:-1].values
 
# 切分预测变量
y = df.iloc[:, [-1]].values
 
# 使用岭回归处理
import matplotlib.pyplot as plt
plt.figure(figsize=(8,6))
n_alphas = 20
alphas = np.logspace(-1,4,num=n_alphas)
coefs = []
for a in alphas:
  ridge = Ridge(alpha=a, fit_intercept=False)
  ridge.fit(X, y)
  coefs.append(ridge.coef_[0])
ax = plt.gca()
ax.plot(alphas, coefs)
ax.set_xscale('log')
handles, labels = ax.get_legend_handles_labels()
plt.legend(labels=df.columns[1:-1])
plt.xlabel('alpha')
plt.ylabel('weights')
plt.axis('tight')
plt.show()

Nox sólo ligeramente volatilidad.

# 主成分回归进行回归分析
pca_model = PCA()
data_pca = pca_model.fit_transform(X)
 
# 得到所有主成分方差
ratio_cumsum = np.cumsum(pca_model.explained_variance_ratio_)
# 获取方差占比超过0.8的索引值
rule_index = np.where(ratio_cumsum > 0.9)
# 获取最小的索引值
min_index = rule_index[0][0]
# 根据最小索引值提取主成分
data_pca_result = data_pca[:, :min_index+1]
# 建立回归模型
model_liner = LinearRegression()
# 训练模型
model_liner.fit(data_pca_result, y)
print(model_liner.coef_)
#[[-0.02430516 -0.01404814]]

Estos datos sobre los niveles pre-Python: Los datos detallados fueron procesamiento lineal es pequeña serie para compartir el contenido completo de todo el contenido de lo anterior la cantidad de la última palabra de la boca para recomendar una serie buena de las instituciones públicas [programadores], hay una gran cantidad de aprendizaje de los veteranos

Habilidades, experiencia, habilidades de la entrevista, la experiencia laboral y otra cuota de aprendizaje, la prepararon con más cuidado la basada en cero información introductoria, información sobre proyectos reales,

El método tiene programador temporizado Python explicar la tecnología cotidiana, para compartir algunas de las letras y la necesidad de prestar atención a los pequeños detallesAquí Insertar imagen Descripción

Publicado 49 artículos originales · ganado elogios 8 · Vistas a 40000 +

Supongo que te gusta

Origin blog.csdn.net/chengxun02/article/details/105082278
Recomendado
Clasificación