objetivo
分析空气中主要污染物浓度与空气指数之间的关系
A análise dos dados
天气污染物浓度的数据集,该数据集源自天气后报网站上爬取的数据,为北京2013年10月28日到2016年1月31日的空气污染物浓度的数据。包括空气质量等级、AQI指数和当天排名。
pandas importação como Pd numpy importação como np matplotlib.pyplot importação como plt % matplotlib linha statsmodels.api importação como sm
Regressão linear
1. Os dados de pré-tratamento
Dados = pd.read_csv ( "beijing.csv", index_col = 0) data.head ()
X = data.iloc [:, 2: 8] X = sm.add_constant (X) y = data.iloc [:, 0] impressão (X.head ())
2. O modelo
model1 = sm.OLS (Y, X) # modelo result = model1.fit () modelo # formação de impressão (result.summary ())
# Test result.f_pvalue era a relação de regressão linear significativa
result.params # coeficientes de regressão
Improved Modelo
Como o valor p SO2 e Co é maior do que 0,05, portanto a exclusão destas duas variáveis, re-estabelecer o modelo
Dados = pd.read_csv ( "beijing.csv", index_col = 0) data.head ()
X = data.iloc [:, [2,3,5,7]] X = sm.add_constant (X) y = data.iloc [:, 0] impressão (X.head ())
model2 = sm.OLS (Y, X) # modelo result = model2.fit () modelo # formação de impressão (result.summary ())