小さなテキスト|公共のツアーの小さなテキストデータの数
私たちは、この期間は戦闘の確かに待望の作品です、以上の導入線形回帰の理論的な部分に入れています!Stasmodelsパケットは、次の最小二乗法から、線形回帰を達成するために、最小二乗法、バッチ勾配降下アルゴリズム、確率的勾配降下法と確率的勾配降下法などの少量skleran。以下の最初のリコール、いくつかの重要な式:
損失関数:
最適化パラメータの最小二乗法:
最適化パラメータの勾配降下法:
次の方法は、いくつかの実装がいくつかが来ることを線形回帰式に基づいています言及します!
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
import statsmodels.formula.api as smf
以下のようなデータの外観を見てください?これは3の特徴とラベルデータセットで構成されています。また、いくつかの影響をもたらすでしょう、その後のモデリングのための3つの異なる固有値の統計的分布によって発見。まず、勾配降下の速度に影響を与えます;第2の重み、例えば、テレビの特徴値を適切なサイズに影響を与えます、最大値は296で、平均値は147で、5倍以上のラジオがいっぱいです、テレビにつながるであろうラジオよりもはるかに大きな重量、極端なだけでテレビに依存販売の価値を考えること。前のデータを前処理するためのモデルの必要性を構築することに、この状況を回避するには、データがどこZスコア法を処理します!
data = pd.read_csv('./Desktop/Advertising.csv',sep = ',')
print(data.describe())
TV radio newspaper sales
count 200.000000 200.000000 200.000000 200.000000
mean 147.042500 23.264000 30.554000 14.022500
std 85.854236 14.846809 21.778621 5.217457
min 0.700000 0.000000 0.300000 1.600000
25% 74.375000 9.975000 12.750000 10.375000
50% 149.750000 22.900000 25.750000 12.900000
75% 218.825000 36.525000 45.100000 17.400000
max 296.400000 49.600000 114.000000 27.000000
#将数据集分成训练集与测试集,并对训练集进行预处理
train,test = train_test_split(data,test_size = 0.2,shuffle = True,random_state = 0)
train.iloc[:,:-1] = (train.iloc[:,:-1]-train.iloc[:,:-1].mean())/train.iloc[:,:-1].std()
さらに、モデリングプロセスの後に特徴量を用いて、上記の代表的な各特徴の対応するパラメータは、各特徴量の重要性重みを前記しました!したがって、我々は便利な機能をスクリーニングする値を重み付けすることができ、なげなわ回帰(小さな重みが)この原則特徴選択に基づいています。機能自体の一部が他の特性よりも重要であるのであれば、我々はその後、ローカルに線形回帰を加重されるモデリングを、その重量を増やすために進めることができます。
:局所線形回帰パラメータ最適解重み付けWはそれぞれの機能に重みを加えること、重み行列です。
しかし、多くは、最初にここに拡大し、モデルの線形最小二乗法は、最初statsmodelsパッケージから構成されています。
#statsmodels包、最小二乘法
stats_model = smf.ols('sales~ TV + radio + newspaper',data = train).fit()
print(stats_model.summary())
OLS Regression Results :
==============================================================================
Dep. Variable: sales R-squared: 0.907
Model: OLS Adj. R-squared: 0.905
Method: Least Squares F-statistic: 505.4
Date: Wed, 19 Jun 2019 Prob (F-statistic): 4.23e-80
Time: 22:41:19 Log-Likelihood: -297.29
No. Observations: 160 AIC: 602.6
Df Residuals: 156 BIC: 614.9
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
Intercept 14.2175 0.124 114.463 0.000 13.972 14.463
TV 3.7877 0.125 30.212 0.000 3.540 4.035
radio 2.8956 0.132 21.994 0.000 2.636 3.156
newspaper -0.0596 0.132 -0.451 0.653 -0.321 0.202
==============================================================================
Omnibus: 13.557 Durbin-Watson: 2.038
Prob(Omnibus): 0.001 Jarque-Bera (JB): 15.174
Skew: -0.754 Prob(JB): 0.000507
Kurtosis: 2.990 Cond. No. 1.42
==============================================================================
我々は、最後に述べた品質モデルF検定を決定することによって、T検定は、パラメータが有意であるか否かを判断し、従属変数にエクステントR側を決定するために、引数を説明します。stats_modelのR二乗がより良いフィット感を示し、0.907であった私たちが知っているグラフから、F検定によるさらなるモデルは、T検定を介してパラメータ新聞に加えて、このように除去新聞特徴、及びそのモデルを再構築します。
stats_model1 = sfa.ols('sales~ TV + radio',data = train).fit()
print(stats_model1.summary())
OLS Regression Results :
==============================================================================
Dep. Variable: sales R-squared: 0.907
Model: OLS Adj. R-squared: 0.905
Method: Least Squares F-statistic: 761.9
Date: Wed, 19 Jun 2019 Prob (F-statistic): 1.50e-81
Time: 22:41:35 Log-Likelihood: -297.40
No. Observations: 160 AIC: 600.8
Df Residuals: 157 BIC: 610.0
Df Model: 2
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
Intercept 14.2175 0.124 114.754 0.000 13.973 14.462
TV 3.7820 0.124 30.401 0.000 3.536 4.028
radio 2.8766 0.124 23.123 0.000 2.631 3.122
==============================================================================
Omnibus: 13.633 Durbin-Watson: 2.040
Prob(Omnibus): 0.001 Jarque-Bera (JB): 15.256
Skew: -0.756 Prob(JB): 0.000487
Kurtosis: 3.000 Cond. No. 1.05
==============================================================================
linear_modelのsklearnのモデルを構築することにより、その後、販売= 3.7820tv + 2.8766radio + 14.2175:式のように書くことができるので、テストに合格したstats_model1。
#数据预处理
x = data.iloc[:,:-2]
y = data.iloc[:,-1:]
x = (x-x.mean())/x.std()
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.2,
shuffle = True,random_state = 0)
#sklearn的最小二乘法
lr = LinearRegression()
lr.fit(x_train,y_train)
result_lr = lr.predict(x_test)
print('r2_score:{}'.format(r2_score(y_test,result_lr))) #R 方
print('coef:{}'.format(lr.coef_))
print('intercept:{}'.format(lr.intercept_))
r2_score:0.8604541663186569
coef:[[3.82192087 2.89820718]]
intercept:[14.03854759]
sklearnは= 3.8279tv + 2.8922radio + 14.0385販売のためのモデル式を構築しました。
要件パラメータ最小二乗法により、次に最適解、最小二乗法を解決するためのカスタム関数、
それは行列演算を伴うため、このように行列形式に設定された第1データを始めます。
#手写最小二乘法
def ols_linear_model(x_train,x_test,y_train,y_test):
x_train.insert(0,'b',[1]*len(x_train)) #为了运算的方便,将x0设为1
x_test.insert(0,'b',[1]*len(x_test))
x_train = np.matrix(x_train)
y_train = np.matrix(y_train)
x_test = np.matrix(x_test)
#下面涉及到矩阵的求逆,因此先判断是否可逆
if np.linalg.det(x_train.T*x_train) == 0:
print('奇异矩阵,不可逆')
else:
#最优参数求解
weights = np.linalg.inv(x_train.T*x_train)*x_train.T*y_train
#预测
y_predict = x_test*weights
print('r2_score:{}'.format(r2_score(y_test,y_predict)))
print('coef:{}'.format(weights[1:]))
#因为x0为1,因此第一个参数就是截距
print('intercept:{}'.format(weights[0]))
#结果
ols_linear_model(x_train,x_test,y_train,y_test)
r2_score:0.860454166318657
coef:[[3.82192087]
[2.89820718]]
intercept:[[14.03854759]]
販売= 3.8219tv + 2.8982radio + 14.0385建設手書き最小二乗モデル式。手書きは、最小二乗法により、我々は、xがフルランク行列でない場合は何も解決されない不可逆的なXTXが、それは、最小二乗法によって最適解を見つけることができない最小二乗法の欠点を見ることができます。勾配降下法 - 最適化アルゴリズムを持つようにします。
バッチ勾配降下アルゴリズム、確率的勾配降下法及び小バッチ勾配降下法:データセットで使用されるパラメータの数を分けることができる勾配降下更新するたび。
- バッチ勾配降下:全データセットを用いて、各更新パラメータ(すべて)
- 確率的勾配降下法:のみ1つのデータセットを使用して、各更新パラメータ、(1)
- 小バッチ勾配降下:各更新パラメータ、データセット(1 <NUM <全て)の部分を使用して
#批量梯度下降:
def gradient_desc(x_train, y_train,x_test,alpha, max_itor):
x_train = np.array(x_train)
x_test = np.array(x_test)
y_train = np.array(y_train).flatten()
theta = np.zeros(x_train.shape[1])
episilon = 1e-8
iter_count = 0
loss = 10
#当损失函数达到阈值或者达到最大迭代次数停止循环
while loss > episilon and iter_count < max_itor:
loss = 0
iter_count+=1
#梯度(使用训练集所有数据)
gradient = x_train.T.dot(x_train.dot(theta) - y_train)/ len(y_train)
theta = theta - alpha * gradient
#损失函数
loss = np.sum((y_train - np.dot(x_train, theta))**2) / (2*len(y_train))
y_predict = x_test.dot(theta)
print('r2_score:{}'.format(r2_score(y_test,y_predict)))
print('coef:{}'.format(theta[1:]))
print('intercept:{}'.format(theta[0]))
#结果
gradient_desc(x_train, y_train,x_test,alpha=0.001, max_itor=10000)
r2_score:0.8604634817515153
coef:[3.82203058 2.8981221 ]
intercept:14.037935836020237
= 3.8220tv + 2.8981radio + 14.0379販売のためのモデル式の構築。バッチ勾配法を手書きドロップは、私たちは、その欠点は、各更新パラメータは、トレーニングセット一度データの量が多く、非常に長い計算時間で、トレーニングデータセットのすべてを使用する必要がありますということです見ることができます。確率的勾配降下法 - だから、最適化アルゴリズムがあります。
#随机梯度下降:
def s_gradient_desc(x_train, y_train,x_test,alpha, max_itor):
x_train = np.array(x_train)
x_test = np.array(x_test)
y_train = np.array(y_train).flatten()
theta = np.zeros(x_train.shape[1])
episilon = 1e-8
iter_count = 0
loss = 10
#当损失函数达到阈值或者达到最大迭代次数停止循环:
while loss > episilon and iter_count < max_itor:
loss = 0
iter_count+=1
rand_i = np.random.randint(len(x_train))
#梯度(使用训练集某一数据):
gradient = x_train[rand_i].T.dot(x_train[rand_i].dot(theta) - y_train[rand_i])
theta = theta - alpha * gradient
#损失函数:
loss = np.sum((y_train - np.dot(x_train, theta))**2) / (2*len(y_train))
y_predict = x_test.dot(theta)
print('r2_score:{}'.format(r2_score(y_test,y_predict)))
print('coef:{}'.format(theta[1:]))
print('intercept:{}'.format(theta[0]))
print('iter_count:{}'.format(iter_count))
#结果
s_gradient_desc(x_train, y_train,x_test,alpha=0.001, max_itor=10000)
r2_score:0.8607601654222723
coef:[3.83573278 2.90238477]
intercept:14.036801544903055
= 3.8357tv + 2.9023radio + 14.0368販売のためのモデル式の構築。確率的勾配降下法を構成することにより、我々は、それが唯一のたびにデータのトレーニングセット更新パラメータに必要という欠点を持って知って、局所最適解を得ることができます。だから、包括的なバッチ勾配降下と確率的勾配降下利点法、勾配降下の少量を与えます。
#小批量梯度下降:
def sb_gradient_desc(x_train, y_train,x_test,alpha,num,max_itor):
x_train = np.array(x_train)
x_test = np.array(x_test)
y_train = np.array(y_train).flatten()
theta = np.zeros(x_train.shape[1])
episilon = 1e-8
iter_count = 0
loss = 10
#当损失函数达到阈值或者达到最大迭代次数停止循环:
while loss > episilon and iter_count < max_itor:
loss = 0
iter_count+=1
rand_i = np.random.randint(0,len(x_train),num)
#梯度(使用训练集某一部份数据):
gradient = x_train[rand_i].T.dot(x_train[rand_i].dot(theta) - y_train[rand_i])/num
theta = theta - alpha * gradient
#损失函数:
loss = np.sum((y_train - np.dot(x_train, theta))**2) / (2*len(y_train))
y_predict = x_test.dot(theta)
print('r2_score:{}'.format(r2_score(y_test,y_predict)))
print('coef:{}'.format(theta[1:]))
print('intercept:{}'.format(theta[0]))
print('iter_count:{}'.format(iter_count))
#结果
sb_gradient_desc(x_train, y_train,x_test,alpha=0.001,num=20,max_itor=10000)
r2_score:0.860623250516056
coef:[3.82871666 2.89894667]
intercept:14.042705519319549
= 3.8287tv + 2.8989radio + 14.0427販売のためのモデル式の構築。
要約すると:
- 状態モデル:販売= 3.7820tv + 2.8766radio + 14.2175
- sklearn:売上高= 3.8279tv + 2.8922radio + 14.0385
- 最小二乗手書き:売上高= 3.8219tv + 2.8982radio + 14.0385
- バッチ勾配降下:売上高= 3.8220tv + 2.8981radio + 14.0379
- 確率的勾配降下:売上高= 3.8357tv + 2.9023radio + 14.0368
- 小バッチ勾配降下:売上高= 3.8287tv + 2.8989radio + 14.0427
- 終わり -
小さなデータテキスト旅団
最新の共有のための右上隅にスタンプ「+懸念」
あなたがそれを好きなら、してください共有または親指