簡単スタートの機械学習 - 線形回帰戦闘

小さなテキスト|公共のツアーの小さなテキストデータの数

私たちは、この期間は戦闘の確かに待望の作品です、以上の導入線形回帰の理論的な部分に入れています!Stasmodelsパケットは、次の最小二乗法から、線形回帰を達成するために、最小二乗法、バッチ勾配降下アルゴリズム、確率的勾配降下法と確率的勾配降下法などの少量skleran。以下の最初のリコール、いくつかの重要な式:

損失関数:[公式]
最適化パラメータの最小二乗法:[公式]
最適化パラメータの勾配降下法:[公式]

次の方法は、いくつかの実装がいくつかが来ることを線形回帰式に基づいています言及します!

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
import statsmodels.formula.api as smf

以下のようなデータの外観を見てください?これは3の特徴とラベルデータセットで構成されています。また、いくつかの影響をもたらすでしょう、その後のモデリングのための3つの異なる固有値の統計的分布によって発見。まず、勾配降下の速度に影響を与えます;第2の重み、例えば、テレビの特徴値を適切なサイズに影響を与えます、最大値は296で、平均値は147で、5倍以上のラジオがいっぱいです、テレビにつながるであろうラジオよりもはるかに大きな重量、極端なだけでテレビに依存販売の価値を考えること。前のデータを前処理するためのモデルの必要性を構築することに、この状況を回避するには、データがどこZスコア法を処理します!

data = pd.read_csv('./Desktop/Advertising.csv',sep = ',')
print(data.describe())
            TV       radio   newspaper       sales
count  200.000000  200.000000  200.000000  200.000000
mean   147.042500   23.264000   30.554000   14.022500
std     85.854236   14.846809   21.778621    5.217457
min      0.700000    0.000000    0.300000    1.600000
25%     74.375000    9.975000   12.750000   10.375000
50%    149.750000   22.900000   25.750000   12.900000
75%    218.825000   36.525000   45.100000   17.400000
max    296.400000   49.600000  114.000000   27.000000

#将数据集分成训练集与测试集,并对训练集进行预处理
train,test = train_test_split(data,test_size = 0.2,shuffle = True,random_state = 0)
train.iloc[:,:-1] = (train.iloc[:,:-1]-train.iloc[:,:-1].mean())/train.iloc[:,:-1].std()

さらに、モデリングプロセスの後に特徴量を用いて、上記の代表的な各特徴の対応するパラメータは、各特徴量の重要性重みを前記しました!したがって、我々は便利な機能をスクリーニングする値を重み付けすることができ、なげなわ回帰(小さな重みが)この原則特徴選択に基づいています。機能自体の一部が他の特性よりも重要であるのであれば、我々はその後、ローカルに線形回帰を加重されるモデリングを、その重量を増やすために進めることができます。

:局所線形回帰パラメータ最適解重み付け[公式]Wはそれぞれの機能に重みを加えること、重み行列です。

しかし、多くは、最初にここに拡大し、モデルの線形最小二乗法は、最初statsmodelsパッケージから構成されています。

#statsmodels包、最小二乘法
stats_model = smf.ols('sales~ TV + radio + newspaper',data = train).fit()
print(stats_model.summary())
OLS Regression Results :                           
==============================================================================
Dep. Variable:                  sales   R-squared:                       0.907
Model:                            OLS   Adj. R-squared:                  0.905
Method:                 Least Squares   F-statistic:                     505.4
Date:                Wed, 19 Jun 2019   Prob (F-statistic):           4.23e-80
Time:                        22:41:19   Log-Likelihood:                -297.29
No. Observations:                 160   AIC:                             602.6
Df Residuals:                     156   BIC:                             614.9
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     14.2175      0.124    114.463      0.000      13.972      14.463
TV             3.7877      0.125     30.212      0.000       3.540       4.035
radio          2.8956      0.132     21.994      0.000       2.636       3.156
newspaper     -0.0596      0.132     -0.451      0.653      -0.321       0.202
==============================================================================
Omnibus:                       13.557   Durbin-Watson:                   2.038
Prob(Omnibus):                  0.001   Jarque-Bera (JB):               15.174
Skew:                          -0.754   Prob(JB):                     0.000507
Kurtosis:                       2.990   Cond. No.                         1.42
==============================================================================

我々は、最後に述べた品質モデルF検定を決定することによって、T検定は、パラメータが有意であるか否かを判断し、従属変数にエクステントR側を決定するために、引数を説明します。stats_modelのR二乗がより良いフィット感を示し、0.907であった私たちが知っているグラフから、F検定によるさらなるモデルは、T検定を介してパラメータ新聞に加えて、このように除去新聞特徴、及びそのモデルを再構築します。

stats_model1 = sfa.ols('sales~ TV + radio',data = train).fit()
print(stats_model1.summary())
OLS Regression Results :                           
==============================================================================
Dep. Variable:                  sales   R-squared:                       0.907
Model:                            OLS   Adj. R-squared:                  0.905
Method:                 Least Squares   F-statistic:                     761.9
Date:                Wed, 19 Jun 2019   Prob (F-statistic):           1.50e-81
Time:                        22:41:35   Log-Likelihood:                -297.40
No. Observations:                 160   AIC:                             600.8
Df Residuals:                     157   BIC:                             610.0
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     14.2175      0.124    114.754      0.000      13.973      14.462
TV             3.7820      0.124     30.401      0.000       3.536       4.028
radio          2.8766      0.124     23.123      0.000       2.631       3.122
==============================================================================
Omnibus:                       13.633   Durbin-Watson:                   2.040
Prob(Omnibus):                  0.001   Jarque-Bera (JB):               15.256
Skew:                          -0.756   Prob(JB):                     0.000487
Kurtosis:                       3.000   Cond. No.                         1.05
==============================================================================

linear_modelのsklearnのモデルを構築することにより、その後、販売= 3.7820tv + 2.8766radio + 14.2175:式のように書くことができるので、テストに合格したstats_model1。

#数据预处理
x = data.iloc[:,:-2]
y = data.iloc[:,-1:]
x = (x-x.mean())/x.std()
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.2,
                                      shuffle = True,random_state = 0)

#sklearn的最小二乘法
lr = LinearRegression()
lr.fit(x_train,y_train)
result_lr = lr.predict(x_test)
print('r2_score:{}'.format(r2_score(y_test,result_lr)))  #R 方
print('coef:{}'.format(lr.coef_))
print('intercept:{}'.format(lr.intercept_))
r2_score:0.8604541663186569
coef:[[3.82192087 2.89820718]]
intercept:[14.03854759]

sklearnは= 3.8279tv + 2.8922radio + 14.0385販売のためのモデル式を構築しました。

要件パラメータ最小二乗法により、次に最適解、[公式]最小二乗法を解決するためのカスタム関数、

それは行列演算を伴うため、このように行列形式に設定された第1データを始めます。

#手写最小二乘法
def ols_linear_model(x_train,x_test,y_train,y_test):
    x_train.insert(0,'b',[1]*len(x_train))      #为了运算的方便,将x0设为1    
    x_test.insert(0,'b',[1]*len(x_test))
    x_train = np.matrix(x_train)
    y_train = np.matrix(y_train)
    x_test = np.matrix(x_test)

#下面涉及到矩阵的求逆,因此先判断是否可逆
    if np.linalg.det(x_train.T*x_train) == 0:       
        print('奇异矩阵,不可逆')
    else:
#最优参数求解
        weights = np.linalg.inv(x_train.T*x_train)*x_train.T*y_train 
 #预测
        y_predict = x_test*weights                    
        print('r2_score:{}'.format(r2_score(y_test,y_predict)))
        print('coef:{}'.format(weights[1:]))
#因为x0为1,因此第一个参数就是截距
        print('intercept:{}'.format(weights[0]))      

#结果
ols_linear_model(x_train,x_test,y_train,y_test)
r2_score:0.860454166318657
coef:[[3.82192087]
 [2.89820718]]
intercept:[[14.03854759]]

販売= 3.8219tv + 2.8982radio + 14.0385建設手書き最小二乗モデル式。手書きは、最小二乗法により、我々は、xがフルランク行列でない場合は何も解決されない不可逆的なXTXが、それは、最小二乗法によって最適解を見つけることができない最小二乗法の欠点を見ることができます。勾配降下法 - 最適化アルゴリズムを持つようにします。

バッチ勾配降下アルゴリズム、確率的勾配降下法及び小バッチ勾配降下法:データセットで使用されるパラメータの数を分けることができる勾配降下更新するたび。

  • バッチ勾配降下:全データセットを用いて、各更新パラメータ(すべて)
  • 確率的勾配降下法:のみ1つのデータセットを使用して、各更新パラメータ、(1)
  • 小バッチ勾配降下:各更新パラメータ、データセット(1 <NUM <全て)の部分を使用して
#批量梯度下降:
def gradient_desc(x_train, y_train,x_test,alpha, max_itor):
    x_train = np.array(x_train)
    x_test = np.array(x_test)
    y_train = np.array(y_train).flatten()
    theta = np.zeros(x_train.shape[1])  
    episilon = 1e-8
    iter_count = 0
    loss = 10

#当损失函数达到阈值或者达到最大迭代次数停止循环
    while loss > episilon and iter_count < max_itor:   
        loss = 0
        iter_count+=1
#梯度(使用训练集所有数据)
        gradient = x_train.T.dot(x_train.dot(theta) - y_train)/ len(y_train)  
        theta = theta - alpha * gradient 
#损失函数
        loss = np.sum((y_train - np.dot(x_train, theta))**2) / (2*len(y_train)) 

    y_predict = x_test.dot(theta)
    print('r2_score:{}'.format(r2_score(y_test,y_predict)))
    print('coef:{}'.format(theta[1:]))
    print('intercept:{}'.format(theta[0]))

#结果
gradient_desc(x_train, y_train,x_test,alpha=0.001, max_itor=10000)
r2_score:0.8604634817515153
coef:[3.82203058 2.8981221 ]
intercept:14.037935836020237

= 3.8220tv + 2.8981radio + 14.0379販売のためのモデル式の構築。バッチ勾配法を手書きドロップは、私たちは、その欠点は、各更新パラメータは、トレーニングセット一度データの量が多く、非常に長い計算時間で、トレーニングデータセットのすべてを使用する必要がありますということです見ることができます。確率的勾配降下法 - だから、最適化アルゴリズムがあります。

#随机梯度下降:
def s_gradient_desc(x_train, y_train,x_test,alpha, max_itor):
    x_train = np.array(x_train)
    x_test = np.array(x_test)
    y_train = np.array(y_train).flatten()
    theta = np.zeros(x_train.shape[1])  
    episilon = 1e-8
    iter_count = 0
    loss = 10

#当损失函数达到阈值或者达到最大迭代次数停止循环:
    while loss > episilon and iter_count < max_itor:   
        loss = 0
        iter_count+=1
        rand_i = np.random.randint(len(x_train))
#梯度(使用训练集某一数据):
        gradient = x_train[rand_i].T.dot(x_train[rand_i].dot(theta) - y_train[rand_i]) 
        theta = theta - alpha * gradient
#损失函数:
        loss = np.sum((y_train - np.dot(x_train, theta))**2) / (2*len(y_train))   

    y_predict = x_test.dot(theta)
    print('r2_score:{}'.format(r2_score(y_test,y_predict)))
    print('coef:{}'.format(theta[1:]))
    print('intercept:{}'.format(theta[0]))
    print('iter_count:{}'.format(iter_count))

#结果
s_gradient_desc(x_train, y_train,x_test,alpha=0.001, max_itor=10000)
r2_score:0.8607601654222723
coef:[3.83573278 2.90238477]
intercept:14.036801544903055

= 3.8357tv + 2.9023radio + 14.0368販売のためのモデル式の構築。確率的勾配降下法を構成することにより、我々は、それが唯一のたびにデータのトレーニングセット更新パラメータに必要という欠点を持って知って、局所最適解を得ることができます。だから、包括的なバッチ勾配降下と確率的勾配降下利点法、勾配降下の少量を与えます。

#小批量梯度下降:
def sb_gradient_desc(x_train, y_train,x_test,alpha,num,max_itor):
    x_train = np.array(x_train)
    x_test = np.array(x_test)
    y_train = np.array(y_train).flatten()
    theta = np.zeros(x_train.shape[1])  
    episilon = 1e-8
    iter_count = 0
    loss = 10

#当损失函数达到阈值或者达到最大迭代次数停止循环:
    while loss > episilon and iter_count < max_itor:  
        loss = 0
        iter_count+=1
        rand_i = np.random.randint(0,len(x_train),num)
#梯度(使用训练集某一部份数据):
        gradient = x_train[rand_i].T.dot(x_train[rand_i].dot(theta) - y_train[rand_i])/num 
        theta = theta - alpha * gradient
#损失函数:
        loss = np.sum((y_train - np.dot(x_train, theta))**2) / (2*len(y_train))   
   
    y_predict = x_test.dot(theta)
    print('r2_score:{}'.format(r2_score(y_test,y_predict)))
    print('coef:{}'.format(theta[1:]))
    print('intercept:{}'.format(theta[0]))
    print('iter_count:{}'.format(iter_count))

#结果
sb_gradient_desc(x_train, y_train,x_test,alpha=0.001,num=20,max_itor=10000)
r2_score:0.860623250516056
coef:[3.82871666 2.89894667]
intercept:14.042705519319549

= 3.8287tv + 2.8989radio + 14.0427販売のためのモデル式の構築。

要約すると:

  • 状態モデル:販売= 3.7820tv + 2.8766radio + 14.2175
  • sklearn:売上高= 3.8279tv + 2.8922radio + 14.0385
  • 最小二乗手書き:売上高= 3.8219tv + 2.8982radio + 14.0385
  • バッチ勾配降下:売上高= 3.8220tv + 2.8981radio + 14.0379
  • 確率的勾配降下:売上高= 3.8357tv + 2.9023radio + 14.0368
  • 小バッチ勾配降下:売上高= 3.8287tv + 2.8989radio + 14.0427

- 終わり -

小さなデータテキスト旅団

最新の共有のための右上隅にスタンプ「+懸念」

あなたがそれを好きなら、してください共有または親指

 

公開された33元の記事 ウォン称賛30 ビュー30000 +

おすすめ

転載: blog.csdn.net/d345389812/article/details/93206773