戻る記事の機械学習()

戻る記事の機械学習()

I.概要

回帰は、数学的モデルである特定の変数の間の定量的関係を決定し、未知パラメータを推定するためにデータのセットから開始されます。目的は、数値のリターン目標値を予測することで、その目標は、最高のフィットにデータを方程式を見つけること、および特定の値を予測するために、連続したデータに付されます。回帰方程式を解く、回帰式と呼ばれる求める前記式は、最初のモデルを決定し、最も単純な回帰モデルは、回帰直線状の単純な(例えば、Y = KX + B)であり、それは回帰式の回帰係数(すなわち、KおよびBを計算することです値)。

第二に、線形回帰

線形回帰モデル(数式)は次のように定義されます。\ [F(X)= \ sum_ \リミット1} ^ {N-I = \ omega_ix_i + \オメガO = \オメガO + \ omega_1x_1 + \ + ... + omega_2x_3 \ omega_nx_n \] マトリックスと

ことを示している\(F(X)= XW \) ここで\(X = \開始{bmatrix } 1&X_1およびX_2&...&x_nに関する\端{bmatrix}、W = \ {bmatrix} \ omega_0 \\\ omega_1 \\を始めます。 \\\ \\ omega_n .. \ bmatrix終了{} \)、\ (X- \)増強された特徴ベクトルは、\(Wは\)重みベクトルを増補されます。線形回帰は、拡張重みベクトルを解決するプロセスです。

単純な線形回帰例2.1

増強重みベクトルを見つけるためには、まず私たちが勉強しなければならない問題の代表であるデータの一部を削除し、サンプリングを行わなければなりません。例えば、私は武漢大学近くの価格を予測したい、私が最初に(:から価格データの近年の武漢大学付近の領域を見つける必要があり、世界で部屋)。ここでは一連のサンプル、2次元、すなわち時間と価格(実際には、この2つの要因に加えて、住宅価格、さらに多く、床、居住環境、財産およびその他の関連要因を含むデータのサンプルを、作られた、私たちはそう価格は平均的な価格を参照する必要がありますので、それは)、時間と価格との関係の研究です。だから我々は、デカルト座標系の二次元を構築することができ、横軸は時間、縦軸は平均価格を表します。下図のように:

画像

コードは以下の通りであります:

# -*- coding: utf-8 -*
import numpy as np
import pandas as pd
from datetime import datetime 
from matplotlib import pyplot as plt
import matplotlib.dates as mdates

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus']= False 

x = ['2018-11','2018-12','2019-01','2019-02','2019-03','2019-04','2019-05','2019-06','2019-07','2019-08','2019-09','2019-10']
y = np.array([20128, 20144, 20331, 20065, 20017, 19972, 19902, 19706, 19997, 20057, 20213, 20341])
x = [datetime.strptime(d, '%Y-%m') for d in x]

plt.title("武汉市洪山区平均房价")
plt.ylim((19500, 20500))
plt.ylabel(u'平均房价(元/平方米)')
plt.gca().xaxis.set_major_formatter(mdates.DateFormatter('%Y-%m'))#设置时间标签显示格式
plt.gca().xaxis.set_major_locator(mdates.MonthLocator())
plt.plot(x,y,'.')
plt.xlabel(u'月份(2018.11-2019.10)')
plt.gcf().autofmt_xdate()
plt.show()

ディスプレイは中国のことができない場合は、を参照してください、ほぼ最初の答えを知っています

線形回帰は、Y = KX + B直線フィッティング来るこれらの散乱の形態として解かれます。以下、全ての直線のための青 - 緑サンプル点が装着された存在します。優れている直線を当てはめるの効果?

画像-20191020174321750

直感的に、最初のポイントに直接ブルーラインとリンクに最後の点(実際には、私も実行コード)が、緑の線は、実際互いに直接接続された第5及び最後から二番目の点のポイントは(ありますコード、私はやっていないよ、これはちょうどそう)画像表示に起こります。青色の線の下で最も点、および実質的に等化さ緑色の両側に点線。そこで、我々は、ほぼ青色の線よりも効果を当てはめるの良い緑のラインを考えることができます。これは高校の数学(物理学)、多くの場合、均等に直線の両側に分布するサンプルフィットポイントを作るためにするときの話である(明らかに誤ったデータポイントを廃棄するというルールがあります)。

線形回帰誤差2.1

線形回帰、我々はそれがどのように最高のフィットラインを決定するために、ベストフィットラインを見つけることがされていませんしたいですか?ここでは、エラーの概念---リードを持っています。ジュニア物理誤差を測定値と真の値、回帰分析との間の差として定義される、我々は実際の値を減算することにより、粗誤差予測値を定義することができ、数学的に表される\ [E = y_a-y_p(実際表します、pは)\]予測を表し、\ (Y_A \)は、サンプル点の縦座標であり、\(y_pは\)縦軸に対応するライン上の点です。ソリューションベストフィットライン、エラーであるとこと(実際には、線形回帰によって説明ユークリッド距離誤差として定義され、より正確に、直線ラインまでの最小ユークリッド距離が。ように、全てのサンプル点を見出されます)\(\ sum_ \制限{iは ^ ne_i \ = 1}) 最小線中。線形回帰は、我々は、損失関数を使用する(J(\)W)\通常、我々は損失関数としての平均二乗誤差を使用して、エラーと大きさを測定する、ように数学的に表される(J(W)= \ \ cfrac {1 N-} {} \ sum_ \制限。1} ^ {N-Iは、=(Y_A-y_p)^ 2 \) 平均二乗誤差のために、我々は、一般的に、最小二乗法を用いて、損失関数を最小化します。

おすすめ

転載: www.cnblogs.com/liyier/p/12516646.html