回帰アルゴリズムの機械学習(2)

@(回帰アルゴリズムの機械学習(2))

回帰アルゴリズムとは何ですか

  • 教師付きアルゴリズム
  • 説明変数(X)と観測値(従属変数y)との関係
  • 最終結果は連続的なデータ値であり、入力値(属性値)寸法d /数値ベクトルの特性であります

直線回帰

直線回帰

  • 最終的な要件は、θの値が算出されることで、最適な選択アルゴリズム方程式θ値フォーム

  • それは次のように書くことができる
    ここに画像を挿入説明
    ε^(i)は^エラーである場合、同じ平均0、分散と分散の独立が所定値δ^ 2 ^ガウス分布です。
    そのここに画像を挿入説明

尤度関数/対数尤度関数

  • 尤度関数
    (関数は、参照の概念を緩和することができます。https://segmentfault.com/a/1190000014373677は、utm_source =チャネル- ?最も熱いです)
    ここに画像を挿入説明

    注:尤度関数は、実際的な問題は、正規分布の内部で使用され、多くのランダムな現象は、多くの要因に依存しない影響を包括的応答として見ることができる、彼らは正規分布に従う傾向があります。

  • 対数尤度関数

ここに画像を挿入説明

目的関数/損失関数

  • 損失関数は、実際と予測値との間の関係であり、損失関数の最小化により、次式が対数尤度関数を得るために、θの値を決定するために解かれます。ここに画像を挿入説明
  • 損失関数の導関数を取ると、それはゼロに等しく作ることによって、我々が得る:ここに画像を挿入説明
    注:XサンプルX ^(I)^行列、YはY ^(I)^行列であり、行列が必要X ^ Tは、^ Xは可逆的です。

他の一般的な損失関数

ここに画像を挿入説明

ローカル加重回帰 - 損失関数

ここに画像を挿入説明

  • w(i)是权重,它根据要预测的点与数据集中的点的距离来为数据集中的点赋权值。当某点离要预测的点越远,其权重越小,否则越大。常用值选择公式为:
    ここに画像を挿入説明
    该函数称为指数衰减函数,其中k为波长参数,它控制了权值随距离下降的速率。
    注意:使用该方式主要应用到样本之间的相似性考虑。

线性回归的过拟合

  • 为了防止数据过拟合,也就是的θ值在样本空间中不能过大/过小,可以在目标函数之上增加一个平方和损失:
    ここに画像を挿入説明
    其中λ$\sum_{i=1}^{n}$θ^2^~j~为正则项(norm),这里这个正则项叫做L2-norm。

Ridge回归(岭回归)

  • 使用L2正则的线性回归模型就称为Ridge回归(岭回归)
    ここに画像を挿入説明
    Ridge模型具有较高的准确性、鲁棒性以及稳定性。

LASSO回归

  • 使用L1正则的线性回归模型就称为LASSO回归(Least Absolute Shrinkage and Selection Operator)ここに画像を挿入説明
    LASSO模型具有较高的求速度,容易出现稀疏解,即解为0的情况。

Elasitc Net算法(弹性网络算法)

  • 同时使用L1正则和L2正则的线性回归模型就称为Elasitc Net算法(弹性网络算法)
    ここに画像を挿入説明
    既要考虑稳定性也考虑求解的速度,就使用Elasitc Net。

梯度下降算法

  • 目标函数θ求解:
    ここに画像を挿入説明
  • 初始化θ(随机初始化,可以初始为0)
  • 沿着负梯度方向迭代,更新后的θ使J(θ)更小
    ここに画像を挿入説明
    α:学习率、步长

批量梯度下降算法(BGD)

  • 当样本量为m的时候,每次迭代BGD算法中对于参数值更新一次。
  • BGD一定能够得到一个局部最优解(在线性回归模型中一定是得到一个全局最优解)。
  • 计算速度比较慢。
    ここに画像を挿入説明

随机梯度下降算法(SGD)

  • 当样本量为m的时候,SGD算法中对于参数值更新m次。SGD算法的结果并不是完全收敛的,而是在收敛结果处波动的。
  • SGD在某些情况下(全局存在多个相对最优解/J(θ)不是一个二次),SGD有可能跳出某些小的局部最优解,所以不会比BGD坏。
  • SGD由于随机性的存在可能导致最终结果比BGD的差。
  • SGD算法特别适合样本数据量大的情况以及在线机器学习(Online ML)。
  • 注意:优先选择SGD
    ここに画像を挿入説明

小批量梯度下降法(MBGD)

  • 保证算法的训练过程比较快,又保证最终参数训练的准确率。MBGD中不是每拿一个样本就更新一次梯度,而且拿b个样本(b一般为10)的平均梯度作为更新方向。ここに画像を挿入説明

梯度下降法调优策略

  • 学习率的选择:学习率过大,表示每次迭代更新的时候变化比较大,有可能会跳过最优解;学习率过小,表示每次迭代更新的时候变化比较小,就会导致迭代速度过慢,很长时间都不能结束。
  • 算法初始参数值的选择:初始值不同,最终获得的最小值也有可能不同,因为梯度下降法求解的是局部最优解,所以一般情况下,选择多次不同初始值运行算法,并最终返回损失函数最小情况下的结果值。
  • 标准化:由于样本不同特征的取值范围不同,可能会导致在各个不同参数上迭代速度不同,为了减少特征取值的影响,可以将特征进行标准化操作。

Logistic回归

  • 主要是进行二分类预测,也即是对于0~1之间的概率值,当概率大于0.5预测为1,小于0.5预测为0。
  • Logistic/sigmoid函数:
    ここに画像を挿入説明ここに画像を挿入説明
  • 假设:ここに画像を挿入説明
  • 得似然函数:
    ここに画像を挿入説明
  • 回归参数θ(类似梯度下降方法求得):
    ここに画像を挿入説明
  • Logistic回归损失函数(由对数似然函数得来):
    ここに画像を挿入説明

Softmax回归

  • softmax回归是logistic回归的一般化,适用于K分类的问题,第k类的参数为向量θ~k~,组成的二维矩阵为θ~k*n~ 。
  • 本質ソフトマックス関数はベクトル値の各要素が(0,1)の間にある実数の別のK次元ベクトルに(マッピングされる)K次元ベクトル圧縮任意の実数です。
  • ソフトマックスリターン確率関数は次のようになります。
    ここに画像を挿入説明
  • アルゴリズム論
    ここに画像を挿入説明
  • 損失関数
    ここに画像を挿入説明
  • (同様の勾配降下法によって得られる)回帰パラメータ、θ:
    ここに画像を挿入説明

の効果を決定するためのモデル

ここに画像を挿入説明

  • MSEは:二乗誤差は、より0に近いモデルがトレーニングデータをフィット示しています。
  • RMSE:MSE平方根、MSEの役割を持ちます。
  • R2:;最適解が1であり、ランダムモデルの値を予測する場合、負があってもよい;範囲(負の無限大、1]は、値が大きいほど、モデルがトレーニングデータをフィット示している場合、所望の試料における予測値の定数、R2はゼロです。
  • TSS:サンプル間の差を表す総正方形およびTSS(二乗の総和)、分散擬似M倍です。
  • RSS:予測値とサンプル値の間の差を表す二乗RSS(残差平方和)の残差和は、M回のMSEです。

機械学習パラメータの調整

  • 実際には、アルゴリズムのモデル(線形回帰)の様々な懸念しているため、我々はθの値を取得する必要があり、λ、Pの、実際には、一般的にアルゴリズムモデルθを解決することは参加する開発者を必要としない(アルゴリズムが実装されています)、解決するための主たる必要性は、このプロセスが呼び出され、λ及びpの値であるパラメータ調整(hyperparametric)
  • クロスバリデーション:訓練データは、前記データ検証、複数の部分に分割し、最適hyperparametricを得ている:λは、P。等:Aを残し、クロスバリデーション、クロスバリデーションの半分を(デフォルトscikit学習)10倍クロスバリデーション。

おすすめ

転載: www.cnblogs.com/tankeyin/p/12123695.html