線形回帰

線形回帰の例 - 住宅価格の予測

3 つの特徴があるとします。 $x_1 =$ #ベッド、 $x_2 =$ #お風呂、 $x_3 =$ #リビング平方フィート、
予測値がすべての入力特徴の重み付き合計であるとします。 $y=w_1 x_1+w_2 x_2+w_3 x_3+b$
权重 $w_1,w_2,w_3$ そしてオフセット $b$ はトレーニングデータから学習されます

線形回帰の一般形式

一般に、与えられたデータ $\mathbf{x}=\left[x_1, x_2, \ldots, x_p\right]$ 、つまり、各サンプルは $p$ 次元の特徴の場合、線形モデルは次のように予測します。

$\hat{y}=w_1 x_1+w_2 x_2+\ldots+w_p x_p+b=\langle\mathbf{ w}、\mathbf{x}\rangle+b$

其实 $\mathbf{w}, \mathbf{x}$ の長さです $p$ 、 $\mathbf{w}$ と $b$ は学習可能なパラメータです。

上記の式をコードで実装する場合は、次のように記述できます。

# weight w has shape (p,1)
# bias b is a scalar
# data x has shape (p,1)
y_hat = (x*w).sum + b

目的関数

のコレクションがあるとします。 $n独立$ グラフ $\mathbf{X}=\left[\mathbf{x}_1, \mathbf{x}_2, \ldots, \ mathbf{x}_n\right]^T\n\mathbb{R}^{n\times p}$ ， $\mathbf{X}$ です $n$ 行 $p$ 列の行列、 $\mathbf{X}$ 入力関数 $\mathbf{y}=\left[y_1, \ldots, y_n\right]^T \in \mathbb{R}^n$ 。

目標: 平均二乗誤差 (MSE) を最小限に抑える

$\begin{aligned } \mathbf{w}^*, \mathbf{b}^* & =\subset{\mathbf{w}, b}{\operatorname{argmin}} \ell(\mathbf{X}, \mathbf{y} , \mathbf{w}, b) \\& =\underset{\mathbf{w}, b}{\operatorname{argmin}} \frac{1}{n}\sum_{i=1}^n\left ( y_i-\left\angle\mathbf{x}_i, \mathbf{w}\right\angle-b\right)^2\end{aligned}$

線形分類

回帰の出力は連続実数ですが、分類の場合、出力はクラスの予測になります。

複数カテゴリの分類:

複数のタイプのオブジェクトを出力したい場合は、ベクトルを出力できます。具体的には、出力の長さを $m$ のベクトル、ベクトル内の $i$ としての分類を反映します。 $i$ の信頼度 (確率) は
$o_i=\left\langle\mathbf{x}, \mathbf{w}_i\right\rangle+b_i を使用できます$ 。 $ああ = ⟨ \times 、 w ⟩ + b$ , ここで、 $\mathbf{x}$ はデータの特徴であり、 $\mathbf{w}_i$ 長い対応するクラス $を表すpのベクトル$ $学習できる$ パラメータ、 $b_i$ このタイプのオフセットを示します。続いてクラス $i$ ，其置信度就是 $o_i$ 。だって $各カテゴリはm$ なので、合計は $m$ 个 $o_i$ 。
标签 $\mathbf{y}=\left[y_1, y_2, \ldots, y_m\right]$ $y_i=1 は$ 1 つだけです $y = 1$ 、その他はすべて $0$ は、ワンホットエンコーディング (ワンホットエンコーディング) であり、ii に属することを示します $クラスi$ 。
$\frac{1}{m}\|\mathbf{o}-\mathbf{y}\|_2^2 を最小化したいと考えています$ 。 $メートル ∥ お - y ∥_{2}$
予測されるカテゴリは $\operatorname{argmax}_i\left\{o_i\right\}_{i=1}^m です。$ 、予測結果が $クラスi$ 、この $i$ 要使得 $o_i$ 最大。

ソフトマックス回帰 (ソフトマックス回帰)

なぜなら私たちの目標はすべてを実現することだから $o$ 和 $y$ 気にしません。 $o$ 、私たちは、真のカテゴリの信頼が十分に大きくて強いことを願うだけです。したがって、モデルを他のクラスを気にせずに正しいクラスに重点を置くために、ソフトマックスを使用することを提案します。

まず、予測スコアを確率に変換する必要があります。 $ああ$ 出力は、負の無限大と正の無限大の間の実数です。これを確率に変換する場合は、0 以上にする必要があり、すべての確率を合計すると 1 になります。

$\hat{\mathbf{y}}=\operatorname{softmax}(\mathbf{o}) \text { ここで } \hat{y}_i=\frac{\exp \left(o_i\right)}{\sum_{k=1}^m \exp \left(o_k\right)}$

O_exp = torch.exp(O)
partition = O_exp.sum(1, keepdim=True)
Y = O_exp / partition

ここでは非線形変化が使用されていますが、それでも線形モデルです。モデルは決定を下すときに最大の $\hat y_iを探しているためです。$ 最大の $o_iに相当$ ，つまり $\operatorname{argmax}_i \hat{y}_i=\operatorname{argmax}_i o_i$

確率を比較したい場合 $\hat y$ 和 $y$ との違いは

$H(\mathbf{y}, \hat{\mathbf{y}})=\sum_i-y_i \ log \left(\hat{y}_i\right)=-\log \hat{y}_y$

だって実際は $y_i$ そのうち 1 つだけが 1 で、残りはすべて 0 であるため、クロスエントロピーは次のように簡略化できます。 $-\log \hat{y}_y$ − $-\log$ は減少関数なので、クロスエントロピーを最小化するには、 $\hat{y}$ $_yとします。$ $y$ 最大。したがって、このモデルは最終的には正しいカテゴリの予測確率のみを考慮し、他の値はあまり考慮しません。

参考文献

3.3 最も単純で最も一般的に使用される線形モデル [Stanford 21 Fall: Practical Machine Learning Chinese Edition]_哔哩哔哩_bilibili

3.1. 線形回帰 — ディープラーニング 1.0.0-beta0 ドキュメントの詳細

https://c.d2l.ai/stanford-cs329p/_static/pdfs/cs329p_slides_4_3.pdf

[機械学習] 線形回帰を再理解する - 1 - 最尤推定_哔哩哔哩_bilibili

【実践的な機械学習】3.3 線形モデル

記事ディレクトリ