03.構造化機械学習プロジェクトW1。機械学習戦略（1）

記事ディレクトリ

リファレンス：
ウーエンダビデオクラスの
 ディープラーニングノート

1.機械学習戦略

モデルのパフォーマンスを改善する方法

さらにデータを収集する
トレーニングセットの多様性（例：猫の識別、さまざまなポーズでの猫の収集、反例）
トレーニング時間が長い
さまざまな最適化アルゴリズム（Adam最適化など）を試す
大きい/小さいニューラルネットワーク
DropOutの正規化を試す
L2正則化を追加してみてください
新しいネットワーク構造（変更されたアクティベーション機能、隠しユニットの数）

あなたはそれを試すことができますが、半年かかり、最終的にそれが間違っているとしたらどうでしょうか？その後、泣く！

どれが効果的で、どれが安全に廃棄できるかを判断する必要があります。

2.直交化

さまざまな調整済み変数の間に結合関係があってはなりません

モデルのパフォーマンスボトルネックの場所を特定し、対応する方法を使用して改善する

早期停止は直交性の低い方法です。
あまりに早く停止すると、トレーニングセットの精度に影響します。同時に、開発セットの精度が向上します。同時に
2つの点に影響します。他の直交制御方法を使用してみてください。

3.単一の数値評価指数

ここに画像の説明を挿入

精度、再現率、F1値（最初の2つの平均）

$\ frac {2} {\ frac {1} {\ text {precision}} + \ frac { 1} {\ text {recall}}} = 2 * \ frac {\ text {precison} * \ text {recall}} {\ text {precison} + \ text {recall}} = \ frac {TP} {T P + \ frac {F N + FP} {2}}$

単一の評価指標
ある単一の実数の評価指標あなたの効率や意思決定の効率を向上させることができますが

4.指標を満たし、最適化する

N個のインジケーターを考えると、最適化インジケーターとしてそれらの1つを選択するのが妥当な場合があります。

そのインジケーターを最適化しようとすると、残りのN-1インジケーターはすべて満足のいくものになります。つまり、特定のしきい値に達している限り、しきい値内のインジケーターのサイズは気になりません。

5.トレーニング/開発/テストセット部門

例：最初の4つの領域のデータは開発セットとして使用され、最後の4つの領域はテストセットとして使用されます

非常に悪い、彼らはおそらく異なる分布からのものです
すべてのデータをランダムにシャッフルして再分割する必要があります

6.開発セットとテストセットのサイズ

初期の機械学習データセットの分割比率
最新の機械学習データセットの分割比

7.開発/テストセットとメトリックをいつ変更すべきか

追加の変更点：
$^（i）≠y（i））}误差：\ frac {1} {\ sum w ^ {（ i）}} \ sum_ {i = 1} ^ {m_ {dev}} w ^ {（i）} \ mathcal {L} \ left \ {\ left（\ hat {y} ^ {（i）} \ neq y ^ {（i）} \ right）\ bigg \} \ right。$