アンドリュー・ウ読書ノート[4] - デバッグ推論アルゴリズム

検証テストの最適化

私たちは、音声認識システム、音声入力処理、出力翻訳されたテキストを構築している場合、アルゴリズムは次のようになります。

入力された音声をAと呼ばれ、それは複数の翻訳を有していてもよく、我々は、転写の呼設定、各文Sの転写焦点スコアは機能Sorce有する_A Sorce仮定（S）、_A（S）=をP（S | A）、Sは、正しい翻訳の確率を表します。

Sorce計算するためのいくつかの方法を考える_Aポスト（S）を、我々はSが最大となるように文を見つける必要がある、またはそれがSを最大化するために作るために見つける必要

通常、この転写産物が非常に大きくなることがあり、そのような英語の単語として5000がある、文はNワードがあり、そして可能性がある5000 ^Nは非常に挑戦を見つけることである種、。

我々は最適なSを見つけるための検索アルゴリズムを設計したと、それが最適に発見される保証はありません。

最高が見つからない場合は、2つの可能性があります。

1.検索アルゴリズムはない最適な検索に、問題を抱えています

質問2.スコア関数ではなく、最適解の最高得点

この時点で、我々は問題を特定する必要があり、その後、目標と戦略を見て、どのような種類の問題のその後、メソッドが呼び出されたかを決定するための最適化の検証テスト

我々はS、実際の最適なソリューションは、S *と仮定_OUT我々はSorce計算することができ、最適なソリューションを検索する_A（S *）とSorce _A（S _OUTを、）

Sorce場合は_A（S *）は> Sorce _A（S _OUT）、スコア関数は、問題、改善された検索アルゴリズムの必要性を説明していません。

Sorce場合_A（S *）<Sorce _A（S _OUT）、スコア関数は、問題を説明し、改善する必要があります。

実際のプロジェクトでは、我々は分析をエラーする必要が、すべての間違った分類のサンプルについて、Sorce計算されている_A（S *）とSorce _A（S _OUT）、その後、統計的Sorce _A（S *）> Sorce _A（S _OUT）そしてSorce （S *）<Sorce （S _OUT）割合は、

Sorce場合は_A（S *）は<Sorce _A（S _OUTが）95％を占め、スコア関数は、最適化する必要があるという問題がありました。

たとえば、強化学習のための

あなたは複雑なアクションを実行するためにティーチ航空機に機械学習を使用していると仮定。

以下、実行エンジンオフの場合にはコンピュータ制御の航空機の着陸の遅延写真です。

これはエンジンが壊れた場合でも、飛行の分野における「スピン」戦略と呼ばれ、今でも安全な着陸を確保することができます。

私たちの目標は、航空機が安全に軌道Tに従って上陸し、学習アルゴリズムを使用することです。

あなたは強化学習を使用している場合は、それが可能な軌道Tごとにスコアを与える、報酬関数が存在する必要があり、この機能は賞は、スムーズに着陸、着弾位置、乗客の経験やその他の要因の範囲を考慮する必要が人工的な選択であってもよいれる一般的です良い報酬関数は容易ではないデザイン。

我々は報酬関数があるとし、そして最終的に強化学習を通して、最適な弾道Tを得るが、人間のパイロット選択したトラックと、このトラックはその後、どのように我々は、アルゴリズムを最適化するか、それは多くの、より良い人間に見える、一貫していないのですか？

キーポイントは、R＆LT（T算出される_ヒト）およびR＆LT（T _OUT）

R（T場合_ヒト）> R（T _OUTは）、強化学習アルゴリズムの最適化は、そうでない場合、報酬関数を最適化します

概要

通常のアルゴリズムに拡張、Sorceは損失関数を設計するために、最適解を得るための方法は、アルゴリズム設計の核となるアイデアである勾配降下、このようなアルゴリズム最適化することです

参考文献：

アンドリュー・ウ：の完全翻訳バージョン「機械学習活動。」