エンドツーエンドのディスカッション

出典:ほとんど知っている
著者が著作権を保有。

ディスカッション:

張徐--------------------------------->

端部は、元のデータが入力されたことを意味し、出力が最終結果であるため、画像のピクセルも、オリジナルのRAWデータを直接入力されていないが、ほとんどの画像問題に顕著である元のデータで抽出された特徴、そして、より高次元のデータを、災害の大きさなので、実際には次元削減のプロセスだけで画像のマニュアル抽出の主要な機能のいくつかのオリジナルのアイデアを持っています。
そこで問題は、言及のどのような特性でありますか?
特徴抽出は、例えば、学習アルゴリズムよりもさらに重要なのは、キー例外良いか悪いか、人々の分類に関する一連のデータは、分類結果はセックスがある、あなたが抽出された場合の機能は関係なく、どのように分類アルゴリズム、分類結果があるの、髪の色です良いではないあなたは、髪の長さである機能を抽出した場合、この機能は非常に良いだろうが、それでもミスがあったあなたは、このようなデータの染色体などの強力な機能を、抽出された場合、あなたは基本的に間違って分類を行くことができませんA。
これは、機能が設計するのに十分な経験が必要であることを意味し、それはデータの量を増加させた場合において、ますます困難になってきています。
だから、学ぶために行くことができるネットワーク機能をエンドツーエンドであったので、このステップは介入する人間を必要としない、それらに抽出アルゴリズムを備えています。

YJango ---------------------------->

古典的な機械学習方法の特徴へのヒト前処理生データの事前知識に基づいて、その後の分類を特徴とします。分類結果が良いか悪いかの機能に大きく依存しています。だから、過去の機械学習の専門家に設計上の特徴に費やす時間のほとんどになります。タイムマシンの学習では、より適切な名前の機能エンジニアリングを持っています。

その後、それはあなたがネットワークをクロールする方法を学ぶように、ニューラルネットワークの使用は、より良い結果を特徴とすることが判明しました。だから、表現学習の台頭。より柔軟なデータに適合このようにして。

ネットワークは、別の新しい高さに達し、マルチレベルの認識率の表現学習概念を深めました。深い学習:だから、人々は名前を知っている機械学習に取り組んで聞きます。実際に統一トレーニングと予測ネットワークを用いて抽出されたマルチレベル識別子の特性を指します。

利点の端へ:モデルへの最終出力に元の入力モデルからできるだけ前処理およびその後の処理によって切断は、自動的に複数のデータスペースに基づいて調整することができる、モデルの全体的なフィット感を増します。

音声認識は具体的な例を取ることです。この方法は、一般に、周波数領域の信号に音声信号であり、さらに人間の耳の符号化(エンコード)のMFCC特徴を満たすように処理することができます。畳み込み層は、図を把握する分光特性のために選択することができます。これは、第一の端部の端部に端エンコードに近いです。

しかし、結果は、はい終わりにどのようなこの声をお聞かせすることができます認識されません。DNN-HMMハイブリッドモデルもデコードする必要がある(デコード)DNNは、結果HMMを同定しました。RNN-CTCを達成するためにネットワークの出力層にHMMアラインメントを動作します。第二の端部に端側端までの部分を復号します。

王允---------------------------->

私は@YJangoと同じではありません理解しています。私はそれの私の理解音声認識の範囲内であるについて話しています。

従来の音声認識システム、音響モデル、発音辞書、言語モデルを含む、複数のモジュールから構成されています。前記音響モデルと言語モデルは、トレーニングを必要としています。このような音響モデル学習目標として、これらのトレーニングモジュールは、一般的に独立している独自の目的関数、とそれぞれがボイストレーニングの確率を最大化することで、語学研修の対象モデルは、パープレキシティを最小限に抑えることです。各モジュールは、トレーニング、トレーニング、目的関数で互いを補完することができ、システム全体の性能(通常ワード誤り率WER)からのずれがあるので、訓練されたネットワークは、最適なパフォーマンスよりもしばしば小さいので。

この問題に対処するために、2つの解決策があります

トレーニング終了(エンド・ツー・エンドの訓練は) : 一般的にそのWERや音響モデルを訓練する目的関数の近似に、トレーニング言語モデル、言語と音響モデル一緒にモデルをした後、ウェルに言及します。システム全体の出力は、いわゆる音響モデルのトレーニングを、計算するので、トレーニングを「エンドツーエンド」。このアプローチは、言語モデルまたは独立したトレーニングので、完全に、問題を解決しないことが分かります。
モデルの端部(エンドツーエンドモデル) : システムは、もはや独立した音響モデルである、発音辞書、言語モデルと他のモジュールが、入力端子(又は音声波形特徴量配列)から出力(単語または文字にシーケンス)ニューラルネットワークは、すべてのモジュールの本来の機能を想定するように、直接、ニューラルネットワークに接続されています。EESENの使用CTC典型的な代表として[1]、フォーカス機構を使用して、聞く出席及びスペル[2] 。このモデルは非常に単純ですが、彼は柔軟性のある送ら:取得するには非常に簡単に言語モデルを訓練するために使用される一般的なテキストデータを、しかし、音声テキストデータがエンドモデルを訓練するために使用することはできないとペアになっていません。したがって、外部エンド・モデルは、復号候補(リスコアリング)をランク付けする際に、[1]に記載されているように、出力を調整するために、多くの場合、言語モデルはありません。
「トレーニングの終了」および「エンドツーモデル」を区別するために、より良い[2]導入部で議論があります。

そして@YJango異なる答えは、私が思うに、モデルの本質的な特徴も特徴的な配列(MFCCなど)することができ、入力機種の終わりされていない「入力音声波形(生波形)があります」。最後は、音響モデルのモデル、発音辞書の本質的な特徴である、これらの伝統的な言語モデルが一緒モジュール。

参考文献:
[1] Yajieミャオ、モハメドGowayyed、フロリアンMetze、「EESEN:エンドツーエンド音声認識ディープRNNモデルとWFSTベースの復号化を使用して、」PROCに。ASRU 2015
[2]ウィリアム・チャンら。「出席し、聞くとスペル:大語彙会話音声認識のためのニューラルネットワークを、」PROCに。ICASSP 2016。

陳Yongzhi -------------->

私は、標的検出の観点から、エンド・ツー・エンドの私の理解を述べました。

非エンドツーエンドの方法:
現在の物体検出フィールド、ベスト、又は最も影響力RCNNフレームワークは、この方法は、次に、画像中の対象(領域提案)を含むことができる候補ブロックを抽出するために必要であることCNNが候補ボックスが実際にどんな目標を持っているかどうかを判断することができCNNモデルにこれらの候補の入力ボックス、およびターゲットの種類はい。私たちは、多くの場合、これはターゲットマークの矩形枠の位置と大きさと画像全体に、次のような、結果を見て、私たちに教えて何のオブジェクトボックスはい。
これは実際には、二つの部分、一つのターゲットの位置とサイズ、および第2カテゴリーターゲットが存在し、プロセスをマーク。アルゴリズムを通して、標的の位置およびサイズは、実際領域の提案の処理に含まれ、CNNで決定されるタイプを決定します。これは実際には、二つの部分、一つのターゲットの位置とサイズ、および第2カテゴリーターゲットが存在し、プロセスをマーク。アルゴリズムを通して、標的の位置およびサイズは、実際領域の提案の処理に含まれ、CNNで決定されるタイプを決定します。

エンドツーエンドの方法:
一般的な代表的な有名YOLOエンドツーエンドのアプローチです。方法上記、効果はCNNの性質上、ないポジショニングの機能を分類するために使用されます。この方法は、CNNネットワークによってのみYOLOは、ターゲットを見つけて識別するために達成することができるされています。すなわち、CNNネットワーク、すべてのターゲットの直接出力画像カテゴリと目的地までの原画像が入力されます。このメソッドは、メソッドのエンド・ツー・エンド(エンドツーエンド)、私のオリジナル画像の入力端、私が欲しいの出力の一端です。のみにかかわらず、すべての中間段階の、入力と出力を気に。

ナンヤン---------------------->

異なるアプリケーションシナリオにおいてエンド・エンドは、視野ごとに異なる特定の解釈を有する、マシンビジョンに基づいて、エンドエンドの制御のために使用される用語で、特定のパフォーマンスは、原画、ニューラルネットワークの出力にニューラルネットワーク入力それは、次のような制御命令、(マシンの直接制御)です。

  1. NVIDIAは、エンドエンドの自動操縦のCNNs、画像を入力し、直接出力操舵角に基づきます。ビデオエフェクトBaqunの観点から、実際には、このシステムは、唯一の本当の自動操縦の間に大きなギャップで、シンプルなフォローレーンを行うことができます。明るいスポットは自動運転の分野におけるエンド・エンドの実現可能性、および増強のためのデータセットを確認しました。リンクします。https://devblogs.nvidia.com/parallelforall/deep-learning-self-driving-cars/

  2. Googleの論文:ディープ学習と大規模データ収集とロボット把握するための学習手と目のコーディネーションは、エンドエンドの学習とみなすことができます:入力画像、出力制御ロボット移動コマンドは、アイテムを取得します。します。https://arxiv.org/pdf/1603.02199v4.pdfこの論文は次のように、お勧めです

  3. DeepMind神は深い強化学習による人間レベルの制御として、実際には、エンド・エンド、山を学習するための深さ拡張として分類することができ、それは価値が学習は次のとおりです。http://www.nature.com/nature/journal/v518/n7540/full /nature14236.html

  4. プリンストン大学は自動操縦とベースの伝統的なエンド・エンド・モデルの間で、絵の中に入り、ディープドライビングプロジェクトを持っている、いくつかの有用なアフォーダンスの出力は、このような体の姿勢として、(本当に...適切な単語を翻訳する方法がわからない)、および前次に、車間距離、沿道からの距離、およびそのような加速、ブレーキ、ステアリングなどの命令を駆動する特定の式で必要なデータを使用。リンク:のhttp://deepdriving.cs.princeton.edu/

要するに、エンドエンドは新しいものではありません、またそれは、究極の目標の考え方を直接出力する生データのちょうど直接入力、魔法の事です。

脂肪は脂肪ではありません------------------------>

実際には、共同学習。

解決すべき問題のエンドツーエンドの性質は(生機能、いわゆる何もない)、多段階または多段階です。学習の段階ならば、第一段階の最適解は、第二段階は、最適な達成することを保証するものではありません。エンドツーエンドの最適化及び最終段階の最適解を保証するために、それらを一緒に積み重ねます。

石フライ-------------------------->

多層ニューラルネットワークは、ネットワークは、これらの設計構成の一部によってそれ以前に必要な手動の介入作業を特徴とんすることができ、任意の非線形関数に結合され、そしてそのような今層を構成することができ、分類器、回帰、ニューラルネットワークなど、適切な機能を構成することが示されているのでこれらの機能を実現するためのパラメータ、あまり人工的な設定なしに、最終的な出力まで全入力、最終的な出力指標生データからに。

おすすめ

転載: www.cnblogs.com/superfly123/p/11573333.html