ディープラーニングの分野におけるボトルネックは何ですか?

663601e6cfbd4d5f064d524398cd9302.png

来源:知乎 算法进阶
本文约8000字,建议阅读15分钟
本文从计算机视觉的角度说一下自己对深度学习瓶颈的看法。

近年、ディープラーニングはコンピュータ分野で最も輝かしいスターとなり、主に推論や意思決定の分野で多くの実用化が生まれています。しかし、人間の感情の理解、意識やモチベーションの模倣など、画像、音声、自然言語処理を超えたディープラーニングでより多くの成果を上げるには、多くのより深い問題が関係しており、それらは現在ディープラーニングのブラックボックスとなっています。ルービックキューブが開けません。

作者: マイルストーン

ソース:

https://www.zhihu.com/question/40577663/answer/309571753

私はコンピューター ビジョンに精通しているので、コンピューター ビジョンの観点からディープ ラーニングのボトルネックについての私の見解を話します。

1.ディープラーニングには理論的裏付けが欠けている


ほとんどの記事のアイデアは直感によって提唱されており、その背後にある理論的な裏付けはほとんどありません。効果的なアイデアを実験によって検証することが、必ずしも最適な方向であるとは限りません。最適化問題の sgd と同様に、各ステップは最適ですが、全体的な観点から見ると最適ではありません。

理論的サポートがなければ、コンピュータ ビジョンの分野の進歩は SGD と同様で、効果的ではありますが遅いですが、理論的サポートがあれば、コンピュータ ビジョンの分野の進歩はニュートン法と同じくらい効果的かつ急速になります。

CNN モデル自体には、設定されるレイヤーの数、各レイヤーに設定されるフィルターの数、各フィルターが深さ方向かポイント方向か通常の変換か、フィルターのカーネル サイズの大きさなど、多くのハイパーパラメーターがあります。すぐ。

これらのハイパーパラメータの組み合わせは膨大であり、実験のみで検証することはほぼ不可能です。結局のところ、直感に基づいていくつかの組み合わせを試すことしかできないため、現在の CNN モデルは効果が非常に優れているとしか言えませんが、効果または効率のどちらにしても最適ではありません。

効率を例に挙げると、resnet は非常にうまく機能しますが、計算量が多すぎて効率は高くありません。しかし、resnetの効率が向上することは確かです。resnetには冗長なパラメータや冗長な計算が存在するはずであり、それらの冗長な部分を見つけて削除すれば、自然に効率が向上します。ほとんどの人が使用する最も簡単な方法の 1 つは、各レイヤーのチャネル数を減らすことです。

一連の理論でモデルの能力を推定できる場合、タスクに必要なモデルの能力。そして、タスクに直面したときに、能力に見合ったモデルを使用すると、効果が向上し、効率が向上します。

2. 現場ではますますエンジニア的な思考が進む


ディープ ラーニング自体には理論が欠けているため、ディープ ラーニングの理論を解くのは困難です。ディープ ラーニングのフレームワークはますます愚かになってきています。インターネット上にはさまざまなモデルのオープンソース実装が存在します。現在、業界の多くの人がディープ ラーニングをレゴのように使用しています。 。

課題に直面して、現在の最良のモデルのオープンソース実装を git clone し、これらのモデルのビルディング ブロックの説明書 (つまり、文書) を確認し、どのビルディング ブロックを変更できるか、および構築の順序を変更できるかどうかを考えます。同様に、いくつかの構成ブロックを追加すると効果が向上し、いくつかの構成ブロックを減らすと効率が向上するなど、ブロックは変更できます。

考えた末に実験を行ったところ、実験の効果は良好だったのですが、記事が公開されると実験の効果が期待ほどではなかったので、再度実験してみました。

このプロセス全体は非常にエンジニア的な思考であり、基本的に試行錯誤の感覚と不在についての深い思考に依存しています。理論的な観点からモデルの何が問題なのか、この問題に対応してモデルにどのような改善を加えるべきなのかを考える人はほとんどいません。

極端な例を挙げると、データは実際には 1 次関数ですが、常に 2 次関数でフィッティングしようとします。フィッティング結果が良くない場合は、3 次関数を使用してフィッティングします。 3回、4回失敗したら諦めます。このデータがどのような分布であるかについて考えることはほとんどありませんが、そのような分布に適合する関数はあるのでしょうか? ある場合、どの関数が最適であるでしょうか。

ディープラーニングは科学であるべきであり、より良い結果を得るには科学的思考に取り組む必要があります。

3. 敵対的サンプルはディープラーニングの問題ですが、ディープラーニングのボトルネックではありません


敵対例はディープラーニングの問題ではありますが、ディープラーニングのボトルネックではないと思います。機械学習には敵対的な例もあり、深層学習と比較すると、機械学習には理論的な裏付けがより多くありますが、それでも敵対的な例の問題を解決することはできません。

敵対的サンプルがディープ ラーニングのボトルネックであると私たちが考える理由は、画像が非常に直感的であるためです。私たちが 2 つのほぼ同じ写真を見ると、ディープ ラーニング モデルは最終的に 2 つの完全に異なる分類結果を与え、私たちに大きな影響を与えます。 。

元のカテゴリが A であるフィーチャーの要素の値を変更し、svm の分類を B に変更すると、「このフィーチャーの要素の値を変更したのに、分類結果が正常に変更されました」と不承認になったように感じられます。ああ」。

著者:PENG Bo
https://www.zhihu.com/question/40577663/answer/413331053

個人的には、ディープラーニングの現在のボトルネックはスケーリングにあるのではないかと考えています。はい、そうですよね。

私たちはすでに大量のデータと膨大な計算能力を持っていますが、BP は大規模な並列化が難しいため、大規模なディープ ネットワーク モデル (GB から TB レベルのモデル) をトレーニングするのは困難です。データの並列性が十分でない場合、モデルの並列性を使用すると高速化率が大幅に低下します。多くの改善を加えた後でも、トレーニング プロセスの帯域幅要件は依然として高すぎます。

そのため、nVidia の DGX-2 には V100 が 16 個しかありませんが、250 万で販売されます。同じ総コンピューティング能力をはるかに少ないコストで組み立てることができますが、これほど多くのグラフィックス カードを効率的に使用できるマシンを構築するのは困難だからです。

9a7588240bbdb3d8c6e87f2522e1a61e.jpeg

また、DGX-2 内の GPU は完全には相互接続されていません。

215814f5c74f2776918499d64ce878bd.jpeg

もう 1 つの例は、AlphaGo Zero のトレーニングですが、実際にトレーニングに使用される TPU は少数です。たとえ何万もの TPU があったとしても、それらを効率的に使用してネットワークをトレーニングする方法はありません。

ディープラーニングが頭脳を使わずにマシンを積み重ねることによってトレーニング速度を継続的に向上させることができれば(マイニングがマイニングマシンを積み重ねることができるのと同じように)、超大規模なマルチタスクネットワークを使用してPB EBレベルであらゆる種類のデータを学習できるようになります。 、それで何が達成できるのか 驚くべき効果が得られるでしょう。

次に、現在の帯域幅を確認します。

https://en.wikipedia.org/wiki/List_of_interface_bit_rates

2011 年に PCI-E 3.0 x16 がリリースされ、これは 15.75 GB/s で、現在コンシューマ コンピュータはまだこのレベルにあり、4.0 もまだ出ていませんが、これは誰もがやる気がないからかもしれません (ゲームはそれほど多くの速度を必要としません)帯域幅)。

NVLink 2.0 は 150 GB/秒ですが、大規模な並列化にはまだ十分ではありません。

5b20d12981238163542e6e646c2b4fc5.jpeg

帯域幅は徐々に増加すると言えます。

さて、ここで最も奇妙な質問が来ましたが、これは熟考する価値があると思います。

AI チップは多大な労力を費やしてきたにもかかわらず、依然として帯域幅が制限されているのに、なぜ人間の脳には帯域幅が制限されていないのでしょうか?

私の意見は次のとおりです。

  • 人間の脳の並列化は非常にうまく行われているため、ニューロン間に必要なのは kB レベルの帯域幅だけです。AI チップとアルゴリズムの研究者にとっては学ぶ価値があります。

  • 人間の脳の学習方法は BP の学習方法よりもはるかに荒いため、これほど大規模な並列化が可能です。

  • 人間の脳の学習方法は分散型であり、私の考えではエネルギーベースの方法に近いと思います。

  • 人間の脳の他の特性は、現在の転移学習 + マルチタスク学習 + 継続学習によって模倣できます。

  • 人間の脳は思考を助けるために言語も使用します。言語がなければ、人間の脳が複雑なことを迅速に学習することは困難です。

著者:ジャイアント
https://www.zhihu.com/question/40577663/answer/1974793135

私の研究分野は主に自然言語処理 (NLP) であり、NLP の観点から、私自身の科学研究と実務経験を組み合わせて、深層学習の隆盛と魅力の背後にある 8 つの典型的なボトルネックをまとめます。

1. ラベル付きデータへの高い依存性

周知のとおり、従来の分類、マッチング、シーケンス ラベリング、テキスト生成タスクであっても、画像理解、音声センチメント分析、Text2SQL などの最近のクロスモーダル タスクであっても、ディープ ラーニング モデルが使用される場所には常に、ラベル付きデータへの依存度が高い. .

このため、初期段階やコールドスタート段階ではデータ不足により深層学習モデルの効果が十分に得られません。モデルが新しいことを学ぶには、人間よりも多くの例が必要です。

最近では、低リソースまたはゼロリソースの研究もいくつかありますが(対話生成に関する 2 つの論文 [1-2] など)、一般に、これらの方法は特定の特定の分野にのみ適用可能であり、直接推進するのは困難です。

2. モデルはドメインに依存しており、直接移行するのは困難です

前のトピックの直後、ラベル付けチームやクラウドソーシングを通じて長期反復を通じて大規模なラベル付きデータを取得し、モデルをトレーニングしたところ、ビジネス シナリオが変更されると、モデルの効果は再び急落しました。

または、モデルは紙のデータセット上でのみ良好なパフォーマンスを発揮し、残りのデータでは同様の効果を再現できません。これらは非常によくある質問です。

モデルの転送可能性の向上は、深層学習において非常に価値のあるトピックであり、データのラベル付けのコストを大幅に削減できます。たとえば、私のクラスメートはカートの走行に非常に慣れており、新しい QQ Speed モバイル ゲームがリリースされたので、2 ラウンド後に類推して学習し、最初から始めなくても Xingyao や Chariot に簡単に乗ることができます。最も原始的なドリフト練習。

NLP の事前トレーニング + 微調整手法によりこの問題は軽減されますが、深層学習の伝達性をさらに強化する必要があります。

3. Big Mac モデルには高いリソース要件があります

過去 2 年間、驚くべき効果を持つ巨大なモデルが NLP 分野で頻繁に登場しましたが、それらは一般の研究者の意欲を失わせてきました。数万ドルの事前トレーニング (BERT -> 1.2w$、GPT2 -> 4.3w$) または数百万ドルのコストに関係なく、事前トレーニングの重みの使用には GPU およびその他のハードウェアに対する高い要件があります。

大規模モデルのパラメータ数は指数関数的に増加しているため、BERT (1 億 1,000 万)、T5 (110 億)、GPT3 (1,500 億)、Pangu (2,000 億)... 高性能の小型モデルを開発することも重要な側面です。ディープラーニング、価値の方向性。

幸いなことに、NLP 分野には、TinyBERT[3]、FastBERT[4] などの優れた軽量の作品がいくつかあります。

4. モデルには常識と推論能力が欠けています

被験者が述べたように、現在の深層学習による人間の感情の理解はまだ浅い意味レベルにとどまっており、十分な推論能力がなく、ユーザーの要求を真に理解することはできません。一方で、常識や背景知識をモデルのトレーニングに効果的に統合する方法も、深層学習が克服する必要があるボトルネックの 1 つです。

将来、ディープラーニング モデルは、詩を書いたり、方程式を解いたり、囲碁をしたりするだけでなく、保護者からの短い常識的な質問にも答えることができ、真に「知的」であるとみなされるようになるでしょう。

5. 限られた適用シナリオ

NLP には多くのサブフィールドがありますが、開発の最適な方向性は依然として分類、照合、翻訳、検索であり、ほとんどのタスクの適用シナリオは依然として限定されています。

たとえば、チャットボットは通常、質疑応答システムのボトムアップ モジュールとして使用され、FAQ またはインテント モジュールがユーザーの質問に当てはまらない場合、標準的な擬人化音声で応答します。しかし、チャットボットをオープンな領域に直接適用すると、人工知能から人工精神遅滞に簡単に変化してしまい、ユーザーに嫌悪感を与えてしまいます。

6. 効率的なハイパーパラメータ自動検索スキームの欠如

深層学習の分野には多くのハイパーパラメータがあります。Microsoft の nni[5] などの自動パラメータ調整ツールはいくつかありますが、依然としてアルゴリズム エンジニアの個人的な経験に依存しており、トレーニング時間が長いため、パラメータ検証プロセスには高い時間コストがかかる。

また、AutoML は結果を迅速に得るために依然として大規模な計算能力を必要とするため、計算規模の拡大にも注意を払う必要があります。

7. 一部の論文はコンテスト SOTA のみを対象としています

有名なゲームを SOTA に磨き上げてから記事を投稿するのは、多くの研究者 (私も一度は含みました) の習慣となるでしょう。典型的なパイプラインは次のとおりです。

  • リソースを犠牲にしても、リストを最初の場所までスワイプします。

  • 元に戻り、なぜこの方法がうまく機能するのかを説明し始めます (自己正当化のようなもの)。

もちろん、この方法が良くないということではなく、ランキングを作ることだけを目的にして調査をしてはいけないということです。なぜなら、多くの場合、小数点以下0.XX%のスコアを改善してもあまり意味がなく、既存のディープラーニング開発にメリットをもたらすことは難しいからです。

これは、面接官が「ある競技で良い結果を出す方法」を尋ね、「マルチモード統合」やその他のスタックモデルの方法を聞いて嫌悪感を抱いたことも説明します。実際のシーンではリソースや時間などの要因によって制限されるため、通常はこのようには行われません。

8. あまり解釈できない

最後の点もこの分野でよくある問題で、深層学習ネットワーク全体がブラックボックスのようであり、明確で透明な解釈可能性が欠けています。

たとえば、ジャイアント パンダの写真に少しのノイズ摂動 (敵対的な例に相当) を追加すると、テナガザルとして分類される信頼度が 99.3% も高くなるのはなぜですか?

cd593f7411e599b4de268bdd643c947a.jpeg

一部のモデル (CNN、アテンションなど)によって学習された特徴を視覚化すると、モデルがどのように学習するかを理解するのに役立つ場合があります。以前は、機械学習の分野でも、高次元の特徴の分布を理解するために次元削減手法(t-SNE など) が使用されていました。

深層学習の解釈可能性に関するさらなる研究については、[6] を参照してください。

最近、2018 年チューリング賞受賞者の Bengio、LeCun、Hinton が ACM の招待を受けて集まり、ディープラーニングの基本概念といくつかの画期的な成果をレビューし、ディープラーニングの将来の開発が直面する課題についても話し合いました。

著者: Zhihu ユーザー
https://www.zhihu.com/question/40577663/answer/224699031

いくつかの回答を読んだ後、皆さんが言っていることは非常に合理的だと感じますが、多くの人が言及しているボトルネックは「機械学習」のボトルネックであり、「ディープラーニング」のボトルネックではないといつも感じています。以下にしっかりとお答えします。

ディープラーニング、ディープは見た目であってゴールではありません。ユニバーサル近似理論は、任意の関数に適合させるために必要な隠れ層は 1 つだけであることを証明しており、これは焦点が深くないことを示しています。ディープ ラーニングと従来の機械学習の比較: ディープ ラーニングは学習表現がすべてです。つまり、データの本質的な特性 (表現) は、適切に設計された階層構造を通じて学習されます。

ボトルネックといえば、ディープラーニングも機械学習の一種であり、機械学習そのもののボトルネックもあります。たとえば、データに大きく依存します。それは、真の自己認識を備えた人工知能ではなく、データの「行動知能」です。上記の質問に対する答えは多くのことを物語っています。

それに加えて、いくつかの特有のボトルネックがあります。

  1. たとえば、フィーチャー構造は変更が困難です。データの形式 (サイズ、長さ、カラー チャネル、テキスト辞書形式など) は要求が厳しいものです。トレーニングされた特徴抽出器を他のタスクに移すのはそれほど簡単ではありません。

  2. とても不安定です。たとえば、NLP タスクでテキスト生成 (QA)、画像の注釈付け、その他の作業を行う場合、生成されたコンテンツに圧倒されてしまうことがあります。しかし、多くの場合、それは驚くべきことです。そのため、制御不能であるため、エンジニアリング用途ではあまり広く使用されません。再現率と精度を犠牲にする多くのアプリケーションは、ディープラーニングを使用して実装することができません。そうしないと、危険にさらされる可能性があります。対照的に、ルールベースの方法ははるかに信頼性が高くなります。少なくとも、何か問題が発生した場合はデバッグできます。

  3. ホットフィックスは難しく、何か問題が発生した場合は基本的に再パラメータトレーニングに依存します。申請プロセスでは多くの潜在的な問題が発生する可能性があります。

  4. ディープモデルの最適化は個人の経験に大きく依存します。世界三大形而上学:西洋占星術、東洋の周易、ディープラーニング。

  5. モデルの構造はますます複雑になり、さまざまなシステムを統合することがますます困難になってきています。あたかも超兵士が常に育成されているかのようですが、彼らは超軍隊を形成するための言語を話せません。

  6. 機密情報の問題。トレーニング モデルで使用されるデータが機密化されていない場合、いくつかの方法で機密情報を試すことができます。

  7. 攻撃の問題。Adversarial Sample の存在が確認されました。いくつかの敵対的な例を作成すると、既存のアルゴリズムが直接破壊される可能性があります。しかし、敵対的サンプルの生成は、特徴抽出がデータの流れの特性を学習していないという事実によって引き起こされているように感じられます。言い換えれば、ある程度の過剰適合がこの問題を引き起こすということです。

  8. しかし、現在の最大の問題は、膨大なデータの需要です。真の分布を学習する必要があるため、データは真の分布からサンプリングされたほんの一部にすぎません。モデルを真の分布に実際に近似させたい場合は、できるだけ多くのデータが必要です。データ量の需要が高まっており、「データはどこから来るのか?」という多くの疑問が生じています。データはどこに存在しますか? データを洗浄するにはどうすればよいですか? データにラベルを付けるのは誰ですか? 大量のデータを使用してトレーニングするにはどうすればよいですか? コスト(設備、データ)と効果をどのようにトレードオフするか?

  9. 第 8 条により拡張されます。大量のデータを必要とするディープラーニングは本当に「人工知能」なのでしょうか?とにかく、信じられないんです。人間の脳は、人間が設計したガイドラインを単に使用して機械学習を特徴空間の分布に導くのではなく、限られた知識でも一般化できます。したがって、本物の人工知能には、データとコンピューティングに対するそれほど大きな需要はないはずです。(これは実際には機械学習の問題です)

つまり、その適用を制限する要因が数多くあります。しかし、楽観的な観点から見ると、問題を恐れることはなく、問題はいつでも解決できます。

著者: 匿名ユーザー
https://www.zhihu.com/question/40577663/answer/311095389

計算グラフはますます複雑になり、設計はますます直感に反してきています。

Dropout/BN/Residual の革新性がトリックであるかトリックであるかに関係なく、少なくとも、見た目の良い直観的な説明をでっち上げて騙すことはできます。また、それらはまったく異なるシナリオやタスクにもうまく適用されます。昨年は、このレベルの新しくて便利なトリックは基本的にありませんでした。錬金術師の人口はどんどん増えていますが、普遍的なトリックは発見されておらず、畑がボトルネックに達しており、収穫しやすい桃が収穫されています。

構造の可能性は活用されていますか?それとも、新しいトリックの温床として、より一般的で代表的なタスクを見つけられなかったのでしょうか? これらは、DL 研究が答える必要がある質問です。現在、その形式は楽観的ではないようです。従来の DL 研究は、数行の変更とさらにいくつかのレイヤーの追加に依存しており、特定のタスクについて高品質の論文を発行することはますます困難になっています。

私の個人的な意見は、DL が本当に人工知能の帽子をかぶりたいのであれば、インテリジェントに変更されたものを実行する必要があるということです。現在では、アプリケーションのシナリオに応じて人為的に NLP/CV/ASR に分割されています。また、人間が知性を獲得する方法と何の共通点もありません。

著者:何志源
https://www.zhihu.com/question/40577663/answer/224656397

ただ自分の考えを話してください。私の意見では、現在の深層学習モデルのほとんどは、ニューラル ネットワークの構築がどれほど複雑であっても、実際には同じことを行っています。

大量のトレーニング データを使用して、目的関数 y=f(x) を適合させます。

x と y は、実際にはモデルの入力と出力です。次に例を示します。

  • 画像分類の問題。このとき、xは一般的に幅×高さ×チャネル番号の画像数値行列、yは分類のカテゴリとなります。

  • 音声認識の問題。x は音声サンプリング信号、y は音声に対応するテキストです。

  • 機械翻訳。x はソース言語の文、y はターゲット言語の文です。

そして、「f」は、CNN、RNN、LSTM、Encoder-Decoder、Encoder-Decoder with tentionなどの深層学習のモデルを表します。従来の機械学習モデルと比較して、ディープラーニングのモデルには通常、次の 2 つの特徴があります。

  • モデルには大容量と多くのパラメータがあります。

  • エンドツーエンド(エンドツーエンド)。

GPU コンピューティング アクセラレーションの助けを借りて、ディープ ラーニングは大容量モデルをエンドツーエンドで最適化し、従来の手法を上回るパフォーマンスを実現することがディープ ラーニングの基本的な方法論です。

では、このアプローチの欠点は何でしょうか? 個人的には以下の点があると考えています。

1. f の学習効率が高くない

トレーニングの効率は 2 つの側面で現れます。1 つは、モデルのトレーニングに時間がかかることです。ご存知のとおり、ディープ ラーニングではトレーニングを高速化するために GPU を使用する必要がありますが、このトレーニング時間ですら数時間または数日かかります。使用されるデータの量が多く、モデルが複雑な場合 (サンプル サイズが大きい顔認識モデルや音声認識モデルなど)、トレーニング時間は数週間、場合によっては数か月単位で計算されます。

トレーニング効率におけるもう 1 つの欠点は、サンプルの利用率が高くないことです。小さな例を挙げると、写真は黄色です。人間の場合、ポルノを見分ける方法を学ぶためにいくつかの「トレーニング サンプル」を見るだけでよく、どの写真が「ポルノ」であるかを判断するのは非常に簡単です。ただし、ディープ ラーニング ポルノ モデルをトレーニングするには、Yahoo のオープン ソース yahoo/open_nsfw など、数万のポジティブ サンプルとネガティブ サンプルが必要になることがよくあります。一般に、深層学習モデルは、同じことを学習するために人間よりもはるかに多くのサンプルを必要とする傾向があります。これは、人間がすでにこの分野に関する多くの「事前知識」を持っているためですが、深層学習モデルについては、対応する事前知識を提供するための統一されたフレームワークが不足しているためです。

では、実際のアプリケーションでは、これら 2 つの問題をどのように解決すればよいのでしょうか? トレーニング時間が長いという問題の場合は GPU を追加することで解決でき、サンプルの使用率の問題についてはラベル付きサンプルを追加することで解決できます。しかし、GPU を追加したり、サンプルを追加したりする場合でも、お金が必要であり、お金が実際のプロジェクトを制限する重要な要素となることがよくあります。

2. 当てはめられた f 自体の信頼性の低さ

私たちは、ディープラーニングのパフォーマンスが従来の手法を大幅に上回る可能性があることを知っています。ただし、そのようなパフォーマンス指標は統計的な意味で使用されることが多く、個々のケースの正確性を保証することはできません。たとえば、99.5% の精度率を持つ画像分類モデルは、10,000 枚のテスト画像のうち 9950 枚を正しく分類することを意味しますが、新しい画像の場合、モデルによって出力される分類の信頼性が非常に高くても、結果が正しいことが保証されます。なぜなら、信頼水準と実際の正解率は本質的に同等ではないからです。さらに、f の信頼性の低さはモデルの解釈性の悪さにも表れており、深いモデルでは通常、各パラメーターの意味を明確に理解することが困難です。

典型的な例は、「生成されたサンプルに対する」です。以下に示すように、ニューラル ネットワークは元の画像を信頼度 60% で「パンダ」として認識しますが、元の画像に小さなノイズを追加すると、ニューラル ネットワークはその画像を確実に「テナガザル」として認識します。 99%のレベル。これは、深層学習モデルが想像されているほど信頼できないことを示しています。

244a66da539634a97f172504c1c1b90b.jpeg

医療分野など一部の重要な分野では、モデルが結果の正しさを保証できず、結果をうまく説明できない場合、モデルは人間の「補助」としてしか機能せず、広く使用することはできません。

3. 「強い人工知能」は実現できるのか

最後の質問は実際には少し形而上学的であり、特定の技術的な問題ではありませんが、議論することに害はありません。

多くの人が人工知能に興味を持っているのは、「強い人工知能」の実現に関心があるからです。深層学習の手法に従うと、x は人間のさまざまな感覚入力、y は人間の発話や行動などの行動の出力、f は人間の知能を表すという形で人間の知能を理解できるようです。では、人間の知能は f を暴力的に当てはめることによって訓練できるのでしょうか? この質問については人によって意見が異なりますが、私の個人的な傾向としては「それはできない」です。人間の知能は、ブラック ボックスを直接取り出すというよりも、概念的な抽象化、類推、思考、創造に似ている可能性があります f. ディープ ラーニング手法は、実際の知能をシミュレートするにはさらなる開発が必要になる可能性があります。

著者:張旭
https://www.zhihu.com/question/40577663/answer/225319588

毛皮について少し学んだ後は、楽しみに参加してください。

1. ディープラーニングには大量のデータが必要ですが、データ量が少なすぎると深刻な過学習が発生します。

2. ディープラーニングは、表形式のデータを扱う場合には明らかな利点はありませんが、現在、コンピューター ビジョン、自然言語処理、音声認識には比較的優れています。表形式データのコンテキストでは、誰もが xgboost などのモデルを使用することに積極的です。

3. 理論的な裏付けは弱く、深層学習の数学的基礎について研究した人はほとんどいません。誰もがモデルウォーターペーパーに群がりました。

4. 前回の記事に引き続き、パラメータ調整は基本的に錬金術モードに陥っており、深層学習のパラメータ調整はすでに形而上学です。

5. ハードウェアリソースの消費が大きく、GPUはすでに必須ですが、価格が高いため、ディープラーニングは金持ちのゲームとも呼ばれます。

6. 特にモバイル アプリケーションのシナリオでは、展開して導入することが依然として困難です。

7. 教師なし学習はまだ難しい 現在、深層学習のトレーニングは基本的に損失関数を最小化する勾配降下法に基づいているため、ラベルが必要です。大量のデータのラベル付けにはコストがかかります。もちろん、急速に発展している教師なし学習ネットワークもありますが、厳密に言えば、GAN と VAE はすべて自己教師あり学習です。

最初の記事がコメントで疑問視されていたのを見て、私の意見を述べたいと思います。比較的強い学習者は、一般に適合不足を心配しません。ニューラル ネットワークには多数のパラメーターがあり、十分なトレーニング ラウンドがある限り、理論的にはトレーニング セットを完全に適合させることができます。しかし、これは私たちが望んでいることではなく、そのようなモデルの一般化能力は非常に低くなります。この結果の理由は、データ量が少なすぎるため、データ全体の背後にある分布を表すことができません。この場合、ニューラル ネットワークはトレーニング セットのデータ サブセットの分布にほとんど無差別に適合することを強制され、結果として過剰適合が発生します。

作者: zzz

https://www.zhihu.com/question/40577663/answer/224756448

ディープラーニングの最大のボトルネックは、次の両方の最大の利点でもあると私は考えています。


1.エンドツーエンドのトレーニング
2.ユニバーサル近似

特長はフィッティング力の強さです。


欠点は、中間フィッティング プロセスをほとんど制御できないことです。学習させたいのは、大量のデータ、より複雑なネットワーク (インセプション モジュール、より多くのレイヤー)、およびより多くの制約 (ドロップアウト、正則化) を通じてのみ可能です。 )、最終的には私たちの認知と同等の判断を学習することが期待されています。

具体的な例を挙げると、画像が人間の顔であるかどうかを判断したいとします。

一般的な判断基準の 1 つは、画像が目 2 つ、鼻 1 つ、口 1 つをカバーしているかどうか、およびそれらの間の位置情報が幾何学的論理に従っているかどうかです。これはまさに従来の dpm の考え方ですが、上記の各ステップ (サブタスク) が間違っている可能性があり、その結果、全体的なパフォーマンスが特に良くなくなる可能性があります。しかし、相対的に言えば、各サブタスクに必要なトレーニング データは少なくなり、中間結果はより直観的になり、最終結果は人間の判断基準を満たします。

しかし、これは深層学習によって行われており、一部の「事前知識」(事前知識)を除いて、ネットワーク構造を通じて定義できます(たとえば、cnn は実際にはデフォルトの特徴量のローカルコヒーレント + 位置不変量の特徴量です) )、その他の認知 ネットワークは、大量のデータを通じてのみ自ら学習することができます。顔のサイズ、位置、回転などのいくつかの単純な要素はデータ拡張によってシミュレートすることもできますが、肌の色、背景パターン、髪の要素については、問題に対するネットワークの理解を広げるために追加のデータを見つける必要があります。とはいえ、ネットワークがどのような高度な知識をまとめているのかは分かりませんが、教師データにはないアーラン神の画像を見せたら、どのような判断を下すのか。

これが、データがディープラーニングにおいて最も重要な項目である理由です。データが十分に多様でない場合、いくつかのハッキリした些細な解決策しか学習しない可能性がありますが、データが十分に包括的であれば、単純な鼻や目よりも表現力豊かな特徴を要約する可能性が高くなりますが、それを理解することはできません。

元のリンク:

https://www.zhihu.com/question/40577663/answer/902429604

編集者: 王晶

26e7a4590d25da0c48fc58f06d4675e8.png

おすすめ

転載: blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/131297629