[論文の精読] CSET - Big AI Potential of Small Data

[論文の精読] CSET - Big AI Potential of Small Data

【原文】 : スモールデータの大きなAIの可能性

著者情報】: Husanjot Chahal, Helen Toner, Ilya Rahkovsky

Husanjot Chahal は CSET のリサーチ アナリスト、Helen Toner は戦略ディレクター、Ilya Rahkovsky はデータ サイエンティストです。

获取地址:https://cset.georgetown.edu/publication/small-datas-big-ai-potential/

ブロガーのキーワード:小さなデータ、アプリケーション分析

推奨される関連論文:

- 无

概要:

このプロブレム ブリーフでは、「スモール データ」AI アプローチの概要と概要を説明します。これは、ラベル付けされたデータがほとんど、またはまったく利用できない状況に対処し、現実世界から収集された大量のデータセットへの依存を減らすのに役立つ方法です。人工知能に関する従来の理解によれば、データは重要な戦略的リソースであり、最先端の人工知能技術の有意義な進歩には大量のデータが必要です。このように「ビッグ データ」を強調しすぎると、このホワイト ペーパーで説明する方法の存在が無視され、トレーニングに大規模なデータセットを必要としない方法の可能性がわかりにくくなります。

分析を 2 つの部分に分けます。パート I では、主要なスモール データ アプローチを紹介し、分類します。これは、転移学習、データ ラベル付け、人工データ、ベイズ法、強化学習の 5 つのカテゴリに大まかに分類し、それらが重要な理由を示します。そうすることで、スモールデータ手法を使用することの潜在的な利点を指摘するだけでなく、データがいつどのように AI に役立つかについて、技術に詳しくない読者の理解を深めることも目的としています。第 2 部では、元の CSET データセットを利用し、いくつかの探索的調査結果を提示し、科学研究におけるスモール データ手法の現在および予測される進歩を評価し、どの国が先導しているかの概要と、この研究の主な資金源を提供します。私たちの調査結果に基づいて、次の 4 つの重要なポイントを結論付けました。

a) AI はビッグ データと同義ではありません。さまざまなスモール データ設定で使用できる代替手段がいくつかあります。

b) 転移学習に関する研究は急速に成長しており (強化学習のより広く、よりよく知られている分野よりもさらに速く)、このアプローチは現在よりも将来的にうまく機能し、より広く使用される可能性があります。

c) 米国と中国はスモール データ手法で激しい競争を繰り広げており、米国は強化学習とベイジアン法の 2 つの最大のカテゴリでリードしています。一方、中国は転移学習の小さいながらも成長しているカテゴリを持っており、最も急速に成長しているカテゴリの最先端です。

d) 当面の間、転移学習は、AI 分野全体の投資パターンに比べてスモール データ メソッドへの投資の割合が小さいため、米国政府の資金調達の有望なターゲットになる可能性があります。

序章:

従来の通念では、最先端の AI は膨大な量のデータに依存しています。この AI の概念によれば、データは重要な戦略的リソースであり、国 (または企業) がアクセスできるデータの量は、AI の進歩の重要な指標と見なされます。AI におけるデータの役割に関するこの理解は、完全に不正確というわけではありません。現在の多くの AI システムは、大量のデータを使用しています。しかし、政策立案者は、これがすべての AI システムにとって永遠の真実であると考えると、データを過度に強調すると、その存在が無視され、ラベル付けされた大規模なデータセットや現実世界の相互作用から収集されたデータを必要としないいくつかの AI アプローチの可能性が過小評価されます。このホワイト ペーパーでは、これらの方法を「スモール データ」方法と呼びます。

「小さなデータ」が意味するものは明確なカテゴリではないため、単一の正式で一貫した定義はありません。学術記事では、検討中のアプリケーション ドメインに関連して小さなデータについて議論し、多くの場合、データのキロバイトまたはメガバイト対テラバイトなど、サンプルのサイズに関連付けます。人気のあるメディア記事では、さまざまな要因に関連して小さなデータを説明しようとしています。多くの場合、データは、その可用性と人間の理解のように、一般的なリソースとして、または特にビジネス上の意思決定のためにアクセス可能で、有益で、実用的なデータの量と形式として扱われることになります。ただし、データはかけがえのないものであり、さまざまなドメインの AI システムには、目前の問題に応じて、さまざまな種類のデータとさまざまな種類の方法が必要です。

この調査では、政策立案者の観点から小さなデータについて説明します。政府関係者は、現実世界の相互作用の性質にアクセスできること、および気候監視データ、地質調査、国境管理、社会保障などの膨大な量のデータを収集できることから、AI の分野で潜在的に強力なプレーヤーと見なされることがよくあります。 、有権者登録、車両とドライバーの記録など。AI の競争力に関する全国的な比較のほとんどは、人口が多く、データ収集能力が高く、プライバシー保護が欠如していることを理由に、中国はより多くのデータにアクセスできるため、独自の優位性があることに同意しています。この状況を一般に想定されているよりも現実的でないようにするテクニック。

最後に、政府機関は膨大な量のデータをデジタル化、クリーニング、およびラベル付けできる場合にのみ、AI 革命の恩恵を受けると主張されることがあります。この提案は理にかなっていますが、AI のすべての進歩がこれらの条件に依存していると示唆するのは不正確です。この信念は、 AI

以降の記事では、スモール データ アプローチを使用することの潜在的な利点を指摘するだけでなく、データがいつ、どのように役立つかについて、技術に詳しくない読者の理解を深めることも目的としています。この入門書は、スモール データの方法、または「ビッグ データ」への依存を最小限に抑えることができる方法の入門書と見なすことができます。この分析は 2 つの部分に分かれています。最初の部分では、「スモール データ」メソッドとは何か、これらのメソッドの一部を形成するカテゴリ、およびそれらが重要な理由について技術的に説明します。これは、セクション II でプロットされたデータの分析の概念的な基礎を提供します。2 番目の部分は、元の CSET データセット、特に世界の学術成果の 90% 以上をカバーする統合された学術文献コーパスからのもので、研究の進歩、国家競争力、および資金調達の 3 つの柱に関する小さなデータに対するサポートを示しています。 . これらの方法を通じて、現在および予測される科学研究の進歩を調査し、どの国が先導しているか、研究中の研究の主な資金源を特定しようとします。調査結果に基づいて、4 つの重要なポイントをまとめます。

ここに画像の説明を挿入

「スモールデータ」メソッドは次のように分類されます。

この論文の研究は、「小さなデータ」の方法として、a) 転移学習、b) データのラベリング、c) 人工データの生成、d) ベイジアン法、e) 強化学習の 5 つのカテゴリに大別されます。不完全ではありますが、これらの分類について以下で詳しく説明します。人工知能と機械学習の研究には、さまざまな種類の問題を解決するためにさまざまな方法、アプローチ、およびパラダイムが組み込まれており、単純な分類が困難になっています。以下でこれらのカテゴリを説明する目的は、事前にラベル付けされた大規模なデータセットを使用せずに AI システムをトレーニングするための大まかな概念的アプローチを読者に提供することです。私たちが使用する分類法は、実際には完全に分離できるわけではなく、相互に排他的でも網羅的でもありません。

転移学習は、最初にデータが豊富な環境でタスクを実行する方法を学習し、次にそこで学習した知識をデータがはるかに少ないタスクに「転移」することによって機能します。これは、関心のある問題には少量のラベル付きデータしか使用できないが、関連する問題には大量のラベル付きデータを使用できる設定で役立ちます。

たとえば、希少な鳥の種を特定するアプリを開発している人は、各鳥の写真を数枚しか持っておらず、それぞれにその種のタグが付けられている場合があります。転移学習を使用するには、まず、数千のカテゴリに従ってラベル付けされた数百万の画像を含む、ImageNet などの大規模でより一般的な画像データベースを使用して、基本的な画像分類器をトレーニングします。分類器が犬と猫、花と果物、スズメとツバメを区別できるようになると、珍しい鳥の小さなデータセットを与えることができます。次に、モデルは、画像の分類方法について既に知っていることを「転送」し、その知識を使用して、はるかに少ないデータから新しいタスク (珍しい鳥の種を識別する) を学習します。

データのラベル付けは、限られたラベル付けされたデータから開始しますが、大量のラベル付けされていないデータを含む方法です。このような方法では、さまざまな方法を使用して、ラベルの自動生成 (自動ラベル付け) や、ラベルが特に役立つデータ ポイントの識別 (アクティブ ラーニング) など、利用可能なラベル付けされていないデータを理解します。

たとえば、アクティブラーニングは皮膚がんの診断に関する研究に使用されています。画像分類モデルは、最初に 100 枚の写真でトレーニングされ、それらが皮膚がんまたは健康な皮膚を示しているかどうかに従ってラベル付けされます. その後、モデルは、潜在的なトレーニング画像のより大きなセットにアクセスし、そこから 100 枚の追加の写真を選択してラベル付けし、そのトレーニングに追加しますデータ。既存のデータから可能な限り多くを学習するために、モデルは、健康な皮膚の写真と皮膚がんの写真を区別することを学習する上で最も有益な画像に基づいて、ラベル付けする追加の写真を選択するように設計されました。

人工データ生成は、新しいデータ ポイントの作成またはその他の関連技術を通じて、少量のデータから最大の情報を抽出しようとする方法です。これは、既存のデータに小さな変更を加えること (画像分類データセット内の画像のトリミングや回転など) から、利用可能なデータの基礎となる構造について推論し、そこから外挿することを目的としたより洗練されたアプローチにまで及びます。

簡単な例として、コンピューター ビジョンの研究者は、コンピューター支援設計 (CAD) ソフトウェア (造船から広告までの業界で広く使用されているツール) を使用して、日常のオブジェクトのリアルな 3D 画像を生成し、これらの画像を使用して既存の機能を強化することができました。画像 データセット このようなアプローチは、関心のあるデータに関する情報源が 1 つしかない場合 (この場合はクラウドソーシングされた CAD モデル) に適しています。それ以外の場合は、より高度なアプローチが必要になる場合があります。一般に、データを生成するには、問題のデータについて 1 つまたは別の強力な仮定を行う必要があり、生成されたデータの有用性は、それらの仮定がどれほど有効かによって異なります。

追加のデータを生成する機能は、小さなデータセットを扱う場合に役立つだけではありません。場合によっては、単一のデータの詳細が機密である可能性がありますが (個人の健康記録など)、データの全体的な分布は研究者にとって興味深いものであり、合成データを使用してランダムな変更を加えることで個人情報を隠すことができます。識別しにくくなります。

ベイジアン法は、 2 つの特徴を共有する機械学習と統計学における大きなクラスの方法です。まず、彼らは問題の構造に関する情報 (いわゆる「事前」情報) を問題解決へのアプローチに明示的に取り込もうとします.これは、問題について知識がある傾向がある他のほとんどの機械学習方法とは対照的です.問題 最小限の仮定を行います。既存のデータをさらに改善する前にこの「前の」情報を組み込むことにより、ベイジアン法は特定のデータが制限された状況により適していますが、問題に関する情報を有用な数学的形式で記述することができます。第二に、ベイズ法は、予測の不確実性を調整することに重点を置いています。これは、データの可用性が限られている場合に役立ちます。不確実性を推定するベイジアン手法により、収集した場合に不確実性を減らすのに最も価値のあるデータ ポイントを特定しやすくなるためです。

小さなデータを使用したベイジアン作業の例として、ベイジアン手法は地球規模の地震活動を監視するために使用されています。これは、地震の検出と核条約の検証の両方に関連しています。地震学の予備知識を組み込んだモデルを構築することにより、研究者は既存のデータを活用してモデルを改善できます。

ベイジアン手法のファミリーは大きく、小規模なデータセットを扱うのに特に適した手法だけで構成されているわけではありません。簡単にするために、この研究では包括性について誤りを犯していますが、これは、このカテゴリに含まれる研究の一部が大規模なデータセットを使用したことを意味する場合があります。

強化学習は、エージェント (コンピューター システム) が試行錯誤を通じて環境と対話する方法を学習する機械学習手法を指す広義の用語です。強化学習は、ゲーム システム、ロボット、自動運転車のトレーニングによく使用されます。

たとえば、強化学習は、Pong のような単純なアーケード ゲームから StarCraft のような戦略ゲームまで、ビデオ ゲームのプレイ方法を学習する AI システムをトレーニングするために使用されてきました。いずれの場合も、システムは最初はゲームのプレイ方法についてほとんど (またはまったく) 知りませんでしたが、肯定的な報酬シグナルを生成するものを試してみることで徐々に学習しました。(ビデオ ゲームの場合、報酬信号は通常、プレーヤーのスコアの形で提供されます。

強化学習システムは、多くの場合、大量のデータから学習することになり、多くのコンピューティング リソースを必要とするため、直感的でないカテゴリのように見えます。それでも、事前に収集してラベル付けするのではなく、システムのトレーニング中に (多くの場合、シミュレートされた環境で) 生成されるデータを使用するため、それらを含めます。強化学習の問題では、環境と相互作用するエージェントの能力が重要です。

図 1 は、これらの異なる地域がどのように相互接続されているかを示しています。各ポイントは、上記のカテゴリのいずれかに分類されると特定された研究クラスター (つまり、論文のグループ) を表しています (方法論の詳細については、付録を参照してください)。ある研究クラスターを別の研究クラスターに結ぶ線の太さは、2 つの研究クラスター間の引用リンクの強さを示します。線がない場合は、引用リンクがないことを示します。クラスタは同じカテゴリの他のクラスタに最も関連している傾向がありますが、異なるカテゴリのクラスタ間にも多数の接続があることがわかります。このグラフは、「強化学習」の下で識別されたクラスターが特に首尾一貫したグループを形成しているのに対し、「人工データ」クラスターはより拡散していることも示しています。

ここに画像の説明を挿入

図 1 スモール データ研究クラスター ネットワーク図

スモールデータ方式の意義:

事前に収集された大規模なラベル付きデータセットに依存しない AI メソッドには、データ集約型の方法よりも多くの利点があります。他の要因の中でも、これらの方法は次のことができます。

大企業と小企業の能力差を減らす

多くの AI アプリケーションで大規模なデータ セットの価値が高まっていることから、組織によって必要なデータを収集、保存、処理する能力が異なるという懸念が生じています。このダイナミクスは、AI の「持つ者」(大手テクノロジー企業など) と「持たざる者」との間にギャップを生み出す可能性を秘めています。転移学習、自動ラベリング、ベイジアン法などの方法で、より少ないデータで人工知能を適用できれば、小規模な組織がデータに関して参入する際の障壁が低くなり、大規模な組織と小規模な組織の間のギャップを縮小するのに役立ちます。能力の差。

大量の個人データを収集するインセンティブを減らす

いくつかの調査は、ほとんどのアメリカ人が人工知能が個人のプライバシーのためのスペースを大幅に削減すると信じていることを示しています. この懸念は、大規模なテクノロジー企業が AI をトレーニングするためにますます多くの個人を特定できる消費者データを収集し続けているという見解に由来しています. 人工知能アルゴリズム. 特定のスモール データ アプローチでは、機械学習モデルをトレーニングするために実際のデータを収集する必要性を減らすことで、この懸念を軽減できる可能性があります。特に、新しいデータの人為的生成 (合成データ生成など) を可能にする方法、またはシミュレーションを使用してアルゴリズムをトレーニングする方法は、個人的に生成されたデータに依存していないか、個人を特定できる機密属性を削除するためにデータを合成する可能性があります。 、これはすべてのプライバシーに関する懸念が解決されることを意味するわけではありませんが、大量の現実世界のデータを収集する必要性を減らすことによって、このアプローチは、大規模な収集に対する機械学習の使用の重要性をいくらか軽減する可能性があります。 、または消費者データの開示。

利用可能なデータポイントが少ない分野での進歩

最近の人工知能の進歩の多くは、利用可能なデータの急増によって可能になりました。ただし、多くの重要な問題では、AI システムに入力できるデータがほとんどまたはまったくない場合があります。たとえば、電子カルテを持たない人々の病気のリスクを予測するアルゴリズムを構築したり、長期にわたる噴火の再発を伴う火山噴火の可能性を予測したりするアルゴリズムを構築することを想像してみてください。データの欠如。これは、ラベル付けされたデータとラベル付けされていないデータの両方を活用して、関連する問題から知識を伝達することで実現できます。小さなデータは、手元にある少数のデータ ポイントを使用してより多くのデータ ポイントを作成したり、関連するドメインに関する以前の知識を活用したり、シミュレーションを構築したり構造仮説をエンコードして新しいドメインに挑戦したりするのにも役立ちます。

ダーティ データの問題を回避する

特定の小さなデータ アプローチは、大規模な組織に利益をもたらす可能性があります。データが存在する可能性はありますが、クリーンで適切に構造化され、分析の準備が整っているとは言えません。たとえば、サイロ化されたデータ インフラストラクチャとレガシー システムが原因で、米国国防総省には大量の「ダーティ データ」があり、時間と労力を要するデータのクリーニング、ラベル付け、および組織化プロセスが必要です。データのラベル付けカテゴリは自動化できます ラベルを生成して、ラベル付けされていない大量のデータをより簡単に処理できます。関連するデータセット、構造化モデル、および合成データにそれぞれ依存する転移学習、ベイジアン アプローチ、または人工データ アプローチは、クリーニングが必要なデータの量を減らすことで、ダーティ データの問題のサイズを大幅に削減できます。

より一般的には、AI に関連する仕事をしている政策立案者は、AI の開発においてデータが果たす役割 (および果たさない役割) を明確に理解することが重要であるとも考えています。上記の要因は、説明するすべての方法に当てはまるわけではありません。たとえば、強化学習には大量のデータが必要になることがよくありますが、このデータは事前​​に収集されるのではなく、トレーニング中に生成されます (たとえば、AI システムがロボット アームを動かしたり、仮想環境をナビゲートしたりする場合)。

発見:

スモール データ手法に関する研究がどのように行われているかを調べるために、CSET の研究クラスター データセットを使用して、上記の 5 つのカテゴリ (転移学習、データ ラベル付け、人工データ生成、ベイズ法、および強化学習) に関連する研究を特定します。研究クラスターとは、引用リンクによって接続された科学研究論文のグループであり、研究者はアイデア、方法、使用した結果、または他の研究者の研究に基づいて構築されたその他の方法で伝達されます。

分析のために、5 つのカテゴリーの 1 つに属する 150 の研究クラスターを特定しました。比較のために、データセットには 735 個の AI クラスターが含まれています。識別された 150 のクラスターは、CSET の統合された学術文献コーパスから抽出された約 80,324 の論文で構成されており、世界の学術成果の 90% 以上を占めています。どの論文が「スモール データ」カテゴリに分類されるかを判断するために、まず技術専門家と協力して、5 つのカテゴリに関連する一連のキーワードを定義しました。次に、クラスター内の論文から抽出されたトップ フレーズ内の任意のキーワードをクラスター内で検索します。最後に、小さなデータとは明らかに無関係なクラスターを手動で除外しました。作業したい 150 のクラスターを特定したら、それぞれが 5 つのカテゴリのいずれかに関連付けられているため、これらの研究クラスター内のすべての論文を対応するカテゴリに割り当てました。研究コミュニティであまり多くの著者を引用していないいくつかの関連論文を見逃した、または私たちが含めたいくつかの研究論文はAクラスターに関連している可能性があるが、おそらく検討中のトピックには直接関係していない. したがって、以下のセクションの分析は、決定的なものではなく、探索的なものであると考えていただくことをお勧めします。私たちのアプローチの詳細については、付録 A を参照してください。

以下のサブセクションでは、関連する研究クラスターで特定したすべての論文の調査結果を 3 つの柱 (研究の進捗状況、国内競争力、および資金調達) にわたって提示します。この分析を通じて、これらの方法を開発するための科学研究の現在および予測される進歩、どの国がリードしているか、およびこの研究の主な資金源を調べたいと思います。

研究の進捗状況:

研究量に関して言えば、「スモールデータ」手法の 5 つのカテゴリは、過去 10 年間で非常に異なる軌跡をたどってきました。図 2 に示すように、強化学習とベイジアン手法は、論文数が最も多い 2 つのカテゴリです。ベイジアン クラスタリングに関する論文の数は過去 10 年間で着実に増加していますが、強化学習クラスタリングは 2015 年に増加し始め、その後 2017 年から 2019 年にかけて特に急速に増加しました。これは、革新的な進歩を遂げた 2015 年まで、深層強化学習が技術的な課題に直面していたことが原因である可能性があります。対照的に、クラスターで毎年発行される人工データ生成およびデータ ラベル付けの研究論文の数は、過去 10 年間でかなり少なくなっています。最後に、転移学習のカテゴリは 2010 年には小さく始まりましたが、2020 年には大幅に成長しました。

ここに画像の説明を挿入

図 2. 2010 ~ 2020 年のスモール データ出版の傾向

もちろん、出版物の数だけが紙の質を示すものではありません。各カテゴリ クラスタの論文の質を評価するために、h-index と年齢補正引用の 2 つの指標を検討します。h-index は、論文のコレクション (この場合は、各カテゴリに属する​​論文のグループ) の出版活動と総引用の影響を把握するために一般的に使用される指標です。ただし、h-index の制限の 1 つは、論文の発行年数が考慮されていないことです (つまり、古い論文ほど引用を蓄積する時間が長くなります)。したがって、h-index は、最も影響力のある論文がより新しく、引用がまだ収集されていない論文のグループを過小評価しています.これを調整するために、図 3 は年齢補正された引用も示しています. 図からわかるように、h-index だけは強化学習とベイジアン手法がほぼ互角ですが、論文の年代を考慮すると強化学習が優位に立っています。これは、私たちが特定した研究クラスターでは、ベイジアン手法の累積的な影響がより高いように見えることを意味しますが、RL は比較的最近の論文出力と引用の影響の急増で際立っています。

ここに画像の説明を挿入

図 3. 2010 年から 2020 年までのカテゴリ別の H 指数と年齢補正された引用

ただし、強化学習が過去 10 年間で最も成長したと考えるのは誤りです。時間の経過に伴う各カテゴリの成長をより詳しく見ると、図 4 は明らかに、転移学習が 2011 年から 2020 年の間に最も安定した成長を示し、2 年を除くすべての年で最高の成長を遂げたことを示しています。このグラフは、過去 5 年間に人間のデータ生成が見られた成長も示していますが、このカテゴリの総論文数が少ないため、図 3 ではあまり明らかではありません。ただし、2012 年から 2015 年にかけて成長率が最大に低下したこともあり、このカテゴリの成長軌道について具体的な結論を導き出すことは困難です。

ここに画像の説明を挿入

図 4. 2011 ~ 2020 年のカテゴリ別の前年比成長率

図 5 は、CSET が開発した予測モデルに基づいて各カテゴリの 3 年間の成長予測を比較し、別のカテゴリの「AI 全体」の論文をベンチマークとして比較したものです.図に示すように、予測された成長率は転移学習のみです. AI よりも速い 全体的に研究するカテゴリは、他のすべてのカテゴリをはるかに上回り、過去数年間の一貫した成長と一致しています。

ここに画像の説明を挿入

図 5. カテゴリー別の 2023 年の成長予測

注: 将来の成長指数は、CSET の研究クラスター成長予測に基づいて計算されています。方法論の詳細については、付録 A を参照してください。

国家競争力:

このセクションでは、スモール データ手法における世界の上位 10 か国の研究の進歩を見て、スモール データ手法における各国の競争力を探ります。出版された論文の数や年齢調整された引用などの単純な尺度を使用して、各カテゴリでの国の相対的な地位の初期像を取得しますが、読者は他の指標を調べて、ある国がデータの小さな可能性にどのようにランク付けされているかを完全に理解することをお勧めしますメソッド。

表 1 は、スモール データ出版の上位 10 か国でカテゴリ別に発表された論文の総数を示しています。AI研究の全体的な結果と一致して、中国と米国は、小規模なデータ関連の研究を含む特定されたクラスターの論文の上位2つの生産者であり、英国がそれに続きます. 中国はデータのラベル付けと転移学習法に関する学術論文の量でリードしており、米国はベイジアン法、強化学習、人工データ生成でリードしています。

ここに画像の説明を挿入

表 1. 世界の上位 10 か国のカテゴリ別出版物数

注目に値するのは、米国と中国を除いて、スモール データ調査の上位 10 か国はすべて米国の同盟国またはパートナー国であり、ロシアなどの国は明らかにリストに含まれていないことです。また、異なる国の複数の著者による複数の統計論文が原因である可能性もありますが、米国とその同盟国からの研究者が共同で作成した論文は、二重カウントのためにより高い個人数を反映しています. これらの論文の共著者の分析は、この評価を裏付けています。

論文の引用は、研究の質と影響の尺度としてよく使用されます。私たちの調査結果は、中国での多数の研究がすべての小さなデータ カテゴリで高品質ではない可能性があることを示唆しています。表 2 に示すように、引用数 (年間の引用数として大まかに理解できる) を見ると、中国はすべての方法で米国よりも下位にランクされています。中国は、ベイジアン法を除いて、すべての小さなデータ カテゴリで、年齢を補正した引用で 2 位にランクされています。ただし、中国はさらに 7 位に後退しています。これは、中国がベイジアン法に関する多数の論文を発表した可能性があるにもかかわらず、この分野の研究の質と影響が他の方法に比べて最も損なわれていることを意味します。米国は、すべての方法で年齢を補正した引用で世界をリードしています。
ここに画像の説明を挿入

表 2. 世界の上位 10 か国のカテゴリ別年齢補正引用数

図 6 は、国別の 3 年間の成長予測を示しています。ここでの最も注目すべき発見は、転移学習法の成長が、米国やその他の国々と比較して中国でどれだけ高いと予想されるかということです。この予測が正しければ、少なくとも発表された論文の数に関しては、中国が転移学習でさらに前進する可能性があることを意味します。
ここに画像の説明を挿入

図 6. 米国、中国、およびその他の地域の 2023 年の成長予測 (ROW)

注: 将来の成長指数は、クラスター成長に関する CSET の予測に基づいて計算されます。方法論の詳細については、付録 A を参照してください。

資金:

私たちは、スモールデータ法で利用可能な資金調達データを分析して、これらの方法に属すると特定した研究クラスターの論文に資金を提供したエンティティの種類の推定値を取得しました。ここで提示された調査結果に対する重要な警告は、約 20 ~ 30% の論文の資金提供情報しか得られていないことですが、資金提供データがある論文とない論文の間に体系的な違いがあると信じる理由はありません。

分野を超えて、政府、企業、学界、および非営利組織において、政府関係者が研究の最大の資金提供者であることが多く、著者は学界と提携していることがよくあります。これを念頭に置いて、スモール データ研究の結果を一般的な AI 研究の結果と比較して、それらがどのように異なるかを確認しました。図 7 に示すように、5 つのカテゴリすべてで、AI 研究への全体的な資金配分と比較して、政府資金の割合が不釣り合いに高くなっています。また、非営利団体は、通常 AI の他の分野よりも小規模なデータ研究に資金を費やす割合が少ないことも観察しています。ベイジアン アプローチの資金調達モデルは、AI の全体的なモデルに最もよく似ています。

ここに画像の説明を挿入

図 7. AI 全体に対するスモール データ アプローチの資金源

図 8 は、政府機関に関連する資金調達情報を国別にさらに分類したものです。私たちの結果は、政府の資金がスモール データに占める割合が高いという全体的な傾向にもかかわらず、米国政府のスモール データ研究への資金配分は、AI 研究への配分よりも低いことを示しています。一方、民間企業は、米国では AI 研究全体よりもスモール データ研究に多くの資金を提供する傾向があります (詳細については、付録 B の図 9 を参照)。

ここに画像の説明を挿入

図 8. 中国、米国、およびその他の国による、AI 全体に対するスモール データ アプローチに対する政府の資金提供 (ROW)

この傾向は、世界の他の地域のデータを見ると、ほとんど逆転しています。政府機関は、特に民間部門と比較して、小規模なデータ研究にはるかに高い割合で資金を提供しています。興味深いことに、研究トラストや財団など、世界の他の地域の非営利組織は、一般的な AI のサポートよりも小規模なデータ ペーパーに資金を提供する傾向がありません (詳細については、付録 B の図 10 を参照してください)。

中国では、手作業によるデータ生成を除けば、小規模データ手法に対する政府資金の割合は、一般に AI よりも小さくなっていますが、その差は米国ほど大きくはありません。

重要な要素:

この記事では、人工知能に対するさまざまな「スモール データ」アプローチを紹介し、その概要を説明します。最後に、調査結果に基づいて、次の主要なポイントを作成します。

AI はビッグ データと同義ではなく、特に事前にラベル付けされた大規模なデータセットではありません。過去 10 年間の AI ブームにおけるビッグデータの役割は否定できませんが、大規模なデータ収集とラベル付けを AI の進歩の前提条件にすることは、政策立案者を迷わせることになります。選択できるさまざまなアプローチがあり、さまざまな状況でさまざまなアプローチを使用できます: 目前の問題がデータ不足で、関連する問題がデータ豊富である場合、おそらく転移学習が役立ちます; エージェントが試行によって学習できる環境と、事前に収集されたデータではなくエラーが発生した場合、強化学習が必要になる場合があります。

転移学習に関する研究は特に急速に成長しており、強化学習という広く知られている分野よりもさらに急速に成長しています。つまり、この方法は現在よりもうまく機能し、将来的にはより広く使用される可能性があるということです。したがって、政策立案者が関心のある問題のデータ不足に直面している場合は、転移学習ベースのアプローチの出発点として役立つ可能性のある関連データセットを特定しようとすることが役立ちます。

私たちのクラスターベースの研究アプローチによると、米国と中国はスモールデータアプローチで非常に競争力があり、米国と中国は両方とも、私たちが検討する5つのカテゴリで(研究論文の数で)上位2カ国です. 米国は 2 つの最大の方法 (強化学習とベイジアン法) で大きなリードを持っていますが、転移学習 (最も急速に成長しているカテゴリ) では中国の方が小さいながらもリードを広げています。

当面の間、転移学習は、米国政府の資金提供を増やすための有望なターゲットになる可能性があります米国政府の資金提供は、AI 分野全体の投資パターンと比較して、スモール データ アプローチへの資金提供の割合が比較的小さいことを示しています。これは、これらの分野の研究が米国政府によって優先されていないため、または米国の民間部門の関係者がこれらの方法の研究により多くの資金を割り当てる傾向があるためである可能性があります. とにかく、転移学習が急速に出現している分野であることを考えると、米国政府の資金源からの資金を増やす有望な機会となる可能性があります。

【ペーパーエクスプレス | 特集】

フォーラムのアドレス: https://bbs.csdn.net/forums/paper

おすすめ

転載: blog.csdn.net/qq_36396104/article/details/129803695