合成データと AI 分野におけるその役割

合成データとは何ですか?

合成データは、現実の生活から取得されたものではなく、人間によって作成されたデータであり、機械学習のためのデータの必要性から発展しました。まず、AI モデルを正確にトレーニングするには、考えられるすべてのシナリオをカバーするトレーニング データを取得する必要があります。シーンが発生しない、または取得されない場合、対応するデータは存在せず、シーンを理解するマシンの能力に大きな差が生じます。アプリケーション シナリオにおけるこうしたギャップは、コンピューター プログラムを通じて対応する合成データを作成することで埋めることができます。より多様なカテゴリのデータセットを作成することで、多くの業界の製品やサービスの幅広いモデルをより自由にトレーニングできるようになります。合成データの概念は斬新に聞こえますが、実際にはかなり前から存在しています。この概念は、Journal of Official Statistics に掲載された1993 年の「統計開示の限界についての議論」というタイトルの論文でドナルド・ルービンによって開発されたと言われています。この記事はデータの民営化に焦点を当てており、「ここで提案されているのは、実際のマイクロデータではなく、標準的な統計ソフトウェアを使用して効率的に分析できるように、複数の代入を使用して構築された合成マイクロデータのみを公開することです。」と述べられています。データには現実世界のデータは含まれていません。これが今日でも合成データの主な利点です。合成データのニーズは複数の業界、特に自動運転によって推進される業界に集中しています。自動運転業界は、合成データを使用することの多くの利点を実証してきました。合成データは現在、ドローン、監視カメラ、小売、家庭用電化製品など、コンピューター ビジョンを利用するあらゆる業界に展開されています。  

 

合成データはどのようにして AI を強化できるのでしょうか?

AI トレーニング データの需要が高まるにつれて、企業が製品やサービスを向上させるために信頼できるトレーニング データを取得できるようにすることを目的とした合成データの需要も高まっています。実世界のデータには制限があり、すでに発生したシナリオに基づいており、個人を特定できる情報 (PII) が含まれています。ただし、トレーニング目的で使用する前に、データから PII を削除するのは簡単です。ただし、現実の世界では、トレーニング目的で使用できる特定のシナリオを調整するのは簡単ではありません。エッジ ケースとも呼ばれるこれらのシナリオでは、手動で収集されたデータよりも合成データの方が実際に利点があります。

合成データはどのように役立ちますか?

合成データを使用する主な利点は次のとおりです。

  • コストカット;
  • データ収集速度を向上させます。
  • データは PII の影響を受けません。
  • データセットは包括的です。
  • まれなイベント(エッジケース)のデータを取得します。
  • 高度で正確なラベル付け。

これらの要素はすべて、合成データを採用する重要な理由ですが、AI ライフサイクルのデータにおいて人間が果たすべき役割が依然として残っていることを認識する必要があることも同様に重要です。モデルが適切に機能するようにするには、現実世界のデータを合成データと組み合わせて使用​​する必要があります。実世界のデータには、合成データでは自然に説明できない外れ値も含まれています。特定のシナリオやエッジケースを考慮して合成データをプログラムすることはできますが、自然に発生する外れ値は含まれません。合成データを成功させるには、常に人間のデータと組み合わせる必要があります。人工データは、合成データの生成に使用されるコンピューター プログラムの出発点です。これらの人工データは初期生成の目的で使用されるため、生成されるデータが同じ品質になるように高品質である必要があります。データが作成されたら、エラーがないことを確認するために品質監視を実装する必要があります。これを行うには、人間が注釈を付けた高品質のデータに対してデータをテストする必要があります。人工データと合成データを組み合わせると、さらに 2 つの利点があります。それは、より少ないリソースと時間でサンプル サイズを増やすことができることと、データのコストを削減できることです。データの一部はコンピューターで生成されるため、コストが安くなり、企業は節約した分をさらなる研究に投資できます。データに手動で注釈を付けると、時間を節約できます。結果として得られるデータセットがより包括的になることにも注目してください。合成データを使用すると、生成されるデータが中立的な統一された観点から得られ、バイアスやその他の影響要因がなく、適切な多様性が含まれることが保証されます。すべての合成データにはアナログ番号が含まれるため、PII もそれほど問題ではありません。あまり明らかではありませんが、合成データの非常に重要なもう 1 つの利点はセキュリティです。プライバシーの保護に加えて、合成データの使用により人間の身元も安全に保たれ、生成されるエッジケースはセキュリティにも優れています。たとえば、これらのシナリオは、スマート カーがドライバーを必要とせずに運転機能や駐車機能を向上させるのに役立ちます。これは、毎年のテストにより路上での事故が減少することを意味します。銀行は、模擬詐欺手順をテストして、すべてのセキュリティ設定が潜在的な攻撃から保護されていることを確認し、顧客に安心感を与えることもできます。  

未来は明るい—合成 AI 予測

現在、合成データの使用はそれほど多くありませんが、2030 年までにさらに普及するとガートナーは予測しています。現在、合成データは市場データ全体の 1% にすぎませんが、2025 年までに約 10% を占めるようになると予想されています。この成長により、AI アプリケーションのユースケースが拡大し、ひいては AI 業界での雇用機会が増加します。データ市場は 2027 年までに 11 億 5,000 万ドルに成長すると予想されており、これは年間平均成長率 48% に相当します。そのため、合成データの台頭は、「AI とデータの将来に関するトップ 5 トレンド」の大きなトレンドの 1 つとなっています。要約すると、合成データを活用する主な市場は、AI を活用してコンピューター ビジョンを強化するあらゆる市場です。合成データの普及が進むにつれて、そのユースケースは金融詐欺防止、医療診断モデル、顧客が適切な情報や製品を確実に入手できるようにするマーケティングにまで拡大します。  

おすすめ

転載: blog.csdn.net/Appen_China/article/details/132324757