スモールデータとビッグデータ: AI にとって実用的なデータ

人工知能の文脈では、「ビッグデータ」というバズワードを聞いたことがあるかもしれませんが、「スモールデータ」という言葉はどうでしょうか?聞いたことがあるかどうかに関係なく、小さなデータはどこにでもあります。オンライン ショッピング エクスペリエンス、おすすめの航空会社、天気予報などはすべて小さなデータに依存しています。スモールデータとは、人間が理解しやすい、アクセス可能で実用的な形式のデータです。通常、データ サイエンティストは小規模なデータを使用して現状を分析します。機械学習 (ML) の分野では、小規模データの使用が増加しています。これはおそらく、データの可用性が全般的に増加していることと、新しいデータ マイニング技術の実験が原因であると考えられます。あらゆる分野での AI の発展に伴い、小さなデータは低レベルの計算能力しか必要とせず、使いやすいため、データ サイエンティストは小さなデータにますます注目しています。  

 

スモールデータとビッグデータ

スモール データはビッグ データとどのように正確に異なりますか? ビッグ データは、構造化データと非構造化データの大きな塊で構成されます。ビッグデータはサイズが巨大で、小さなデータよりも理解と分析が難しく、解釈するには高レベルのコンピューター処理能力が必要です。ビッグデータ分析のような複雑なアルゴリズムを必要とするのではなく、スモールデータは企業に実用的な洞察を提供します。したがって、企業はデータマイニングプロセスに多額の投資をする必要はありません。コンピューターアルゴリズムを適用することで、ビッグデータをスモールデータに変換できます。これらのコンピューター アルゴリズムは、データを実用的な小さなチャンクに変換します。各チャンクは、より大きなデータ セットの不可欠な部分となります。ビッグデータがスモールデータに変換される例としては、ブランド立ち上げ時のソーシャル メディアのモニタリングがあります。オンライン上には毎秒大量のソーシャルメディア投稿が出現しています。データ サイエンティストは、公開プラットフォーム、期間、キーワード、またはその他の関連する特性に基づいてデータをフィルタリングする必要があります。このプロセスにより、ビッグデータがより管理しやすいチャンクに変換され、そこから関連する洞察が得られます。  

小さなデータの利点

上記では、ビッグ データに対するスモール データの利点について述べましたが、強調する価値のある点がまだいくつかあります。 ビッグ データの管理の難しさ:ビッグ データの大規模な使用は困難な作業であり、データ分析には強力なコンピューター機能が必要です。 小さなデータの管理の難易度が低い:小さなデータ ブロックの分析は非常に効率的であり、あまり多くの時間と労力を必要としません。これは、小さなデータはビッグデータよりも実用的であることを意味します。 小さなデータはどこにでも存在します小さなデータはすでに多くの業界で広く使用されています。たとえば、ソーシャル メディアは、マーケティングなどのさまざまな目的に使用できる実用的なデータを豊富に提供します。 小規模データはエンド ユーザーに焦点を当てます:研究者は小規模データを通じてエンド ユーザーに焦点を当て、ユーザーのニーズを最優先することができます。小さなデータを使用して、エンド ユーザーの行動動機を説明できます。多くのアプリケーション シナリオにおいて、小規模データは、さまざまな業界の顧客を深く理解するのに役立つ高速かつ効果的な分析方法です。  

機械学習における小規模データの処理方法

教師あり学習は最も伝統的な機械学習方法であり、大量のラベル付きトレーニング データを使用してモデルをトレーニングすることを指します。しかし、それ以外にも、モデルのトレーニングには多くの方法があります。中には費用対効果が高く、時間もかからないトレーニング方法も多くあり、人気が高まっています。これらの方法は小さなデータに依存することが多いですが、この場合はデータ品質が重要になります。データ サイエンティストは、モデルが少量のデータしか必要としない場合、またはモデルが不十分なデータでトレーニングされている場合に、少量のデータを使用します。この時点で、データ サイエンティストは次の機械学習手法のいずれかを使用できます。

数回の学習

データ サイエンティストは、少数ショット学習手法を使用して、少量のトレーニング データを含む機械学習モデルを提供します。フューショット学習手法は、コンピューター ビジョンの分野でよく使用されます。コンピューター ビジョンでは、モデルがオブジェクトを認識するために多くのサンプルは必要ない場合があります。たとえば、スマートフォンのロックを解除するための顔認識アルゴリズムがある場合、ロックを解除するために何千枚もの自分の写真は必要ありません。携帯電話でセキュリティ機能をオンにするには、数枚の写真が必要です。少数ショット学習手法は、低コストで低労力です。モデルが完全教師あり学習状態にあり、トレーニング データが不十分な場合は、少数ショット学習の使用が非常に適しています。

ナレッジマップ

ナレッジマップは元のビッグデータをスクリーニングして形成されるため、二次データセットに属します。ナレッジ グラフは、意味が定義され、特定のドメインを説明する一連のデータ ポイントまたはラベルで構成されます。たとえば、ナレッジ グラフは、有名な女優の名前の一連のデータ ポイントで構成され、一緒に仕事をした女優を線 (またはエッジ) で結んでいる場合があります。ナレッジ グラフは、高度に解釈可能で再利用可能な方法で知識を整理するための非常に便利なツールです。

転移学習

転移学習手法は、ある機械学習モデルを別のモデルのトレーニングの開始点として使用して、モデルが関連タスクを完了できるようにする場合に使用されます本質的には、あるモデルから別のモデルに知識を伝達することです。元のモデルを開始点として使用し、モデルは追加データでさらにトレーニングされ、新しいタスクを処理するモデルの能力が開発されます。新しいタスクに必要でない場合は、元のモデルの一部を削除することもできます。転移学習技術は、自然言語処理やコンピューター ビジョンなど、大量の計算能力とデータを必要とする分野で特に効果的です。転移学習手法を適用すると、タスクに必要な労力と時間を削減できます。

自己教師あり学習

自己教師あり学習の原理は、モデルに既存のデータから教師信号を収集させることです。モデルは既存のデータを使用して、観測されていないデータまたは隠れたデータを予測します。たとえば、自然言語処理では、データ サイエンティストは、単語が欠落している文をモデルに入力し、モデルに欠落単語を予測するよう依頼することがあります。隠されていない単語から十分なコンテキストの手がかりを取得した後、モデルは文内の隠された単語を認識することを学習します。

合成データ

合成データは、特定のデータセットに既存のデータでは埋めることができないギャップがある場合に悪用される可能性があります。一般的な例は顔認識モデルです。顔認識モデルには人間のすべての肌の色調をカバーする顔画像データが必要ですが、問題は、明るい顔よりも暗い顔の写真が少ないことです。データ サイエンティストは、暗い顔を認識するのに苦労するモデルを作成する代わりに、人工的に暗い顔のデータを作成して、表現の平等を実現できます。しかし、機械学習の専門家は、これらのモデルを現実世界でより徹底的にテストし、コンピューター生成のデータセットが不十分な場合は追加のトレーニング データを追加する必要があります。この記事で説明した方法はすべてを網羅しているわけではありませんが、さまざまな方向で機械学習が期待できることも示しています。一般に、データ サイエンティストは教師あり学習手法の使用を減らし、代わりに小規模なデータに依存する手法を実験しています。  

データ サイエンス ディレクター Rahul Parundekar による専門的な洞察

小さいデータの「小さい」ということは、データ量が小さいという意味ではないことを明確にすることが特に重要です。スモールデータとは、ビジネス上の洞察を生成し、自動化された意思決定を実現するためのモデルを構築するための要件を満たすデータタイプの使用を指します。AIの機能に期待しすぎて、数枚の写真データを集めただけで高品質なモデルが得られると期待している人をよく見かけますが、ここで議論するのはそこではありません。私たちが話しているのは、モデル構築に最適なデータを見つけることです。実際にデプロイされると、モデルはニーズを満たす正しいコンテンツを出力できます。「小さな」データセットを作成するときに留意すべき点がいくつかあります。

データの依存関係

データセットを構成するデータの種類を明確にし、正しいデータを選択します。データセットには、モデルが実際 (または運用環境) で公開されるデータの種類のみが含まれていることを確認する必要があります。たとえば、生産コンベヤ ライン上の製品の欠陥検出を実行する場合、コンベヤ ベルト上に物体がなく、欠陥のある部品と良品の部品を含む画像のデータセットを準備し、それを生産コンベヤ ラインに入力する必要があります。カメラ。

データの多様性と反復

モデルが実際に接触する可能性のあるすべてのデータ アプリケーション シナリオをカバーし、さまざまな種類のデータ間のバランスを確保することが重要です。過剰設定の問題を避けるために、データセットに既存のデータを入力しないでください。欠陥検出の例では、モデルが、工場フロアのさまざまな照明条件、コンベア ベルト上のさまざまな回転や位置、または環境にかかわらず、欠陥のない品目、さまざまな種類の欠陥のある品目をキャプチャできることを確認する必要があります。可能な場合はメンテナンス モード。いくつかのサンプルが表示されます。完成した製品は欠陥がなく同じであるため、この種のデータを過剰に入力する必要はありません。不必要な繰り返しのもう 1 つの例は、変化がほとんどまたはまったくないビデオ フレームです。

強力なテクノロジーに基づいて構築

前述の小規模データ処理技術は、強固な技術基盤を提供します。おそらく、トレーニングされたパフォーマンスの優れたモデルの知識を関連ドメイン内の別のモデルに転送し、小規模なデータを使用して新しいモデルを改良する転移学習手法の恩恵を受けることができるでしょう。欠陥検出の例では、コンベヤ ラインでの欠陥検出のシナリオとは異なり、 MS COCO データセットでトレーニングされた変更されたモデルではなく、以前にトレーニングした別の欠陥検出モデルを使用できます。

データ中心のAIとモデル中心のAI

AI 業界の最近の研究では、モデルが適切なデータでトレーニングされた場合、モデルのパフォーマンスがより大きな影響を受けることが示されています。エッジ データとデータ ギャップを見つけることで、有能なデータ サイエンティストが「理解する」と仮定して、複数のハイパーパラメーターや異なるモデル アーキテクチャを使用するよりも優れた結果を生み出すことができます。欠陥検出モデルが特定のタイプの欠陥を正確に検出できない場合は、別のモデル アーキテクチャやハイパーパラメータの最適化を試すのではなく、これらのタイプの画像データを強化することに多くの労力を投資する必要があります。

トレーニング データの専門家と協力する

データ中心の AI では、データ サイエンティストが得意とするモデル作業ではなく、ドメインの専門家が得意とするデータ作業にデバッグ作業を集中する必要もあります。モデルが失敗した場合は、ドメインの専門家と協力してパターンを特定し、モデルの失敗の考えられる原因を仮説化します。これは、必要な正しいデータを判断するのに役立ちます。たとえば、オブジェクト欠陥エンジニアの専門家は、モデルに必要な適切なデータの優先順位付けを支援し、上記のノイズや不要なデータをクリーンアップし、データ サイエンティストがより良いモデル アーキテクチャのニュアンスを選択するために何を使用するかを指摘することもできます。全体として、小さなデータはビッグデータよりも「密度」が高くなります。可能な限り最小のデータセットで最高品質のデータを取得し、データのコスト効率を高め、上記のいずれかの手法を使用して「チャンピオン」モデルを構築する必要があります。  

おすすめ

転載: blog.csdn.net/Appen_China/article/details/132324708