42 の人工知能機械学習データセットに関する推奨事項

人工知能 (AI) プロジェクトの立ち上げを成功させるために、多くの企業が外部データセットに注目しています。現代では、データセットの検索がかつてないほど簡単になり、機械学習モデルのパフォーマンスにとってデータセットの重要性がますます高まっています。珍しいカエルの画像から手書きのサンプルまで、幅広いトピックをカバーするデータ リポジトリをホストするサイトが多数あります。どのような機械学習 (ML) プロジェクトであっても、開始点として使用できる関連データセットを見つけることができます。このペーパーでは、40 を超える既存の高品質 ML データ リポジトリとデータセットへのリンクを収集します。使いやすいように、プロジェクトの種類と業界ごとに分類しました。多くの場合、これらのデータセットは出発点として適していますが、ユースケースによっては、すぐに利用できるものに加えて追加のラベル付けが必要になる場合があることに注意してください。  

 

どのような種類のデータが必要ですか?

適切なデータセットの検索を開始する前に、いくつかの重要な質問に答えることが役立ちます。

  • AI プロジェクトで何を達成しようとしているのでしょうか?
  • このプロジェクトに使用するのに十分な内部データがありますか?
  • どのようなデータが必要ですか?
  • どのようなユースケースをカバーするデータが必要ですか?
  • どのエッジのユースケースをカバーするデータが必要ですか?

これらの事前の質問は、必要な特定の種類のデータをより明確に把握するのに役立つだけです。保護されたクラス (つまり、特定の人種、性別、性的指向、またはその他の要素を持つグループ) を扱っている場合、データセットがこれらのグループを適切に表すためには、より多くの努力が必要になります。いずれの場合も、データを検索するときは具体的にしてください。低品質のデータを使用すると、機械学習プロジェクトは簡単に頓挫する可能性があります。  

既製のデータセットを選択する理由は何ですか?

チームは最終的に、既製のデータセットを使用してモデルをトレーニングすることを決定する場合があります。AI の分野では、そのような選択がますます一般的になってきています。その理由の 1 つは、AI の構築が非常に難しいということです。ほとんどの AI プロジェクトは、次のようなさまざまな要因により導入に失敗します。

  • 低予算。AI プロジェクトへの投資には、多くの場合、多額の資本が必要です。
  • 才能が不足している。スキルギャップはテクノロジーだけでなく、特に AI と ML にも存在します。業界には高度なスキルを持つ人材が不足しており、既存の AI 計画を立ち上げることができず、将来の計画はさらに遠いものです。業界が発展するにつれて、このギャップはさらに拡大する可能性があります。
  • AIの開発はまだ初期段階にあります企業は AI を構築するために適切な組織構造を確立する必要があります。これは、AI を正常に構築するには、適切な内部プロセス、戦略、コラボレーションが必要であることを意味します。
  • データ品質が低いか不十分です。この最後の要素が、AI を構築する上での最大のハードルであることが判明しました。ML モデルを正確に実行するには、多くの場合、大量のデータが必要です。ユースケースに応じて、データの取得にはさまざまな課題が生じます。さらに、低品質データを高品質のラベル付きデータに変換するには時間がかかり、非効率的になる可能性があります。

データ アノテーションの導入も多くの企業にとって難しいため、サードパーティに頼るのも不思議ではありません。データのボトルネック問題を解決するために、企業は無料の既製のデータセットを購入または利用しようとしています。これらのデータセットは、ML モデルを構築するための良い出発点であるか、場合によっては、すべてのユースケースを適切にカバーするのに十分であることがわかりました。既製のデータセットの利点について話しましょう。

  • コンプライアンス。顧客と規制当局はデータセキュリティの要求をますます高めており、企業が内部データを使用することがますます困難になっています。一部の企業は当然、仕事で大量のデータにアクセスできますが、特にそうすることで顧客のプライバシーが侵害される可能性がある場合、そのデータを ML モデルに使用できるわけではありません。
  • 偏見を減らします。企業がモデルのバイアスを減らすことの重要性を認識しているため、責任ある AI の構築はかつてないほどホットなテーマになっています。企業が内部データに依存している場合、バイアスを検出して軽減することが困難になる場合があります。ただし、既製のデータセットを使用すると、データのソースを調査して、バイアス チェックを使用して作成されたかどうかを確認できます。信頼できるデータプロバイダーは、多様で高品質のデータセットを提供できるようになります。
  • より早く市場に投入します。データの収集と準備には時間がかかり、データ サイエンティストの時間のほとんどはプロジェクト作業中のデータに費やされます。既製のデータセットを使用すると、ほとんどの作業はすでに完了しています (ただし、データセットの品質を自分でチェックする必要があるのは明らかです)。スピードが極めて重要な業界では、そうすることで市場投入までの時間が短縮されます。
  • 費用対効果が高い。内部データの集約、レビュー、準備のプロセスにはコストがかかる場合があります。多くの既製のオンライン データセットは、無料または低コストで入手できます。AI の予算がそれほど高くない場合は、既製のデータセットを活用することが正しい選択となる可能性があります。

既製のデータセットの利点は、AI 開発における多くの一般的な問題の解決に役立ちます。既製のデータセットの使用は、ML モデルの実装において考慮すべき有益な戦略であることは確かです。  

データセットを見つけるための最適な出発点

インターネットには、高品質の既製のデータセットが溢れています。以下に、オンラインでデータセットを検索および発見するのに最適な場所の多くを順不同で示します。データ リポジトリから始めて、特定のユースケースに最適なデータセットをリストします。

データリポジトリ

データ リポジトリは、Web 全体からデータセットを収集します。

カグル

Kaggle は、スポーツから医療、政府まで幅広いトピックをカバーするデータセットの最大のオンライン リポジトリの 1 つです。そのプラットフォームはコミュニティ主導型であり、ユーザーは独自のデータセットをアップロードできます。Kaggle のデータ ソースは多様であるため、そこから取得するデータセットの品質を徹底的にチェックすることが重要です。さらに、Kaggle では、機械学習のトピックに関するディスカッションや主要なプロセスに関するチュートリアルも提供しています。

Google データセット

Google は、名前でデータセットを検索できるデータセット検索エンジンを提供しています。このエンジンを使用すると、ファイル タイプ、件名、最新の更新、関連性などのいくつかの機能によってデータセットを並べ替えることができます。インターネット上の何千ものデータベースからデータセットを取得することもできるため、幅広いオプションから検索することができます。データセットのアップロード者には、ハーバード大学や世界保健機関などの多数の国際機関が含まれています。

コード付き論文

Papers with Code には現在 4,000 を超えるデータセットがあります (さらに増え続けています)。これらのデータセットはコミュニティによってアップロードされます。これらのデータセットは、モダリティ、タスク、言語ごとに簡単にフィルタリングできます。このデータベースには、さまざまなデータセットを提供する他のデータベースへのリンクも含まれています。

データフレア

DataFlair は70 を超える機械学習データセットにリンクしており、ソース コードやプロジェクトのアイデアなどの役立つ情報も含まれています。たとえば、手書きの数字を含むデータセットのリストで、DataFlair は紙の手書きの数字を認識する画像分類アルゴリズムを作成することを提案しています。このサイトを使用して新しいアイデアを発想してください。

エリートデータサイエンス

EliteDataScienceには、無料のデータセットと最も人気のあるアグリゲーターの厳選されたリストが含まれています。これらのデータセットはユースケースごとに編成されており、深層学習、自然言語処理、Web スクレイピングなどに使用できるデータセットが含まれています。

UCI 機械学習ライブラリ

UCI には 500 を超える機械学習データセットがあり、ファイル タイプ、タスク、アプリケーション ドメイン、トピックごとに並べ替えることができます。これらのデータセットの多くには、ベンチマークに使用できる学術論文へのリンクが含まれています。

Github の優れた公開データセット

Github は、公開データセットのオープンソース コレクションを提供します。そこではカタログを表示して、農業から輸送などに至るまでのトピックを選択できます。Github には、一般的な機械学習モデルのコレクションも含まれています。リンクされたデータセットのほとんどは無料です。

Azure パブリック データセット

Microsoft Azure には、開発者がプロ​​トタイピングやテストに使用できる公開データセットのデータベースがあります。データベース カテゴリには、米国政府および政府機関のデータ、その他の統計および科学データ、オンライン サービス データが含まれます。また、そこでは SQL に関するドキュメントや、モバイル アプリや Web アプリの構築方法を読むことができます。

スノーフレーク データ マート

Snowflake には、175 を超えるサードパーティ データ プロバイダーおよびデータ サービス プロバイダーからの 650 を超えるリアルタイムですぐにクエリできるデータセットが含まれており、データ サイエンティスト、ビジネス インテリジェンスおよび分析の専門家、およびデータ主導の意思決定を求めるあらゆるユーザーを容易にします。

AWS 上のオープンデータレジストリ

AWS には、AWS リソースを通じて利用できるデータセットのレジストリがあります。ユーザーは独自のデータセットを共有したり、特定のデータセットの使用方法の例を追加したりできます。レジストリには 280 を超える検索可能なデータセットがあります。

KDNuggets

KDNuggets には、さまざまなデータセットを含むデータ リポジトリの包括的なリストがあります。リストには 75 を超えるデータ リポジトリが含まれており、そのうちのいくつかは国際的なものです。

アッペン

Appen は、さまざまな既製のトレーニング データセットを提供します。当社のカタログには、80 以上の言語で、複数の方言をカバーする 250 以上のライセンス可能なデータセットが含まれています。これらのデータセットには、音声認識や自然言語処理などの多くの機械学習のユースケースが含まれており、さまざまなファイル タイプ (テキスト、画像、ビデオ、音声、オーディオ) をカバーしています。例えば:

  • 放送、コールセンター、車載および電話アプリケーション向けに完全に書き起こされた音声データセット。
  • 一般語彙と分野固有の語彙 (名前、場所、自然数など) を含む発音辞書。
  • 品詞タグ付きの辞書とシソーラス。
  • 名前付きエンティティの語彙情報とトークンを含むテキスト コーパス。

当社は、AI のニーズを満たす最高品質のデータセットのみを提供します。  

コンピューター ビジョン データセット

これらのデータベースとデータセットには、コンピューター ビジョン プロジェクトの画像データが含まれています。

イメージネット

ImageNet は、WordNet 階層に従って編成された名詞のセットであり、各ノードには数千の関連画像があります。このリポジトリのデータは研究者が自由に利用できます。

MNISTデータベース

MNIST には手書きの数字の画像が含まれています。これには、60,000 例のトレーニング セットと 10,000 例のテスト セットが含まれます。

IMDB-Wiki データセット

IMDB-Wiki データセットは、 500,000 を超える画像を含む最大の顔画像コレクションを提供します。多くの画像は有名人やウィキペディアからのものです。各画像には性別と年齢がタグ付けされています。

LabelMe データセット

LabelMe データセットは、 LabelMe ラベル付けツールを使用して構築されます。このツールを使用すると、ユーザーはオブジェクトのアウトラインを作成し、ラベルを付けることができます。このデータセットは画像認識プロジェクトで使用できます。

MS COCO データセット

MS COCOの正式名称は「Microsoft Common Objects in Context Dataset」で、「コンテキスト内の共通オブジェクト」の問題を解決するためにリリースされた、Microsoftコンテキスト内の共通オブジェクトデータセットです。これには 120,000 を超える画像が含まれており、各画像にはオブジェクト検出やセグメンテーションなどの画像注釈技術に関連する複数のラベルが付いています。データセット内の画像は 91 のカテゴリに分類されています。

文字数74K

Chars74Kには、その名前が示すように、74,000 枚の画像が含まれています。このデータには、自然画像 (レストランの看板の画像など) 内の文字認識が含まれます。

キネティクス-700

Kinetics-700 には、主に人間の行動に関するラベルが付けられた YouTube ビデオへの一連のリンクが含まれています。その中には、700 の人間の行動をカバーする 650,000 以上のビデオ クリップが含まれています。

Places2 データベース

Places2 データベースはMIT によって公開されたデータセットで、400 以上のシーンをカバーする 1,000 万以上の画像が含まれています。シーン分類やシーン解析などのプロジェクトに役立ちます。

画像を開く

Open Imagesデータセットは、オブジェクトの位置のアノテーションを備えた最大のデータセットの 1 つです。900 万を超える画像があり、それぞれにオブジェクトの境界ボックス、セグメンテーション、その他の注釈が付いています。合計 1,600 万個の境界ボックスがあり、600 のカテゴリをカバーしています。

MPII 人間のポーズ データセット

MPII Human Pose データセットには、 410 の人間のポーズを含む約 25,000 枚の画像が含まれています。画像には約 40,000 人の異なる人物が含まれており、各画像には人間の関節に注釈が付けられています。これらの画像は YouTube ビデオから収集されたものです。  

自然言語処理データセット

次のデータセットには、自然言語処理プロジェクトで使用できるテキストと音声にわたる自然言語の例が含まれています。これらの例には、感情分析、音声認識、文字起こしなどが含まれます。

Google ブロガー コーパス

Google Blogger Corpus には、 blogger.com からの約 700,000 件のブログ投稿が含まれています。各エッセイには少なくとも 200 語の英単語が含まれています。全体として、これらのブログ投稿には一般的な英語の単語が多く含まれています。

Yelpのレビュー

Yelp レビューデータセットには、レストランのランキングとレビューが含まれており、このトピックに関連する豊富な情報が含まれています。このデータセット内のレビューは感情分析プロジェクトで使用できます。

WikiQA コーパス

WikiQA コーパスは、 Bing 検索データから編集された質問応答データセットです。3,000 を超える質問が含まれ、29,000 の回答文が提供され、そのうち 1,500 は回答文としてラベル付けされています。

M-AI Labs 音声データセット

M-AI Labs の音声データセットには、約 1,000 時間の音声と文字起こしが含まれています。複数の言語での男性と女性の音声が含まれています。

リブスピーチ

LibriSpeech には、セグメント化され調整された約 1000 時間の音声データが含まれています。これらのデータは、LibriVox プロジェクトのオーディオブックから編集されたものです。

ワードネット

WordNet は、意味別にグループ化された英単語のデータベースです。117,000 のシンセット (同義語に従ってペアになった単語) があり、関連するシンセットにリンクされています。これは、次のテキスト分類プロジェクトで使用できます。

OpinRank データセット

OpinRank データセットには、 Edmunds と TripAdvisor からの 300,000 件の口コミが含まれています。これらは目的地、ホテル、その他の関連要素によって分類されています。

マルチドメイン感情データセット

マルチドメイン感情データセットには、 DVD、書籍、キッチン、電子機器の 4 つのドメインからの Amazon.com 製品レビューが含まれています。各ドメインには、1 つ星から 5 つ星の評価が付けられた数千件のレビューがあります。名前が示すように、このデータセットは感情分析プロジェクトに役立ちます。

Twitter 感情分析

Twitter センチメント分析データセットには、150 万を超える機密ツイートが含まれています。データセットの各行にはランクがあり、肯定的な感情を 1、否定的な感情を 0 とします。

20 のニュースグループ

20 ニュースグループには 20,000 のドキュメントが含まれており、その名前が示すように、20 を超える異なるニュースグループからのものです。多くのトピックが取り上げられていますが、その中には比較的類似したトピックもあります。データセットは、元のバージョン、日付が削除されたバージョン、重複が削除されたバージョンの 3 つのバージョンで構成されます。  

業界別のデータセット

業界固有のデータを取得するために利用できる貴重なリソースがいくつかあることは言及する価値があります。

米国政府データポータル

米国政府データ ポータルには、米国が関与しているすべての政府データが含まれています。ポータルにアクセスすると、300,000 を超えるデータセット (学生ローン データや医療施設の請求データなど) を検索できます。業種: 政府

EUオープンデータポータル

EU オープン データ ポータルは、人口統計データ、教育データなどの EU 機関データを検索する方法を提供します。業種: 政府

世界保健機関

世界保健機関は、世界の飢餓、医療、病気などの重要なトピックをカバーするデータを提供しています。業種: 医療

ブロード研究所

Broad Institute は、配列決定から分類まで関連するトピックをカバーする、がんに関連する多くのデータセットを提供しています。業種: 医療

Google ファイナンス

Google Financeには 40 年以上の株式市場データが含まれており、リアルタイムで継続的に更新されます。業種: 金融

バークレーディープドライブ

カリフォルニア大学バークレー校によって作成されたBerkeley DeepDriveには、さまざまな地理的分布、環境、気象条件に関する 100,000 以上のビデオ クリップが含まれています。これらのクリップには、オブジェクト、車線マーキング、およびさまざまな形式のセグメンテーションを検出するための境界ボックスの注釈が付けられます。このデータセットは、自動運転車のトレーニングに使用できます。業種: 自動車

レベル5

Level5はライドシェア会社 Lyft によって作成されました。データセットには、特定の地理的エリアにある多数の自動運転車によってキャプチャされた生のセンサー カメラと LiDAR データが含まれています。このデータセットには、特定のターゲット オブジェクトの 3D 境界ボックスの注釈が付けられます。業種: 自動車

USDAオープンデータカタログ

USDA オープン データ カタログには、米国農務省が取得したデータが含まれています。トピックは、米国農業の生産性の測定から食中毒のコストの推定まで多岐にわたります。業種: 農業

ファッション-MNIST

Fashion-MNIST には、ファッション業界製品の約 60,000 枚の画像と 10,000 枚のテスト画像が含まれており、10 のカテゴリーに分類されています。このデータは、商品の品揃えプロジェクトに役立ちます。業種: 小売

eコマース検索の関連性

E コマース検索関連性データセットには、さまざまな製品への機能リンク、ページ上のそれらの製品のランク、結果を提供した検索クエリ、およびその他の関連属性が含まれます。データは上位 5 つの英語の電子商取引 Web サイトから取得されています。業界: 小売 ここで言及されていない業界データセットを見つけるには、適切な業界タグを使用して上記のデータ リポジトリを検索してください。  

チーフデータサイエンティスト、Monchu Chen による専門的な洞察

データベースの選択に関する考慮事項

新しいプロジェクトを開始するときは、急いで既存のデータセットをすぐに取得しないことが最善です。一歩下がって、アプリケーションやサービスが満たす必要があるユーザーのニーズについて注意深く考えてください。場合によっては、同じ製品設計を異なる AI 主導の機能で実現できることがあります。特定できる潜在的なソリューションは、開発と構築の価格帯、およびデータのトレーニング方法が異なる可能性がある非常に異なる ML モデルの中から選択するかどうかによって決まります。先に進む準備ができたら、自分でデータを収集する専用の予算がない場合でもモデル開発を開始できるように、公開されている既存のデータセットを選択するためのヒントも記載されています。

データセットのサブセットを選択します

データセットを選択するときは、データセット全体の複雑さに怯える必要はありません。場合によっては、データセット全体のサブセットを抽出できます。これは、まさに ML プロジェクトに必要なものである可能性があります。

複数のデータセットを結合する

選択したデータセットが、モデルの開発に必要なデータと正確に一致しない場合があります。複数のデータセット (またはサブセット) を組み合わせて、扱っているユースケースの総数により近いトレーニング セットを構築することを検討することもできます。

既存のAPI

多くのデータセットには、データ アクセスと変換を容易にする API またはライブラリが付属しています。これにより、最初は貴重な時間を節約できます。

既存のサンプルプロジェクト

また、人気のあるデータセットを使用してプロジェクトに取り組み、Github などのリポジトリを通じてその作品を公開している人を探してみることもできます。データを選択するときは、ソース コード、モデル、さらには事前トレーニングされたモデルを基礎として、または単なる参照として使用します。

ライセンスの問題

ソフトウェアと同様に、データセットにもさまざまな種類のライセンスがあります。ライセンスによっては、その特定のデータセットに対する作業を共有することが必要な場合があります。他の人はあなたのアプリケーションを非商業的使用のみに制限する場合があります。一般的な戦略は、コードをデータセットからできるだけ分離することです。安全性を確保する最善の方法は、アプリケーションで使用するデータセットを選択する前に法的アドバイスを求めることです。

短期/長期の考慮事項

短期的な決定 (最初のデータセットの選択など) を行う場合は、その長期的な影響を考慮することが最善です。全体像を見ると、パブリック ドメインのデータセットから自分でキュレーションしたデータセットに移行する必要がある場合、最初は次善の選択をした方が、時間、労力、予算を大幅に節約できることがわかるかもしれません。  

おすすめ

転載: blog.csdn.net/Appen_China/article/details/132324665