データセット ホスティング プラットフォームの概要比較

序章

  • 最近、データセットに対するアルゴリズムの影響を評価するために、いくつかのテストデータセット評価ベンチマークを構築することを検討しました。
  • 論文で使用されている公開データセットとは異なり、ここで構築されたデータセットはよりターゲットが絞られており、ユーザーはビジネスの特定のニーズに応じてデータセットを追加または削除でき、データセット上の指標を実際のビジネス シナリオに近づけることができます。
  • ここではベンチマーク プラットフォームを提供しているだけで、いくつかのラベル付きデータセットがデフォルトで提供されます。もちろん、これは現時点での私のアイデアにすぎず、私は常にそれを実行していますので、今後のアップデートにご期待ください。

データ セット ホスティング プラットフォームは次の条件を満たす必要があります。

  1. 簡単にダウンロードしてコードで使用できます。たとえば、公開データセットをダウンロードする場合、関連するアカウントにログインする必要があり、不便です。
  2. データ プレビュー インターフェイスを提供します。これは、必要なものかどうかを迅速に評価するのに便利です。
  3. 既存のデータセットを追加、削除、変更、確認するのに便利で、全員が一緒に維持するのに便利です。

☆☆☆ マジックプラットフォーム

  • 公式ウェブサイト
  • MotaプラットフォームはHugging Faceの国内版のようで、大きな基本機能ブロックはHugging Faceと似ています。これは業界の良心とも言えますが、これ以上自転車が必要ですか?
  • 調査の結果、Mota プラットフォームにはデータセット管理の機能もあります。上記条件 1 を除き、その他はすべて満たされています。
  • ✓条件1が満たされていない場合: データセットのパッケージを軽くダウンロードします。
    • modelscope のデータ セットの使用ガイドを見るとmsdatasetsこれがコア管理モジュールであることがわかりますmodelscope。つまり、modelscopeインターネット上でデータ セットをダウンロードしたい場合は、まずmodelscopeこの巨大なパッケージをインストールする必要があります。
    • これは、、、などmodelscopeを含む多くのパッケージに依存しているため非常に不便であることは間違いありませんtorchmmcv-fulltensorflow
    • この点に関して、私はすでに問題 #369modelscopeを提起し、独立して軽量になることを望んでいます。→ 調査により、直接インストールすると上記の依存関係がインストールされないことが判明し、現在は問題なく使用できます。modelscope
  • ✓ 条件 2 を満たす: データ プレビュー インターフェイスを提供する。OCR-光学文字認識-復丹-中国語を例に挙げます。
    ここに画像の説明を挿入
  • ✓ 条件 3: 追加、削除、変更、検索が容易であることを満たします。これも上記と同様に Git に基づいて構築および管理されますが、詳細は省略します。

☆☆☆ ハグ顔データセット

  • 公式ウェブサイト
  • プラットフォームは現在、上記の基準をすべて満たしています。唯一の欠点は、国内ユーザーがダウンロードするのが不便なことです。
  • ✓ 条件 1 が満たされている: 2 行のコードはダウンロードして使用するのが簡単です。同時に、transformersこの巨大なライブラリに依存せず、非常に軽量です。
    # pip install datasets
    from datasets import load_dataset
    dataset = load_dataset("SWHL/TableRecognition")
    
  • ✓ 条件 2 を満たす: データ プレビュー インターフェイスを提供する。以下はzh-plus/tiny-imagenet を例にしています。データセット カードインターフェイスには、データセット ビューアーインターフェイスが提供されています。スクリーンショットは次のとおりです (自分で確認できます):
    ここに画像の説明を挿入
  • ✓ 条件 3 を満たす: 既存のデータセットの追加、削除、変更、クエリを行うのに便利です。Hugging Face のすべての機能は Git + Git LFS に基づいて構築されているため、データセットをバージョン管理する機能も当然備わっています。Hugging Face の [データセット] タブで新しいデータセットを作成した後、インターフェイス上でデータセットをアップロードできるため、非常に便利です。以下の画像と同様です。
    ここに画像の説明を挿入

☆オープンデータラボ

  • 公式ウェブサイト
  • 国内プラットフォーム、ダウンロードフレンドリー。ただし、データセットの権限の管理は広範すぎるため、使用する前にすべてのデータセットにログインして登録する必要があります。
  • ✗ 条件 1 を満たさない: コードは簡単にダウンロードして使用できます。プラットフォーム上で指定されたデータセットを使用したい場合は、データセットの保守者であってもユーザーであっても、アカウントを登録して申請する必要があります。
  • ✓ 条件 2 を満たす: プレビュー インターフェイスを提供する。実際に検証した結果、一部提供されていないデータセットもございますが、本機能の有無の判断には影響しません。MNIST-M を例に挙げます。
    ここに画像の説明を挿入
  • ✗ 条件3を満たさない:追加・削除・修正・確認に便利です。このプラットフォームはデータセットがそれほど頻繁に変更されないことを前提としているようで、データセットを編集するためのインターフェースがあまり多くないようです。以下の図は公式ドキュメントからのものです
    ここに画像の説明を挿入

要約する

  • もちろん、上記 3 つ以外にも同様の機能を備えたプラットフォームが存在する可能性があります。見た友人は指摘してくれると嬉しいです。
  • 要約すると、私は今でもハグフェイスの方が好きです。~~ Mota が軽量のデータセット管理パッケージを作成できるのであれば、すぐに Mota に頼るつもりです。~~ が魔法に変わりました。

おすすめ

転載: blog.csdn.net/shiwanghualuo/article/details/131620246