凹んだ非
量子ビットレポートの下からのグハオナン寺院|公開番号QbitAI
機械学習に従事する多くの人々は、データ管理に苦しんでいます。
データセットが古く、手動で修正する必要があります。
または、他の人によって調整された同じデータセットのバージョンが多数あり、開始する方法がありません。
または、適切なデータセットがないため、自分で作成する必要があります。
海外では、Simon Louskyという名前のプログラマーがついにそれに耐えることができず、機械学習用の一連のデータバージョン管理ツール(データバージョン管理、DVC)を開発しました。
ワンクリックでデータセットを呼び出し、ワンクリックで編集履歴を表示します...最も重要なことは、DVCツールの背後に、GitHubのようなデータホスティングコミュニティがあることです。
データセットを「活性化」する
Simon Louskyが学生時代にプロジェクトに取り組んでいたとき、彼はすでに機械学習データセットの管理に不便な点を感じていました。
当時、彼のモデルにはトレーニング用の植物と花のデータが必要であり、オープンソースのデータセットはとにかく妥当な結果を得ることができませんでした。
そのため、彼は数時間を自分で費やし、データセット内の多数の古くて不合理な注釈を1つずつ修正し、トレーニング結果は非常に満足のいくものでした。
このプロジェクトに加えて、彼は後に多くのデータセットの改訂、追加、作成を行い、これらの時間と労力のかかるプロセスを「データセットの調整とエラー」と呼び、意図的に操作履歴を記録し始めました。
彼は徐々に、自分のプロジェクトではデータ管理が常に混乱していることを発見しましたが、GitHubによってホストされているコードに依存することは常に組織化されています。
では、データ管理に特化したGitHubに似たツールを構築してみませんか?
DVCが誕生しました。
これはプリインストールされたツールライブラリであり、データセットの呼び出し、履歴操作情報の表示などの機能を実装します。
その外観は、研究者がローカルの「デッド」データセットでモデルをトレーニングする方法が完全に変更されたことを意味します。
プロジェクトをオンラインでホストされているデータセット(または任意のファイル)にリンクして、リアルタイムで正確な接続を確立できます。データセットの更新と変更は、プロジェクトの開発を容易にするために時間内に通知することができます。
たとえば、「ライブ」データセットであるリポジトリAがあり、メタデータファイルは専用サーバーに保存されている実際の大きなファイルを指しています。
ユーザーは、データセットファイルをディレクトリに整理し、utils関数を使用してコードファイルを追加して、呼び出しを容易にすることができます。
さらに、機械学習プロジェクトに対応するリポジトリBがあります。プロジェクトコードには、DVCを使用してデータセットをインポートするための手順が含まれています。
データレジストリが作成されている限り、AとBの間の接続を確立できます。
mkdir my-dataset && cd my-dataset
git init
dvc init
この時点で、データセットディレクトリは次のようになります。
データセットに関する情報を表示する必要がある場合は、次のコマンドを入力します。
dvc add annotations
dvc add images
git add . && git commit -m “Starting to manage my dataset”
データセットのプレビューはディレクトリに保存され、DVCによって追跡されます。
その後、ユーザーはコードとデータを管理対象ウェアハウスにプッシュするだけで、いつでもどこからでもアクセスして他のユーザーと共有できます。
もちろん、DVCが機能するためには、その背後にあるDAGsHubが当然不可欠です。
DAGsHubは、GitHubのデータ管理バージョンであり、Gitウェアハウス、DVC、機械学習プロセスプラットフォームmlflowの3つの部分で構成されています。
ユーザーは独自のプロジェクトを送信できます。DAGsHubは送信を自動的にスキャンし、実験パラメーター、データファイル、モデルリンクなどの有用な情報を抽出して、それらをシンプルなインターフェイスに結合します。
DAGsHubは、何もダウンロードせずに、コード、データ、モデル、実験を参照および比較できます。
さらに、視覚的なデータパイプライン、データ操作履歴を生成し、モデルのパフォーマンスを記録することもできます。これは自動で美しいものです。
機械学習プロジェクトで「ライブ」データセットを使用する方法
DAGsHubを使用するには、登録してログインするだけです。
次の手順でDVCをインストールします。
pip3 install dvc
DAGsHubでデータセットを見つけてください。独自のモデルでどのように使用しますか?
まず、ホストされているデータセットからディレクトリをインポートし、元のファイルとして扱います。
mkdir -p data/raw
dvc import -o data/raw/images \
https://dagshub.com/Simon/baby-yoda-segmentation-dataset \
data/images
dvc import -o data/raw/annotations \
https://dagshub.com/Simon/baby-yoda-segmentation-dataset \
data/annotations
その後、写真やメモが自分のプロジェクトにダウンロードされ、履歴情報が保存されます。
データセットの変更履歴を知りたい場合は、次のコマンドを実行するだけです。
dvcアップデート
視覚化の結果をデフォルトのディレクトリに戻して保存できます。
便利ですか?
ちなみに、DVCとDAGsHubはどちらもオープンソースで無料です。ぜひお試しください
ポータル:
DVCチュートリアル:https :
//dagshub.com/docs/experiment-tutorial/2-data-versioning/ DAGsHubホームページ:https ://dagshub.com/
- 終了 -
この記事は、NetEaseNews•NetEase注目コンテンツインセンティブプログラムアカウント[qubit]のオリジナルコンテンツです。無断転載は禁止されています。
AIコミュニティに参加し、AI業界でネットワークを拡大します
Qubit「AIコミュニティ」募集中!AI業界に関心のあるAI実践者や友人は、QRコードをスキャンして参加し、50,000人以上の友人とAI業界の発展と技術の進歩をフォローすることができます:
Qubit QbitAI・の署名に関するヘッドライン
վ'ᴗ'իAIテクノロジーと製品の新しいトレンドを追跡する
「シェア」「いいね」「見ている」を3回連続でワンクリック
科学技術のフロンティアは毎日お互いに会っています〜