私は、入口および対応するモデルを出力するためのバージョン管理システムを〜1メートル+ドキュメントを分類して持っていると思います。
時間をかけてデータの変更:
- 時間をかけてサンプルサイズが大きくなります
- 新しい機能が表示される場合があります
- 匿名化の手順は、時間の経過とともに変更される可能性があります
だから、基本的には「すべてが」変更される可能性があります:観測、特長と値の量を。我々は、入力データの更新されたすべてのバージョンを保存ので、私たちは、+ディスクボリュームのGBを10/100を使用せずミリリットルモデルの構築再現性を作ることに興味があります。現在、データのボリュームサイズは〜700メガバイトです。
私が見つけた最も有望なツールです:https://github.com/iterative/dvc。そこからR / Pythonでロードされ、現在のデータがデータベースに格納されています。
質問:
(非常に約)どのくらいのディスクボリュームをすることができDVCを使用して保存?
1は、おおよそのことを見積もることができます。私は、データの唯一の「差分」が保存されているかどうかを確認してみました。:私はを読んで多くの情報を見つけるdidntのhttps://github.com/iterative/dvc#how-dvc-worksまたはその他のドキュメント。
私は、これは非常にあいまい質問であることを承知しています。そして、それは非常にデータセットに依存します。しかし、私はまだ非常におおよそのアイデアを得ることに興味があると思います。
私はDVCストアのデータを行う方法をまとめしようと、私はあなたがあなたの特定のシナリオで消費/保存されますどのくらいのスペースこのことから私たちを理解することができるでしょう期待しましょう。
DVCは、保存および個々のデータを重複除外されたファイルレベル。だから、それは通常、実用的な観点から、何を意味しています。
私が使用するdvc add
例として、同じ論理がDVCキャッシュにデータファイルやディレクトリを保存するすべてのコマンドに適用される- dvc add
、dvc run
など
シナリオ1:修正ファイル
のは、私は、単一の1ギガバイトのXMLファイルを持っている想像してみましょう。私はDVCでそれを追跡を開始します:
$ dvc add data.xml
現代のファイルシステム上(または場合hardlinks
、symlinks
参照、有効になっているこのことを、このコマンドの後、我々はまだ(ファイルがDVCキャッシュに移動し、ワークスペースにまだ存在しているにもかかわらず)1ギガバイトを消費詳細)。
それでは、その少し変更して再度保存してみましょう:
$ echo "<test/>" >> data.xml
$ dvc add data.xml
このケースでは、2ギガバイトを消費しています。DVCは、同じファイルの2つのバージョン間の差分を行いません、どちらもそれはデータのほんの一部が変更されていることを理解することがチャンクまたはブロックにファイルを分割します。
正確に言うと、それは計算し
md5
、各ファイルの内容アドレスと、キーと値のストレージに保存します。md5
ファイルのキー(キャッシュ内のファイルのパス)として機能し、値は、ファイルそのものです。(.env) [ivan@ivan ~/Projects/test]$ md5 data.xml 0c12dce03223117e423606e92650192c (.env) [ivan@ivan ~/Projects/test]$ tree .dvc/cache .dvc/cache └── 0c └── 12dce03223117e423606e92650192c 1 directory, 1 file (.env) [ivan@ivan ~/Projects/test]$ ls -lh data.xml data.xml ----> .dvc/cache/0c/12dce03223117e423606e92650192c (some type of link)
シナリオ2:変更ディレクトリ
それでは、私たちは、単一の大規模な1GBのディレクトリ持っている想像してみましょうimages
たくさんのファイルとを:
$ du -hs images
1GB
$ ls -l images | wc -l
1001
$ dvc add images
この時点で、我々はまだ1ギガバイトを消費します。何も変わっていません。しかし、我々はより多くのファイルを追加(またはそれらの一部を削除して)ディレクトリを変更する場合:
$ cp /tmp/new-image.png images
$ ls -l images | wc -l
1002
$ dvc add images
この場合、新しいバージョン我々を保存した後、まだ近くに1GBのに消費。DVCは、ディレクトリレベルで差分を計算します。これは、ディレクトリ内の前に既存されたすべてのファイルを保存することはありません。
-同じ論理がDVCキャッシュにデータファイルやディレクトリを保存するすべてのコマンドに適用されるdvc add
、dvc run
など、
、それは明らかだか、我々は詳細、明確化を追加する必要がある場合は私に知らせてください。