オリジナルタイトル:キャンドル教育:どのように大規模なデータ・ロード機械学習における問題に対処するには?
ワックスのトーチ教育の教師は、データベースが発生し、メモリに収まるように大きすぎることが多いので、機械学習アルゴリズムに対処する上で述べたいくつかの問題が発生しました:解決する方法の崩壊につながったデータ収集アルゴリズムを実行している場合は?大きなデータファイルを処理するときに必要、ロードする方法?どのように便利なメモリ不足の問題を解決するには?
これらの問題を解決するために、ワックスのトーチ教育の先生が7つの推奨事項を示します。
1.より多くのメモリを割り当て
、あなたが手動で割り当てることができるかどうかを確認することができ、いくつかのMLツールやデータベースのデフォルトのメモリ設定は無理があります。
2.小さなサンプルが使用する
すべてのデータを処理する必要性を確認しましたか?この例にランダムなデータサンプルを使用して、データの最終的なフィッティングの前に。
3.より大きなデバイスのメモリを使用し
ますが、物理的手段により多くのコンピューティングパワーを得ることができるので、大容量メモリサーバを雇うことができます。
4.データ形式を変更し
、バイナリ形式として、データのロードを高速化し、メモリ使用量を削減するためのデータフォーマットを変更することによって。
データ・ストリームまたはプログレッシブ負荷が
徐々に使用されるメモリにデータをロードすることができます。
6.リレーショナルデータベースは
内部的には、ディスク上に格納されたデータは、徐々にロードすることができ、照会する標準言語(SQL)を使用することができます。
7.大規模なデータ・プラットフォームを使用して
、このような非常に大規模なデータは特別に設計されたプラットフォームを設定し、処理することですスパークMLLib、とHadoopのMahoutの機械学習ライブラリとライブラリを使用して。
ワックストーチ教育の教師は、データベース関連の問題の家に収まる大きすぎる場合、あなたは7つのメソッド上から解決策を見つけることができる、と述べました。