MosaicML は 700,000 のトレーニングコストで 300 億のパラメータモデルを開始しました

AIスタートアップ企業MosaicMLが最近リリースした言語モデルMPT-30Bは、パラメータだけで見ると300億個のパラメータを持ち、数千億個のパラメータをもつモデルの分野では傑出したものではありません。しかし、この新しいモデルの学習コストは他のモデルに比べてほんの数分の一であり、より幅広い分野でのモデルの適用が拡大すると期待されています。

MosaicMLのCEO兼共同創設者であるNaveen Rao氏は、MPT-30Bの訓練費用は70万ドルで、GPT-3の訓練に必要な数千万ドルよりもはるかに少ないと述べた。さらに、MPT-30B モデルの品質は、2020 年に OpenAI によってリリースされたオリジナルの GPT-3 の品質を上回っています。MPT-30B はコストが低く、サイズも小さいため、より迅速にトレーニングしてローカル ハードウェア デバイスに展開することもできます。

MosaicML は、Alibi および FlashAttendant テクノロジーを使用してモデルを最適化し、より長いテキスト長と GPU コンピューティングの高い使用率を実現します。MosaicML は、Nvidia H100 GPU を使用できる数少ないラボの 1 つでもあり、GPU あたりのスループットが以前と比べて 2.4 倍以上向上し、完了時間が短縮されました。

300 億パラメータ これは大規模モデルの分野でよく見られる数字ですが、なぜ 300 億パラメータがそれほど特別なのでしょうか? MosaicML の主任科学者である Frankle 氏は、最初の 300 億のパラメーターにより、GPT-3 と同等かそれよりわずかに優れた品質を維持しながら、ローカル ハードウェア上で簡単に実行できることが保証できると説明しました。

第 2 に、300 億のパラメーター制限を超えるモデルでは、モデルを複数の並列セグメントに分割する必要があり、多くの場合、より高価なマルチ GPU セットアップも必要になります。

MosaicML は、AI テクノロジーをよりアクセスしやすくすることに加えて、モデルのパフォーマンスを向上させるためにデータ品質を向上させることにも重点を置いています。彼らは現在、ユーザーが事前トレーニング中にドメイン固有のデータを階層化するのに役立つツールを開発中です。これにより、多様で高品質なデータの混合が保証されます。モデルを 300 億パラメータに拡張することは、MosaicML の最初のステップにすぎません。その後、コスト削減を前提として、より大規模で高品質なモデルを立ち上げる予定です。

開発者は、 Hugging Faceからオープンソースの MPT-30B 基本モデルをダウンロードして使用できます。また、開発者は、独自のデータを使用して独自のハードウェア上でモデルを微調整することもできます。

おすすめ

転載: www.oschina.net/news/246496/mosaicml-mpt-30b