Baichuan2 オープンソース大型モデル正式リリース、王暁川:パフォーマンスは LLaMA2 を超える

219c2f4c43ba37fadea5c8d61bc3e6a3.png

c4430230eac897cbeb61af16d9cb6156.png




ビッグデータ産業イノベーションサービスメディア

——データに注目・ビジネスを変える


ChatGPTが普及した後、ソーシャル大手のMetaは追いつくのに苦労し、それぞれ3月と7月にオープンソースのLLaMAとLLaMA2のラージモデルをリリースし、ラージモデルのオープンソース運動を主導した。

LLaMA2 大型モデルは 70 億、130 億、700 億の 3 つのバージョンのパラメータを含み、その性能は GPT3.5 に直接追いつき、リリース後大きな話題を呼びました。業界では一般に、テクノロジー大手間のビッグモデルの戦いにおいて、LLaMA2 がメタへの切符を勝ち取ったと考えられています。

LLaMA2、OpenAIのGPT-4、およびGoogleのPaLMは、基本的に海外の大型モデル市場のパターンを固定する3つであり、オープンソースとクローズドソースに関する議論も引き起こしています。一般的なコンセンサスは、携帯電話市場におけるオープン モードの Android とクローズド モードの IOS と同様に、大型モデルの戦場では、オープン ソースとクローズド ソースが長期間にわたって共存するということです。

国内の大型モデルの開発では、クローズドソース ルートには Baidu の Wenxinyiyan と iFlytek の Spark Model が含まれ、オープンソース ルートには Alibaba の Tongyi Qianwen が含まれます。スタートアップの中でも、Wang Xiaochuan氏が設立したBaichuan Intelligenceは、オープンソースのBaichuan-7B/13BとクローズドソースのBaichuan-53Bの両方を保有しており、オープンソースとクローズドソースの間に独自のビジネス領域を構築している。

Baichuan のスピード、大型モデルの発売まで平均 28 日

9月6日、Baichuan Intelligentは「Baichuanと海、オープンソースとWin-Winの出会い」をテーマに記者会見を開催し、オープンソースのアップグレードと微調整を経たBaichuan2大型モデルを発表した。Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-chat およびそれらの 4 ビット量子化バージョンはオープンソース化後、無料で商用利用が可能です。

これに先立ち、8月31日、「生成型人工知能サービスの管理に関する暫定措置」に登録される最初の8つの企業/機関のうちの1つとして、百川智能の大型モデル製品が正式に発売され、一般公開された。

Baichuan Intelligence は Sogou の創業者である Wang Xiaochuan 氏によって 4 月に設立され、5 月にはエンジェルラウンドで 5,000 万米ドルの資金調達を完了し、10 以上の機関から共同出資を受けました。Baichuan Intelligent は 6 月に、70 億パラメータを備えた初の汎用大型モデルである Baichuan-7B を発売しました。Baichuan Intelligent は 7 月に、130 億パラメータを備えた一般的な大型モデル Baichuan-13B-Base と会話モデル Baichuan-13B-chat の 2 つの定量化バージョンを発表しました。8月には、530億個のパラメータを備えた汎用大規模モデルBaichuan-53Bが正式に発売された。

Baichuan Intelligent は 3 か月以内に、平均 28 日ごとに 1 つの大型モデルをリリースし、同時に 3 つの大型モデルをリリースし、Baichuan の驚くべきスピードを達成しました。

Wang Xiaochuan氏の計画によれば、Baichuan IntelligenceはChatGPT3.5のベンチマークとなる大規模モデルを第4四半期にリリースし、その大規模モデルのスーパーアプリケーションを2024年の第1四半期にリリースする予定だという。

科学技術大学が昇格、Baichuan2 が LLaMA2 に挑戦

Baichuan2 オープンソース大型モデルは、Baichuan Intelligent が 3 つの大型モデルを連続してリリースした後の、もう 1 つの主要なテクノロジーの反復です。

Wang Xiaochuan 氏によると、2 つのオープンソース大規模モデル Baichuan2-7B-Base と Baichuan2-13B-Base は、2.6 兆の高品質多言語データに基づいてトレーニングされており、芸術と科学の両方、数学的機能、コーディング機能を備えた大規模なモデルです。機能、セキュリティ機能、論理的および意味的理解が大幅に向上しました。

関連する実行スコアによると、前世代の Baichuan-13B-Base と比較して、Baichuan2-13B-Base は数学的能力が 49%、コーディング能力が 46%、セキュリティ能力が 37%、論理的推論能力が 25% 向上しており、意味理解能力 15%。

レポートによると、70 億パラメータの Baichuan2-7B オープンソース大規模モデルは、中国語レベルで LLaMA2 130 億パラメータのオープンソース大規模モデルを上回り、英語レベルではそれに匹敵します。Baichuan2-7B は「小さく拡張して大きく」を実現しており、小型モデルは大型モデルと同等であり、同じサイズの大型モデルと比較した場合、Baichuan2 シリーズの大型モデルの性能は総合的に LLaMA2 の性能を上回ることが期待されます。

オープンなトレーニング プロセス、500 万回以上ダウンロード

Wang Xiaochuan 氏は、LLaMA2 のオープンソース プロトコルは中国のユーザーにとって十分にフレンドリーではなく、Baichuan2 のリリース後は LLaMA2 に置き換えることができると述べました。中国のユーザーにとって、「オープンソース モデルとしての LLaMA2 の時代は終わった」。

Baichuan Intelligence は、オープンソースとクローズドソースを同等に重視する戦略を採用しており、大規模モデルの研究開発を促進すると同時に、開発者エコシステムの育成にも積極的に取り組んでいます。Wang Xiaochuan 氏によると、Baicuan-7B と Baicuan-13B という 2 つの大型モデルがオープンソース化されてから、これらは多くの信頼できるリストの上位にランクされ、500 万回以上ダウンロードされました。

Baichuan2 大型モデルがオープンソース化されたとき、Baichuan Intelligent は関連する技術レポートをリリースし、学術コミュニティでの詳細な研究を促進するために大型モデルのトレーニング プロセスを初めて公開しました。

ご存知のとおり、大規模モデルのトレーニングには、大量の高品質データの取得、大規模トレーニング クラスターの安定したトレーニング、モデル アルゴリズムのチューニングなどの複数のリンクが含まれており、それぞれのリンクに多大な人材とコンピューティング リソースの投資が必要です。Baichuan インテリジェント オープン モデル トレーニングの 220B から 2460B までの全プロセスのチェック ポイントは、科学研究機関が大規模モデル トレーニング プロセス、モデルの継続トレーニング、モデル値の調整などを研究する上で非常に価値があり、科学研究の進歩を大幅に促進できます。大型モデル。

Text: Bugle-X /  Data Ape

1267e17ebcea13359dc95d33f01c72cb.jpeg

a101aeafc8b97ec7b19425aea5489b9c.png

Supongo que te gusta

Origin blog.csdn.net/YMPzUELX3AIAp7Q/article/details/132769471
Recomendado
Clasificación