まずはオープンソース!Yuanxiangの国内大型モデルは権威ある評価でLlama2とBaichuanを上回る

8月7日、深セン - 国内の大規模モデルのオープンソースエコロジーと産業アプリケーションの繁栄と発展を促進するために、Yuanxiang XVERSE Companyは、数百億ドルの高性能汎用大規模モデルXVERSE-13Bを発表しました。のパラメータはオープンソースであり、商用利用は無料です。

XVERSE-13B は現在、同じサイズの最高の多言語大規模モデルであり、多くの権威ある標準中国語と英語の評価において、そのパフォーマンスは Llama-2-13B、Baichuan-13B および他のオープンソースの大規模モデルを上回っています。国内外で利用可能です (図 1 を参照)。高性能、完全なオープンソース、商用可用性などの多くの利点があり、大学や企業で大規模なモデルを導入および使用するコストを大幅に削減でき、国内での代替を実現するだけでなく、中国のアプリケーションにとってもより良い選択肢となります。

オープンソース情報は GitHub と Hugging Face で公開されています。

XVERSE-13B 大規模モデルは、標準的な Transformer 構造に基づいており、1 兆 4,000 億の高品質で多様なトークンの学習データに基づいて、130 億パラメータの大規模モデルがゼロから学習 (トレーニング フロム スクラッチ) されており、より多くの機能をサポートしています。 40 言語以上、コンテキスト ウィンドウのサイズは 8192 です。Yuanxiang は、近い将来、すぐに使える大規模モデルの Chat バージョンをリリースし、開発者エクスペリエンスの最適化を継続する予定です。

図 1: 複数の信頼できる評価を経て、XVERSE-13B は現在、同じサイズの最適な多言語大型モデルです。

XVERSE-13Bは一般的な大規模モデルであり、これに基づいて生成されるサービスには、テキスト生成、自動筆記、データ分析、知識クイズ、多言語翻訳、パーソナライズされたインタラクション、キャラクターロールプレイング、専門アシスタントなどが含まれており、これらを提供できます。ユーザーに大きな価値をもたらします。

XVERSE-13B は、医療、教育、文化観光、金融、エンターテインメントなどの複数の業界での幅広い応用が期待されており、Yuanxiang 独自のメタバース アプリケーションに対する強力な技術サポートも提供します。

Yuanxiang XVERSE は、2021 年初めに深センに設立され、中国の大手 AI およびメタバース技術サービス会社で、2022 年 3 月に 1 億 2,000 万米ドルの A および A+ ラウンドの資金調達を完了しました。Yuanxiang は、3D および AI テクノロジーの分野で業界をリードする「デバイスとクラウドのコラボレーション」3D インタラクティブ テクノロジーを独自に開発し、Tencent Music、CCTV、Macau Ruins などの業界の主要顧客にサービスを提供しています。

最も強力なオープンソースの大規模モデルを作成する

トレーニング コーパスは、大規模なモデルの効果にとって非常に重要です。XVERSE-13B は、最大 1.4 兆の高品質で多様なトークンのトレーニング データ セットを構築し、同時にサンプリング戦略とデータ構成を最適化することで、モデルが中国語、英語、英語など 40 以上の言語をサポートできるようにします。ロシア語、スペイン語、および多言語タスクの処理パフォーマンスと結果は優れています。

XVERSE-13B は、同じサイズのモデルの中で最も長い 8192 コンテキスト ウィンドウをサポートしているため、より長い複数ラウンドの対話、知識の質問と回答、要約などの複雑なシナリオを適切に処理でき、より広い範囲を備えています。アプリケーションの。

このモデルは、標準の Transformer ネットワーク構造を使用し、ゼロからトレーニングされ、高効率オペレーター、メモリ最適化、並列スケジューリング戦略、データ コンピューティングと通信のオーバーラップ、プラットフォームとフレームワークのコラボレーションなど、多数の主要テクノロジーも独自に開発しています。 、トレーニングをより効率的にするために、モデルは強力な安定性を備えており、キロカロリー クラスターのピーク計算能力利用率は 58.5% に達し、業界トップにランクされます。

中国の複数の権威ある評価で優れたパフォーマンスを示し、Baichuan-13B を上回りました。

モデルのさまざまな機能を検証するために、XVERSE-13B は、C-Eval、AGIEval、GAOKAO-Bench を含む 3 つの最も影響力のある中国の評価ベンチマークの総合評価に合格し (図 2)、主流モデルを上回る優れたパフォーマンスを示しました。 Baichuan-13B、Llama-2-13B、Ziya-LLaMA-13B など、同じパラメーター スケールの

図 2: 複数の権威ある中国の評価において、XVERSE-13B は同じパラメータスケールの主流モデルを上回っています。

中国の C-Eval の評価 (図 3) では、XVERSE-13B の総合スコアは 54.7 ポイントに達し、同じパラメータスケールの主流モデルを上回りました。

C-EVAL 評価ベンチマークは、上海交通大学、清華大学、エディンバラ大学が共同で作成したもので、さまざまな業界の 52 科目をカバーする中国語モデルの包括的なテスト セットです。

図 3: C-Eval の中国語評価結果

AGIEval評価では、XVERSE-13Bの総合スコアは41.4点に達し、同じパラメータスケールの主流モデルを上回りました(図2)。

AGIEval 評価ベンチマークは、中国の大学入学試験、司法試験、および米国の 20 の SAT、LSAT、GRE、GMAT を含む人間の認知および問題解決関連タスクにおける基本モデルの能力を包括的に評価するために Microsoft Research によって開始されました。厳しい正式な入学試験と職業資格試験。

GAOKAO-Bench の評価では、XVERSE-13B の総合スコアは 53.9 ポイントに達し、同じパラメータスケールの主流モデルを大きく上回りました (図 2)。

GAOKAO-Bench 評価ベンチマークは、復旦大学の研究チームが作成した評価フレームワークで、中国の大学入試問題をデータセットとして使用し、中国語理解と論理的推論における大規模モデルのパフォーマンスを評価します。

英語試験の成績はLlama-2-13Bを上回っている

XVERSE-13B は英語でも同様に優れたパフォーマンスを示し、最も権威のある英語評価 MMLU では、その総合スコアは 55.1 ポイントと高く、Llama-2- を含むほぼすべての次元で同じパラメータ スケールの主流モデルを上回っています (図 4)。 13B、白川-13B 待ちます。

図 4: MMLU 英語テストの結果

MMLU は、カリフォルニア大学バークレー校などの有名大学が共同で設立したもので、科学、工学、数学、人文科学、社会科学の分野の 57 科目を統合しており、主な目的は、科学、工学、数学、人文科学、社会科学の分野の 57 科目を統合しています。モデルの英語における学際的な専門能力。初心者レベルから専門レベルの上級者まで、幅広い内容をカバーしています。

この評価は大規模モデルのベースの中核となる機能のみを反映していることを強調しておく必要があり、Yuanxiang は引き続きモデルの機能を繰り返し最適化し、包括的に改善していきます。

無料で商用利用可能なハルビン工業大学が、研究を支援するためにこれを初めて使用しました。

XVERSE-13B コードはオープンソースの精神に準拠し、Apache-2.0 プロトコルを採用しており、学術研究向けに完全にオープンソースであり、企業は登録するだけで無料で商用利用できます。

ハルビン工業大学(以下「HIT」という)は、我が国で自然言語処理研究に取り組む初のトップ科学研究チームとして、XVERSE-13B大型モデルを使用して関連研究活動を推進することに率先して取り組んできました。ハルビン工業大学コンピューター科学技術学部の張偉南教授は、「オープンソースはインターネット時代の主流モデルです。コミュニティに貢献し、継続的な技術革新を促進するだけでなく、コラボレーションを利用して問題を解決することもできます」と述べました。アルゴリズムの透明性、安定性、社会的信頼などの一般的な問題です。」

Yuanxiang XVERSE の創設者である Yao Xing 氏は、「現実世界の知覚知能 (3D) と現実世界の認知知能 (AI) は汎用人工知能 (AGI) を探求する唯一の方法であり、それは Yuanxiang の継続的な開発のフロンティアでもあります」と述べています。 3D と AI の探求、テクノロジーの原動力 XVERSE-13B は国内技術の自立と自己改善に向けた小さな一歩であり、オープンソースとオープンソースは大規模モデルの生態学的活力を刺激し、 「今後の AI 開発は大きな前進です。この開発は大きな推進力をもたらしています。私たちは多くの企業や開発者と手を携えて、大規模商用利用の新時代を築くことを楽しみにしています。」

図 5: Yuanxiang 3D AIGC レイアウト

おすすめ

転載: blog.csdn.net/FL63Zv9Zou86950w/article/details/132144342