Alibaba Cloud Tongyi Qianwen 14B モデルはオープンソースです! Llama2などの同サイズモデルを上回る性能

9月25日、Alibaba CloudはTongyi Qianwenの140億パラメータモデルQwen-14Bとその会話モデルQwen-14B-Chatをオープンソース化し、商用利用は無料となった。Qwen-14B は複数の信頼できる評価において同じサイズのモデルを上回り、一部の指標は Llama2-70B にさえ近いものです。Alibaba Cloudはこれまでにも70億パラメータモデル「Qwen-7B」などをオープンソース化しており、ダウンロード数は1カ月以上で100万件を超え、オープンソースコミュニティでは有名な作品となった。

Qwen-14B は、複数の言語をサポートする高性能のオープンソース モデルです。同様のモデルと比較して、より高品質のデータを使用します。全体のトレーニング データは 3 兆トークンを超え、モデルは推論、認知、計画においてより強力になります。 . そして記憶力。Qwen-14B は、8k の最大コンテキスト ウィンドウ長をサポートします。

写真

図 1: Qwen-14B は、12 件の信頼できる評価において、すべての面で同じサイズの大型 SOTA モデルを上回っています。

Qwen-14B-Chat は、ベースモデルに対して細かい SFT を経て得られた対話モデルです。ベースモデルの強力なパフォーマンスにより、Qwen-14B-Chat が生成するコンテンツの精度が大幅に向上し、より人間の嗜好に沿ったものとなり、コンテンツ作成の想像力と豊かさが大幅に拡張されました。

Qwen には優れたツール呼び出し機能があり、開発者は Qwen ベースのエージェントをより迅速に構築できます。開発者は、簡単な指示を使用して Qwen に複雑なツールの使い方を教えることができます。たとえば、コード インタープリタ ツールを使用して Python コードを実行し、複雑な数学的計算、データ分析、チャートの描画などを行うことができます。また、さまざまな機能を備えた「高度なデジタル ツール」を開発することもできます。複数文書のQ&Aや長文の執筆など。アシスタント」。

パラメータ レベルが 100 億未満の大規模な言語モデルは、現在、開発者がアプリケーションの開発や反復に使用する主流の選択肢となっていますが、Qwen-14B は、同じサイズの多くのモデルを打ち破り、小規模なモデルのパフォーマンスの上限をさらに向上させ、 MMLU、C-Eval、GSM8K、MATH、GaoKao-Bench、およびその他の 12 の権威ある評価で優れたパフォーマンスを示し、評価ですべての SOTA (State-Of-The-Art) 大型モデルを上回り、Llama も上回る最高の結果を達成しました。全ての面で-2-13B Llama 2と比較 34B、70Bモデルも遜色ありません。同時に、Qwen-7B も完全にアップグレードされ、コア指標が最大 22.5% 増加しました。

写真

図 2: Qwen-14B のパフォーマンスは同じサイズのモデルを上回ります

ユーザーは、Moda コミュニティからモデルを直接ダウンロードすることも、Alibaba Cloud Lingji プラットフォームを通じて Qwen-14B および Qwen-14B-Chat にアクセスして呼び出すこともできます。Alibaba Cloud は、モデルのトレーニング、推論、展開、微調整などを含むあらゆるサービスをユーザーに提供します。

8 月には、Alibaba Cloud のオープンソース Tongyi Qianwen 70 億パラメータのベース モデル Qwen-7B が、HuggingFace と Github のトレンド リストに登場しました。わずか1か月強で累計ダウンロード数は100万件を突破した。Qwen に基づく 50 以上のモデルがオープン ソース コミュニティに登場し、コミュニティ内の多くのよく知られたツールやフレームワークに Qwen が統合されています。

写真

Tongyi Qianwen は、中国で最も深く実装され、広く使用されている大規模モデルです。Tongyi Qianwen に関連する国内アプリケーションは数多くあり、月間販売数は 1 億を超えています。多数の中小企業、科学研究機関、個人開発者が利用しています。アリババのタオバオ、DingTalk、Future Elf などの外部の科学研究機関やスタートアップ企業だけでなく、Tongyi Qianwen をベースとした独自の大規模モデルやアプリケーション製品の開発についてもお問い合わせください。

浙江大学と高等教育出版局は、Qwen-7B に基づいた大規模な Zhihai-Sanle 教育垂直モデルを開発し、全国の 12 の大学に適用され、インテリジェントな質疑応答、テスト問題生成、学習ナビゲーション、教育評価を提供できます。このモデルは Alibaba で使用されています Yunlingji プラットフォームは外部にサービスを提供し、1 行のコードで呼び出すことができます; Zhejiang Youlu Robot Technology Co., Ltd. は Qwen-7B を道路清掃ロボットに統合しましたロボットが自然言語でユーザーとリアルタイムに対話し、ユーザーが提示したニーズを理解できるようにすることで、ユーザーの高レベルの指示を分析して解体し、高レベルの論理分析とタスク計画を実行し、清掃タスクを完了します。

Alibaba CloudのCTO、Zhou Jingren氏は、Alibaba Cloudは引き続きオープンソースとオープン性を採用し、中国の大規模モデルエコシステムの構築を推進すると述べた。Alibaba Cloud は、オープンソースの力を強く信じており、オープンソースの自社開発大規模モデルを先導しており、大規模モデルのテクノロジーを中小企業や個人の開発者により早く提供したいと考えています。

Alibaba Cloud はまた、中国最大の AI モデル オープンソース コミュニティである ModelScope の構築でも主導権を握り、業界全体の力を結集して大規模モデル テクノロジーの包括性と応用を共同で推進しました。過去 2 か月で、Moda コミュニティでのモデルのダウンロード数は 4,500 万から 8,500 万に急増し、ほぼ 100% 増加しました。

添付:

Magic コミュニティ モデルのアドレス:

https://www.modelscope.cn/models/qwen/Qwen-14B-Chat/summary

https://www.modelscope.cn/models/qwen/Qwen-14B/summary

マジック コミュニティ モデルの経験:

https://modelscope.cn/studios/qwen/Qwen-14B-Chat-Demo/summary

Alibaba Cloud Lingji プラットフォームのアドレス:

https://help.aliyun.com/zh/dashscope/developer-reference/tongyi-qianwen-7b-14b-api-detailes

https://dashscope.console.aliyun.com/model

クウェンの論文アドレス:

https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf

ギットハブ:

https://github.com/QwenLM/Qwen

ハグフェイス:

https://huggingface.co/Qwen/Qwen-14B

https://huggingface.co/Qwen/Qwen-14B-Chat

おすすめ

転載: blog.csdn.net/FL63Zv9Zou86950w/article/details/133278586