Tongyi Qianwen-Qwen 技術レポートの詳細の共有

前に書く

皆さんこんにちは、私はLiu Cong NLPです。

アリババはずっと前に Qwen-7B モデルをオープンソース化しましたが、何らかの理由で棚から削除されました。ちょうど昨日、アリババは Qwen-14B モデルをオープンソース化し (オリジナルの 7B モデルもリリースされました)、Qwen の技術レポートの内容も公開しました。今日はそれを皆さんと共有したいと思います。

PS: 国内の大手オープンソースモデルが続々と技術レポートを公開し始めていますので、まとめてください!

Report: https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf
GitHub: https://github.com/QwenLM/Qwen

テクニカル レポートでは、Base モデル、RM モデル、Chat モデル、Code モデル、Math モデル、マルチモーダル モデルを含む Qwen シリーズのモデル全体を紹介します。Code モデルと Math モデルは当面オープンソースではないため、マルチモーダル Qwen-VL モデル自体は独自の論文を持っていますが、今回の共有では 3 つのモデルを紹介するものではありません。興味のある学生は各自で確認してください。7c8d0fb1d0ca6167b5687163d62f1236.png

結論から先に言いますと、Qwen-14B モデルの性能は、12 個のデータセット(言語理解、知識、推論などの複数の分野を含む)における同レベルの既存の 13B よりも優れていますが、それでも GPT には及ばないということです。 -3.5 および GPT-4。

099314f79d3522de5145a4ce4be90337.png

事前トレーニング

データ

事前トレーニング データは合計 3 TB で、主にパブリック ネットワークのドキュメント、百科事典、書籍、コードなどが含まれます。データには複数の言語が含まれますが、主に中国語と英語です。データの品質を確保するために、包括的な前処理手順のセットが開発されました。

  • Web データは HTML からテキスト コンテンツを抽出し、言語認識ツールを使用して言語を決定する必要があります。

  • 正規化後の完全一致重複排除手法や、MinHash および LSH アルゴリズムを使用したファジー重複排除手法など、重複排除テクノロジーを通じてデータの多様性を高めます。

  • ルールと機械学習を組み合わせて、言語モデル、テキスト品質スコアリング モデル、攻撃的な可能性のあるコンテンツを識別するモデルなどの複数のモデルを通じてコン​​テンツをスコアリングすることにより、低品質のデータをフィルタリングします。

  • さまざまなソースからデータを手動でサンプリングしてレビューし、その品質を確保します。

  • 特定のソースからデータを選択的にサンプリングして、モデルがさまざまな高品質のコンテンツでトレーニングされていることを確認します。

トークナイザー

語彙サイズのインフルエンサー モデルのトレーニング効率と下流タスク効果を向上させるために、Qwen はオープンソースの高速 BPE 単語セグメンター tiktoken を使用し、基本語彙ライブラリとして cl100k を使用し、一般的に使用される中国語の単語と他の言語の語彙を追加し、デジタル文字列を分割します。単一の数値に変換すると、最終的な単語リストのサイズは 152K になります。

さまざまな言語のさまざまなモデルの圧縮率を比較すると、次の図に示すように、ほとんどの言語で Qwen が LLaMA-7B、Baichuan-7B、ChatGLM-6B、および InternLM-7B モデルよりも優れています。

d6d797b582931ef193ca9b7b4ec0c387.png

PS: なぜ Baichuan2 モデルを比較しなかったのかわかりません。

モデル

このモデルは Transformer フレームワークを使用しており、主に次の変更が加えられています。

  • 埋め込みと出力投影: 埋め込み層と lm_head 層には重みの共有はなく、これらは 2 つの別個の重みです。

  • 位置埋め込み: 位置エンコードとして RoPE を使用し、FP32 精度の逆周波数行列の使用を選択します。

  • バイアス: モデルの外挿機能を強化するために、QKV アテンション レイヤーにバイアスが追加されます。

  • Pre-Norm と RMSNorm: 事前正規化を使用してトレーニングの安定性を向上させ、従来の正規化方法を RMSNorm に置き換えます。

  • 活性化関数: SwiGLU 活性化関数を使用 従来の FFN の 2 つの行列とは異なり、SwiGLU は 3 つの行列を持ち、隠れ層の次元を 4 倍から 8/3 倍に削減します。

外挿機能の拡張

Transformer モデルのアテンション メカニズムにはコンテキストの長さに大きな制限があり、コンテキストの長さが増加すると、モデルの計算コストとメモリが指数関数的に増加します。Qwen モデルは、単純な非トレーニング計算を利用して、推論中にコンテキストの長さを拡張します。

  • 動的 NTK 対応補間。シーケンス長の増加に応じて位置情報を動的にスケーリングします。

  • LogN-Scaling は、コンテキスト長とトレーニング長の比率に従って Q と V のドット積を再スケーリングし、コンテキスト長が増加してもアテンション値のエントロピーが安定するようにします。

  • ウィンドウの注目はコンテキスト ウィンドウに限定され、モデルが遠すぎるコンテンツに注目するのを防ぎます。また、レイヤーごとに異なるウィンドウ サイズを使用し、下位レイヤーでは短いウィンドウを使用し、上位レイヤーでは長いウィンドウを使用します。

c4e36bbe3e9aaace879fc1890bf0f69a.png

電車

  • 自己回帰言語モデリングの標準的な方法に従い、前のトークンの内容に基づいて次のトークンを予測します。

  • モデルの事前トレーニング中の最大長は 2048 です。バッチ データを構築するために、テキスト コンテンツはランダムにスクランブルおよびマージされ、指定された長さに切り詰められます。

  • アテンション モジュールはフラッシュ アテンション テクノロジーを使用してトレーニング速度を向上させます。

  • オプティマイザは AdamW を使用し、ハイパーパラメータ β1、β2、ϵ はそれぞれ 0.9、0.95、10−8 です。

  • コサイン学習率プランを使用すると、学習率はピーク値の 10% まで減衰します。

  • 混合精度トレーニングには BFloat16 を使用します。

トレーニング前の効果

QWEN モデルは、同じレベルのパラメーターの下で良好なパフォーマンスを示し、LLaMA2-70B などのより大きなモデルでさえ、3 つのタスクで QWEN-14B に上回りました。9cb1932045416c9ec8deacbcf72707f0.png

位置合わせ

監視付き微調整SFT

データセットの教師付き微調整の機能を向上させるために、さまざまなタスクの自然言語生成に焦点を当て、モデルの有用性をさらに向上させるために、複数のスタイルの対話に注釈が付けられています。サイズのトレーニング方法もモデルに影響しますが、Qwen はモデルのトレーニングに ChatML スタイルの形式を使用します。ChatML 形式は、システム品質、ユーザー入力、モデル出力など、モデル内のさまざまな種類の情報を効果的に区別でき、複雑な会話を処理および分析するモデルの能力を強化できます。21ab43369309552aa19b17a928be5d51.png

  • オプティマイザは AdamW を使用し、ハイパーパラメータ β1、β2、ϵ はそれぞれ 0.9、0.95、1e−8 です。

  • モデルの最大入力長は 2048 です。

  • トレーニング バッチ サイズは 128 です。

  • モデルは合計 4000 ステップでトレーニングされ、最初の 1430 ステップで学習率が徐々に増加し、2e−6 のピークに達しました。

  • 過学習を防ぐために、重み減衰の値は 0.1 に設定され、ドロップアウトは 0.1 に設定され、勾配クリッピングは 1.0 に制限されます。

RMモデル

報酬モデルの構築では、まず大量のデータが嗜好モデルの事前トレーニング (PMP) に使用され、次に高品質の嗜好データによって報酬モデルが微調整されます。高品質の嗜好データは、データの多様性と複雑さを確保するために、6600 の詳細なラベルを含む分類システムのバランスの取れたサンプリングを通じて取得されます。

報酬モデルは同じサイズの Qwen モデル + プーリング層から取得され、特別な文末マークのマッピング値がモデルの報酬値として使用されます。

モデルのトレーニング プロセス中、学習率は常に 3e-6、バッチ サイズは 64、最大長は 2048 で、トレーニングは 1 エポックに対して実行されます。

0c8ff943a4d83c4fdd0f36a484878830.png

強化学習 PPO

PPO ステージには、ポリシー モデル、価値モデル、参照モデル、報酬モデルの 4 つのモデルが含まれています。トレーニング プロセス中、ポリシー モデルはまずウォームアップするために 50 ステップでトレーニングされます。これにより、価値モデルがさまざまな報酬モデルに効果的に適応できるようになります。PPO プロセス中、クエリごとに 2 つの応答が同時にサンプリングされ、KL 発散係数が 0.04 に設定され、報酬は平均値に従って正規化されます。

政策モデルと価値モデルの学習率はそれぞれ 1e-6 と 5e-6 です。トレーニングの安定性を高めるため、クリッピング値は0.15となっています。推論を実行するとき、生成されたポリシーの top-p 値は 0.9 に設定されます。

アライメント結果

Qwen の効果は、LLaMA2、ChatGLM2、InternLM、Baichuan2 などの同規模の他のオープンソース モデルよりも優れています。55f1775e507d67a31a6441d16d4499b0.png

また、手動評価用に幅広いトピックをカバーするテスト データ セットを構築し、Qwen-7B-Chat (SFT)、Qwen-14B-Chat (SFT)、Qwen-14B-Chat (RLHF)、および GPT4 の対話パフォーマンスを比較しました。 . GPT3.5の違い。RLHF モデルは SFT モデルよりも大幅に優れていることがわかり、RLHF が人間により人気のある回答を生成できることを示しています。f63397342cefe77e3716634600700dec.png

ツールの使用法

Qwen モデルには、次のツール使用機能があります。

  • 目に見えないツールは ReAct プロンプトを通じて使用できます。

  • Python インタープリターを使用して、数学的推論、データ分析、その他の能力を強化します。

  • エージェントは、人間との対話中に、HuggingFace のマルチモーダル モデルの大規模なコレクションにアクセスできます。

PS: 2000 個の高品質データ - React 形式のデータ。

如何用 ReAct Prompting 技术命令千问使用工具
https://github.com/QwenLM/Qwen/blob/main/examples/react_prompt.md

要約する

大規模なモデルはオープンソースであるだけでなく、技術レポートも公開されています~

Zhihu の「Liu Cong NLP」にもっと注目してください。質問のあるお友達も、プライベート チャット用に WeChat「logCong」に私を追加してください。友達を作り、一緒に学び、一緒に進歩しましょう。私たちのスローガンは「人生は無限、学習は無限」です。

PS: 新しい本「ChatGPT の原則と実践的な戦闘」がリリースされました。ぜひご購入ください~~。

過去におすすめしたもの:

おすすめ

転載: blog.csdn.net/fogdragon/article/details/133397860