ディープラーニング自然言語処理共有
Zhihu: Huang Wenhao、
Beijing Zhiyuan AI Research Institute 技術ディレクター
LLaMA2 のリリース後、中国のオープンソース コミュニティはローカライズ作業を本格的に開始しました。LLaMA2 モデルがリリースされた日は、たくさんの作業が行われていて、私がクリックしたときは空のリポジトリでした。幸いなことに、全員が非常に効率的で、ボリュームが飛躍的に上がりました。過去 2 日間、いくつかの関連タスクを実行しましたが、全体的にはまだ良好です。LLaMA2 の強力な英語の基礎能力は、少ない中国語データと不親切なトークナイザーと相まって、中国語 SFT を行う学生や中国語の事前トレーニングを続ける学生に素晴らしい機会を与え、同時に、ゼロから訓練された一部のプレイヤーにとっては大きな挑戦となるでしょう。以下は、私が実際に使用して非常に良いと感じたいくつかのジョブの記録です。
NLP グループに入る —> NLP 交換グループに参加する
LinkSoul の中国語 LLaMA2-7b
私はこの作品の著者数人とよく知っており[1]、彼らに何度も電話をかけました。しかし、それでも彼らの手の速さは私に衝撃を与えました。みんなが穴を埋めるためにリポジトリを開いているとき、数千万のデータに対する作者の指示チューニングが完了します。実際、LLaMA2がオープンソース化された日に、私は中国語に対応したこのモデルを実際にプレイしました、そして中国語能力まともです。
同時に、チームは非常に現実的で、ランキングや PR に執着せず、非常に実用的な Docker ワンクリック デプロイメント、4 ビット定量化、API サービスを次々と立ち上げており、ユーザー コミュニティも非常に活発で、多くの質問にすぐに答えることができます。
著者の主な貢献は、命令チューニングの手法を通じてモデルが命令に従う能力を高めると同時に、大量の中国語命令データのトレーニングを通じて、モデルの中国語能力が向上したことです。大幅に改善されました。アルパカやビクーニャなどの作品とは異なり、著者は1000w近い指導データを指導微調整に使用し、中国語能力の向上と指導微調整の2つのタスクを完了します。また、1,000 万件の指示データはすべてオープンソースです。少しのリソースがあれば誰でもこの方法を試すことができます。アドレスはこちら[2]。
オープンソースの命令データセットを詳しく見ると、作成者が多数のオープンソースの命令微調整データセットをマージし、同時にフォーマットを適切に処理していることがわかります。コードを注意深く見ると、作成者が微調整にシステム メッセージ メソッドを使用していることがわかります。微調整中、中国語と英語のデータセットの比率はほぼ 1:1 の関係を維持しました。これらの詳細から、作成者が命令の微調整について深い理解があり、その作業が非常に細心の注意を払って行われていることがわかります。これは、命令の微調整を行う他のすべてのチームにとって学ぶ価値があります。
OpenCompass を使用して MMLU と CMMLU をテストしただけですが、全体的なパフォーマンスは問題ありません。
作者が中国語の語彙を増やして事前トレーニングを継続しなかったため、LLaMA2 の中国語トークナイザーのパフォーマンスの低下の問題が解決されなかったのは残念です。
考慮に値するもう 1 つの問題は、命令の微調整を通じてモデルに知識を追加し、命令を通じて中国語の最も重要な知識をモデルに与えることが可能かどうかです。同時にフランなどの英語コマンドデータも搭載。このモデルは、大量の命令微調整データを使用して、知識学習と命令学習を同時に実行できます。COIG-PC [3]データセットは、さまざまな中国語 NLP タスクに基づいて数億の指導データを編成しており、このタスクを完了できるはずです。
FlagAlpha の Llama2-中国語-7B
最初のものと名前が似すぎていて、何度か違いが分かりませんでした。これは、Github 上で最も高い LLaMA2 中国化スターを持つリポジトリであり、コミュニティの運営も非常に良好です。ただし、リポジトリ全体を見てみると、LLaMA2 のオリジナル モデルのダウンロードと評価コンテンツが多く、リソース統合サイトのような印象で、多くのローカライズ作業の詳細はあまり明確ではありません。
この研究[4]の最も異なる点は、継続的な事前学習が行われていることと、使用されるデータが比較的豊富であることです。これにより、モデルの中国語の知識レベルを大幅に向上させることができるはずです。
ただし、事前学習を継続する際に対応する英語データがあるかどうかや、中国語データと英語データのおおよその比率については紹介されておらず、比率が良くないとモデルの英語能力に影響を与える可能性があります。また、作成者が事前学習を続けたが語彙が含まれていなかったのも残念で、LLaMA2 のオリジナルのトークナイザーは中国語の文字を表すために約 3 つのトークンを使用しており、これは入力コンテキスト ウィンドウと出力長に大きな影響を与えます。
最後に、あまり明確ではない点は、この作品の PR ドラフトが 200B トークンで最初から事前トレーニングするように書かれていることです。私の理解では、pretraining を続けるということですが、私の理解が間違っているのか、表現が正確ではないのかわかりません。
全体として、非常に活発なコミュニティを維持しながら、200B データに対する 13B モデルの継続的な事前トレーニングを約 10 日で完了できることは賞賛に値します。
ウェンジのヤイ
導入[5] (本当に少数の導入) から判断すると、データを微調整するために何百万ものフィールド命令が使用されましたが、リリースされたのは 5w (悪いレビュー) だけでした。
評価を読むと安全性は上がっているがMMLUは下がっており、微調整が前作ほど細かくなかったと推測されるので勉強になる。
リンリー[6]
これは古いプロジェクトです。LLaMAやFalcon Chineseをプレイされている方は一度はご覧になったことがあるかと思います。語彙の拡張、中国語と英語の段階的な事前トレーニング、中国語と英語のコマンドの微調整など、やるべきことはすべて完了しました。評価の観点から見ると、英語力は依然として優れており、中国語力も大幅に向上しており、LLaMA2はLLaMAやFalconに比べて向上しています。このパスが最も安全なパスですが、個人的にはデータの一致率がまだ中国語が多すぎる(正確に言うと英語の一致が少なすぎる)と感じているため、もう一度調整した方がよいかもしれません。これは古いプロジェクトです。LLaMAやFalcon Chineseをプレイされている方は一度はご覧になったことがあるかと思います。語彙の拡張、中国語と英語の段階的な事前トレーニング、中国語と英語のコマンドの微調整など、やるべきことはすべて完了しました。評価の観点から見ると、英語力は依然として優れており、中国語力も大幅に向上しており、LLaMA2はLLaMAやFalconに比べて向上しています。このパスが最も安全なパスですが、個人的にはデータの一致率がまだ中国語が多すぎる(正確に言うと英語の一致が少なすぎる)と感じているため、もう一度調整した方がよいかもしれません。
将来への期待
実はLLaMA2のローカライズにはあまり期待していませんでした。しかし、皆さんのロールの速さには本当に驚きました。そして、まだ興味深いことがいくつかあります。例えば:
ChatGLM、Baichun、Intern-LM などの中国の大型モデルを最初から作成した場合、LLaMA2 はあまり改善されないことが知られています。継続的な事前トレーニングと指導調整を行っている生徒にとって、LLaMA2 は全員に優れた基礎を提供し、全員が大幅に向上しました。二人が近づくことができるかどうか興味があります。
先ほども述べたように、超大規模な命令ファインチューニングによって中国語の知識を補うことができるかどうかをぜひ知りたいのですが、私の理解では知識を補うだけで、中国語のccは必要ないかもしれません。
7B と 13B は厄介です。誰が 70B の中国化を実行でき、新興の翻訳能力が中国化にどのような影響を与えるかを確認できます。
元のリンク:
https://zhuanlan.zhihu.com/p/647388816
NLP グループに入る —> NLP 交換グループに参加する
参考文献
[1]
LinkSoul: https://github.com/LinkSoul-AI/ Chinese-Llama-2-7b
[2]instruction_merge_set: https://huggingface.co/datasets/LinkSoul/instruction_merge_set
[3]COIG-PC: https://huggingface.co/datasets/BAAI/COIG-PC
[4]FlagAlpha: https://github.com/FlagAlpha/Llama2-English
[5]アルコール: https://github.com/alcohol-research/YaYi
[6]リンリー: https://github.com/CVI-SZU/Linly