まとめ

Code Llama をリリースしました。これは、Llama 2 に基づく大規模なコード言語モデルのファミリーであり、最先端のパフォーマンス、パディング機能、大規模な入力コンテキストのサポート、およびオープンな言語間でのプログラミングタスクに対するゼロショット命令追従機能を提供します。モデル。幅広いアプリケーションをカバーする複数のフレーバーを提供しています。基本モデル (Code-Lama)、Python 特化 (Code-LAMA-Python)、およびそれぞれ 7B、13B、および 34B パラメーターを備えた命令追従モデル (CodeLlama-Directive) です。すべてのモデルは 16,000 トークンのシーケンスでトレーニングされ、最大 100,000 トークンの入力で改善が見られます。7B および 13B Code Llama および Code Llama 命令のバリアントは、周囲のコンテンツに基づいたパディングをサポートします。Code Llama は、いくつかのコードベンチマークでオープンモデルの中で最先端のパフォーマンスを達成し、HumanEval と MBPP でそれぞれ 53% と 55% もの高いスコアを獲得しました。特に、Code Llama-Python 7B は HumanEval および MBPP 上で Llama 2 70B よりも優れたパフォーマンスを示し、すべてのモデルは MultiPL-E 上で他の公開されているすべてのモデルよりも優れています。私たちは研究および商用利用を許可するライセンスに基づいて Code Llama をリリースしています。

1 はじめに

2 コード Llama: コードに特化した Llama2

3 件の結果

4 責任ある AI とセキュリティ

5 関連作品

6 ディスカッション

私たちは code-Lama と呼ばれる一連のコード固有の Llama 2 モデルをリリースしました。その中には 3 つの主要なバリアントがあり、3 つのサイズ (7B、13B、および 34B パラメーター) でリリースされました: code-Lama、code-Lama-Pythonそしてコード-Lama-Directive。実際のアプリケーションを念頭に置いて、パディングをサポートするように 7B モデルと 13B モデルをトレーニングし、大規模なコンテキストを活用するようにすべてのモデルをトレーニングしました。最大 100,000 トークンの推論における安定性をテストしました (図 4a)。大規模なコンテキストの微調整とパディングは、短いシーケンス (つまり、関数レベル) に基づく標準的な左から右へのコード生成ベンチマーク (表 10) を犠牲にして行われます。それにもかかわらず、私たちの 30B モデルは、標準的な Python 補完でベンチマークされた公開モデルの中でも最先端であり、同様の数のパラメーターを持つモデルと比較して、他のモデルと比較して競争力があります。多言語ベンチマークでは、最小のモデル (Code Llama 7B) でさえ、他のすべての公開モデルよりも優れています。
Code Llama 命令モデルは、Code Llama にゼロショット命令機能を提供するようにトレーニングされています。このさらなる微調整では、より直接的なヘルプ (図 5c) に焦点を当てるだけでなく、使用および展開するためのより安全なモデルの提供にも努める程度まで Llama 2-Chat を改良しました (セクション 4)。図 14 に示すように、指示に従って安全すぎると、評価でいくつかのポイントが失われる可能性があります (たとえば、表 2 の 34B モデルの HumanEval)。LLM では、その指示のコンテキストとニュアンスを理解するためにさらなる作業が必要です。

Code Llama: コードのオープン基盤モデル