Ant CodeFuse-13B コード固有の大規模モデルはオープンソースであり、Fuzi・Mingcha 司法大規模モデル、MindChat 心理大規模モデル、およびその他のプロジェクトの複数の新しいモデル バージョンがオープンソースです

Ant CodeFuse-13B コード固有の大規模モデルはオープンソースであり、Fuzi・Mingcha 司法大規模モデル、MindChat 心理大規模モデル、およびその他のプロジェクトの複数の新しいモデル バージョンがオープンソースです

同級生Xiaotu のMachine Heart SOTAモデル 2023-09-18 11:27 に北京で公開

#SOTA コレクションに登場!ウィークリー78

今週の新着情報をチェックしてください

今週持ち込まれた 5 つの モデル プロジェクトは、コード生成、法的対話、心理的対話、マルチタスク コードの微調整などに使用され、5 つの ツール プロジェクトは大規模モデル推論の高速化、ナレッジ グラフ生成、大規模モデル アプリケーション開発に使用されます。 、など。

コード生成専用の、開発者にライフサイクル全体のインテリジェント サポートとコード拡張を提供します。

CodeFuse は Ant オープン ソース コード専用の大規模モデルであり、開発者の入力に基づいてインテリジェントな提案とリアルタイム サポートを提供し、開発者によるコードの自動生成、コメントの自動追加、テスト ケースの自動生成、コードの修復と最適化などを支援します。研究開発の効率を向上させます。CodeFuse は、設計、要件、コーディング、テスト、展開、運用、メンテナンスなどの主要な段階を含むソフトウェア開発のライフサイクル全体をサポートします。現在のオープン ソース モデル バージョンには、CodeFuse-13B およびCodeFuse-CodeLlama-34Bが含まれており、コード補完、テキストからコードへの変換、単体テストの生成など、さまざまなコード関連タスクをサポートします。

リソースへのアクセス:

https://sota.jiqizhixin.com/project/codefuse

写真


ChatGLM に基づく大規模な司法モデル。中国の大規模な教師なし司法コーパスと教師付き司法微調整データを使用してトレーニングされています。

Fuzi・Mingcha 司法モデルは、山東大学、Inspur Cloud、中国政法大学が共同開発した中国の司法モデルです。ChatGLM に基づいており、膨大な中国の教師なし司法コーパスと教師あり司法微調整データに基づいてトレーニングされています。法規定に対応 検索機能、判例分析機能、三段論法推論機能、司法対話機能などを備え、総合的かつ精度の高い法律相談・回答サービスを提供します。このモデルは、法律記事の検索・回答機能、判例分析機能、司法対話機能の3つの大きな特徴を有しており、関連法条に基づく回答生成、事件の自動分析と論理的に厳密な三段論法による判決予測の生成、および実際の裁判の実施が可能です。ユーザーとの法的な質問と回答に時間を費やします。

リソースへのアクセス:

https://sota.jiqizhixin.com/project/fu-zi-ming-cha

写真



オープンソースの大規模心理モデル MindChat (トーク)、Qwen-7B、InternLM-7B、および Baichuan-13B に基づく微調整モデルをカバー

大規模なオープンソースの心理モデルである MindChat は、心理相談、心理評価、心理診断、心理治療の4 つの側面から、人々の心理的問題の解決とメンタルヘルスの改善を支援することを目的としています。現在、Qwen-7B、InternLM-7B、Baichuan-13B に基づく 3 つのバージョンの微調整モデルが提供されており、大規模な事前トレーニング モデルを活用し、複雑な心理的問題に対処する機能を備えています。MindChat は、トレーニングのために手動でクリーニングされた約200,000 の高品質のマルチラウンド心理会話データを使用しており、仕事、家族、学習、生活、社会的交流、セキュリティなどの多くの側面をカバーしており、次のような技術的利点があります。ユーザーの個人的な経験、感情状態、行動パターンを考慮し、プライベートで温かく、安全で、タイムリーで便利な会話環境をユーザーに提供します。

リソースへのアクセス:

https://sota.jiqizhixin.com/project/mindchat

写真


ExLlamaV2 はコンシューマー GPU 用の高性能 LLM 推論ライブラリであり、複数の量子化形式をサポートし、HuggingFace モデルと互換性があります。

ExLlama は、大規模な言語モデルをコンシューマ GPU でローカルに実行するために設計されたオープン ソースの推論ライブラリで、最近新しいバージョン ExLlamaV2 をリリースしました。ExLlamaV2 は新しいコード ベースとカーネルで実装され、大幅なパフォーマンスの向上を達成し、V1 と同じ 4 ビット GPTQ モデルをサポートし、新しい "EXL2" フォーマットもサポートします。EXL2 は GPTQ と同じ最適化方法に基づいており、2、3、4、5、6、および 8 ビットの量子化をサポートします。この形式では、モデル内で量子化レベルを混合して重みあたり 2 ~ 8 ビットの平均ビットレートを実現し、GPU の計算能力を最大限に活用しながら、さまざまなビデオ メモリ制約に対応するようにモデル サイズを制御できます。ExLlamaV2 は、HuggingFace モデルとの互換性も統合し、インタラクティブな例とモデル変換スクリプトを提供します。

リソースへのアクセス:

https://sota.jiqizhixin.com/project/exllamav2

写真



独自の Llama モデルを効率的にトレーニングするためのフレームワークである Megatron-LLaMA は、100 億トークンのコストで DeepSpeed と比較して 1,037 ドルを節約します。

Megatron-LLaMA は、Alibaba が内部的に最適化した Llama トレーニング フレームワークで、独自の Llama モデルを効率的かつ迅速にトレーニングできるように設計されています。Megatron-LLaMA は、標準的な Llama 実装を提供し、分散オプティマイザと新しい勾配スライシング手法を組み合わせて、効率的な通信とコンピューティングの並列処理を実現し、ハードウェア リソースの使用率を向上させます。さらに、Megatron-LLaMA は実用的なツールと改善されたチェックポイント メカニズムも提供し、LLaMA モデルのトレーニングをより高速、より経済的、およびスケーラブルにします。Azure の価格設定によると、DeepSpeed と比較して、Megatron-LLaMA は 100 億トークンを消費した場合に 1,037 ドルを節約できます。   

リソースへのアクセス:

https://sota.jiqizhixin.com/project/megatron-llama

写真


マルチタスク コード大規模モデル プロジェクトの微調整 CodeFuse-MFTCoder は、マルチタスク、マルチモデル、効率的な Lora/QLora 微調整をサポートします。

CodeFuse-MFTCoder は、大規模コード モデルのモデル、データ、トレーニングなどを含むマルチタスク微調整大規模コード モデル プロジェクトであり、マルチタスク、マルチモデル、マルチフレームワーク、およびマルチタスクの利点があります。効率的な微調整。CodeFuse-MFTCoder は、複数のタスクを同時にサポートし、複数のタスク間のバランスを確保し、新しい目に見えないタスクに一般化することもできます。同時に、gpt-neox、llama、llama-2、baichuan、Qwen、chatglm2 などの最新のオープン ソース モデルをサポートし、 HuggingFace および Torch フレームワークをサポートし、LoRA および QLoRA をサポートし、大規模なリソースが少ないモデル。

リソースへのアクセス:

https://sota.jiqizhixin.com/project/codefuse-mftcoder

写真



オープンソースの低コスト、高性能大言語モデル FLM-101B、性能は GPT-3 に匹敵、中国語と英語のバイリンガルをサポート

FLM-101B は、デコーダのみのアーキテクチャを備えたオープンソースの大規模言語モデルであり、トレーニング コストはわずか 10 万米ドルです。FLM-101B はトレーニング コストを大幅に削減するだけでなく、そのパフォーマンスも依然として優れています。これは、現在トレーニング コストが最も低い 1000 億以上の LLM の 1 つです。FLM-101B は、トレーニングの初期段階で小規模なモデルに関する知識を迅速に学習することで、モデル成長テクノロジーを使用して、それを徐々に大規模なモデルに拡張します。そのパフォーマンスは、たとえばトレーニング データのコンテキストなしの IQ ベンチマークにおいて、GPT-3 や GLM-130B のパフォーマンスに匹敵します。FLM-101B は中国語と英語のバイリンガルをサポートしており、トレーニング コンテキスト ウィンドウの長さは 2048 です。xPos 回転位置エンコーディングの使用により、推論中にウィンドウ サイズを十分に拡張できます。

リソースへのアクセス:

https://sota.jiqizhixin.com/project/flm-101b

写真



Mojo に基づいて実装された llama2.c は、Mojo の SIMD とベクトル化プリミティブを使用して、llama2.c より 20% 高速です

Mojo は AI 開発者向けの新しいプログラミング言語であり、Python コードとのシームレスな統合をすでにサポートしています。最近、llama2.c オープンソース プロジェクトで、開発者は Python で移植された llama2.py を Mojo に移植しました。これは、Karpathy の llama.c より 20% 高速です。このバージョンでは、Mojo の SIMD とベクトル化プリミティブを利用して、Python のパフォーマンスをほぼ 250 倍向上させています。高速実行モードでも、Mojo バージョンのパフォーマンスはオリジナルの llama2.c より 15 ~ 20% 優れています。

リソースへのアクセス:

https://sota.jiqizhixin.com/project/llama2-mojo

写真



InstaGraph は、自然言語プロンプトまたは URL に基づいて視覚的なナレッジ グラフを自動的に生成できるGPT3.5 ベースのオープン ソース ツールです。

InstaGraph は、自然言語プロンプトまたは URL に基づいて視覚的なナレッジ グラフを自動的に生成するツールです。GPT3.5 に基づいており、ユーザーが複雑な知識の関係をより簡単に理解し、提示できるようにすることを目的としています。入力された自然言語プロンプトまたは URL を視覚的なナレッジ グラフに変換して、知識の構造とつながりをより直観的かつ明確な方法で表示できます。InstaGraph は、より効率的な知識の整理、学習、研究を可能にし、教育、科学研究、文化、芸術などのさまざまな分野に応用できます。InstaGraph を使用すると、ユーザーはナレッジ グラフを迅速に生成し、そこから重要な情報や洞察を得ることができます。

リソースへのアクセス:

https://sota.jiqizhixin.com/project/instagraph

写真


オープンソースの大規模モデル アプリケーション開発プラットフォームであるBishengは、大規模モデル アプリケーションの開発を強化し、加速します。

Bisheng は、大規模モデル アプリケーションの開発と実装を強化し、加速するように設計されたオープンソースの大規模モデル アプリケーション開発プラットフォームです。ユーザーが最高のエクスペリエンスで次世代アプリケーション開発モデルに参入できるよう支援する豊富なツールと機能のセットを提供します。Bisheng プラットフォームを通じて、ユーザーはさまざまなリッチな大規模モデル アプリケーションを構築し、ビジネスの効率と品質を向上させることができます。Bisheng は、オープンソース プラットフォームとして、大規模な言語モデル アプリケーションを開発するためのツールキットを開発者に提供し、モデルを調整するためのユーザー自身の指示のトレーニングをサポートします。同時に、ボットの応答を更新するための微調整可能なモデルと、チャットボットを作成するための完全なツールキットも提供します。

リソースへのアクセス:

https://sota.jiqizhixin.com/project/bisheng

おすすめ

転載: blog.csdn.net/sinat_37574187/article/details/133018353