企業は自社の大規模モデルをどのようにトレーニングするのでしょうか?

現在、AI 言語の大型モデルが将来の開発の鍵となっています。国内外のテクノロジー企業が独自に大型専用モデルの開発を始めている。

大規模言語モデルとは何ですか?要約、翻訳、テキスト生成などのさまざまな機能を備えた自律学習アルゴリズムであり、人間の制御なしにコピーライティングコンテンツを独自に作成できます。従来のアルゴリズム モデルと比較して、大規模な言語モデルは、体系的な知識を習得し、その利点を最大化するためにそれをさまざまな作業タスクに適用するために学習を使用する傾向があります。

大規模な言語モデルをさまざまな業界に適用するにはどうすればよいでしょうか?答えは、ドメインの大規模なモデルを構築することです。ドメイン大規模モデルとは、エンタープライズ アプリケーションでのドメイン データの注釈とモデルの微調整を支援できる大規模言語モデルを指します。現在、市場で一般的な運用モデルは、大企業をベースにした大規模なモデル フレームワークであり、さまざまな垂直分野の企業が自社のニーズに合わせてモデルを自由に選択および調整できます。これに基づいて、企業が独自の大規模モデルをトレーニングする手順を要約できます。

1. 適切な基本大型モデルを選択する

企業は、精度、解釈可能性、安定性、コストなど、自社の業務に基づいた体系的な指標体系を確立する必要があります。指標を定量化した後、各モデルの特性を分析および比較します。

BenTsao プロジェクトを例に挙げると、プロジェクトが最初に設立されたとき、開発者は信頼できる医学知識マップを作成し、関連する医学文献を収集する必要がありました。また、ChatGPT API を活用して、微調整されたデータセットを構築します。医療知識の質問と回答の効果を達成するために指示を微調整します。もちろん、企業がモデルを選択するときは、モデル自体の基本機能とプログラミング機能も考慮する必要があります。モデル自体の基本機能は、正確に調整されている必要はなく、十分に強力である必要があります。企業が開発を行う場合、多くの場合、モデルの基本機能に基づいて開発が行われるためです。現在、より優れたモデルには、Code LLaMA (34B) および Starcoder (15B) が含まれます。

2. データをクリーンアップしてラベルを付ける

これは、最終操作に関連する重要なリンクであり、データ クリーニングはモデルのプレゼンテーションの効果に影響します。データ クリーニングは、次の主な手順に従って順番に実行されます。

  1. 基本的なクリーニング: 重複して記録された情報を削除し、低レベルのエラーを修正し、見やすく統一されたデータ形式を確保します。
  2. 構造化クリーニング: 統一フォーマットに基づいてデータが変換および作成され、モデルのパフォーマンスを選択および改善できます。
  3. コンテンツのクリーニング: データのセマンティック識別、マージ、異常値の処理を実行できます。
  4. 高度なクリーニング:技術的手段によるデータ合成が可能で、ユーザーのプライバシーを確​​保しながら、テキスト情報に加えて画像や飲み物などの複雑なデータ情報も処理できます。このプログラムは特定のアプリケーションに限定されています。
  5. 監査と検証: 業界の専門家を雇って監査を実施し、データ クリーニングの品質が標準に達しているかどうかを検証します。このプロセスには多くの検査基準と管理プロセスが含まれます。

データ アノテーションは、モデル設計の初期段階でデータ収集とトレーニングの方向性を直接決定するための鍵となります。データ アノテーションは 9 つのステップに分けることができます。 タスクとアノテーション要件の決定 - 元のデータ情報の収集 - データのクリーンアップと前処理 - 対応する計画の設計 - データ アノテーションの実行 - 品質と精度の管理 - データの拡張と強化 - 確立対応するトレーニング計画、結果の検証とテスト - 継続的な監督と更新の作業方法を維持します。

その中で、オリジナルデータを収集する際には、モデルのトレーニングと評価の現場での応用を容易にするために、学術研究機関や企業から提供される公開情報を収集することができます。プロセス中、データの法的遵守に注意を払う必要があり、場合によっては、エンティティの注釈、感情的な注釈、および文法的な注釈も実行できます。

3. トレーニングと微調整

トレーニングは、自然言語テキストを理解して生成できるモデルを開発するために、大規模なモデルで深層学習を行うプロセスです。この期間中、企業は大規模なテキストデータを処理および収集し、その固有の法則、セマンティクス、およびテキストのコンテキストとコンテキスト間の内部関係を学習する必要があります。現在、国内市場における主なトレーニングルートは、Google が主導する TPU + XLA + TensorFlow と、NVIDIA、Meta、Microsoft などの大手メーカーが管理する GPU + PyTorch + Megatron-LM + DeepSpeed です。

微調整は、特定のタスクの注釈付きデータに基づいてトレーニングされるモデルを制御することです。この段階の主な目的は、モデルの鉱石価格を変更せずに出力レイヤーを変更し、適切なパラメーターを調整することです。特定のタスクに適応できます。

最終的な評価と反復、導入と監視は、販売後のアップグレードとモデル開発後のリアルタイム監視に焦点を当てています。これら 2 つのリンクでは、開発者は現場の標準に従ってモデルのパフォーマンスを評価する必要があります。専門家を雇って評価の提案を行うことができ、開発者は評価に基づいて改善と反復的な更新を行います。

モデルが正常に実行された後、開発者はモデルの日常的な動作を監視して展開する必要もあります。

トレーニング プロセス全体を通じて、API は大きな役割を果たします。開発者が効率的かつコスト効率よくデータを処理できるように支援します。また、大規模なモデルにプライベート データに安全にアクセスできるようにしながら、モデル データを動的に更新することもできます。

  • HBase : [HBase] サービスは、オープンソースの分散カラム データベース システムである Apache HBase のコア テクノロジに基づく、高性能で拡張性の高いビッグ データ ストレージおよび取得ソリューションであり、ビッグ データ分析、リアルタイム エンタープライズを提供するように設計されています。データ処理、モノのインターネット (IoT)、ログ管理、財務リスク管理などのさまざまなビジネス シナリオにおける レベルのアプリケーションは、効率的で信頼性の高いデータ管理機能を提供します。
  • ログサービス: クラウド ログ サービス (CLS) は、Tencent Cloud が提供するワンストップのログ サービス プラットフォームで、ログの収集、ログの保存からログの取得、グラフの分析、アラームの監視、ログの配信、およびユーザーを支援するその他のサービスまで、複数のサービスを提供します。ログを使用して、業務運営、保守、サービス監視などの複数の機能を解決します。さらに、Tencent Cloud CLS は可用性の高い分散アーキテクチャ設計を採用し、ログ データの複数の冗長バックアップ ストレージを実行して、単一ノード サービスのダウンタイムによるデータの利用不能を防ぎ、最大 99.9% のサービス可用性を提供し、安定した信頼性の高いサービスを提供します。ログデータの保証サービス。
  • Cloud Monitor : Cloud Monitor は、クラウド製品リソースおよびカスタム レポートされたリソースのインジケーターしきい値アラームの設定をサポートしています。 3次元のクラウド製品データ監視、インテリジェントなデータ分析、リアルタイムの異常アラーム、視覚的なデータ表示を提供します。すべてのインジケーター データをカバーする第 2 レベルのコレクションにより、最も詳細なインジケーターの変更を体験し、洗練されたクラウド製品モニタリング エクスペリエンスを提供できます。クラウド監視では、第 2 レベルの監視データを 24 時間無料で保存でき、オンラインでの表示とデータのダウンロードがサポートされます。
「Qing Yu Nian 2」の海賊版リソースが npm にアップロードされたため、npmmirror は unpkg サービスを停止せざるを 得なくなりました。 周宏儀: すべての製品をオープンソースにすることを提案します 。ここで time.sleep(6) はどのような役割を果たしますか? ライナスは「ドッグフードを食べる」ことに最も積極的! 新しい iPad Pro は 12GB のメモリ チップを使用していますが、8GB のメモリを搭載していると主張しています。People 's Daily Online は、オフィス ソフトウェアのマトリョーシカ スタイルの充電についてレビューしています。「セット」を積極的に解決することによってのみ、 Flutter 3.22 と Dart 3.4 のリリース が可能になります。 Vue3 の新しい開発パラダイム、「ref/reactive」、「ref.value」不要 MySQL 8.4 LTS 中国語マニュアルリリース: データベース管理の新しい領域の習得に役立ちます Tongyi Qianwen GPT-4 レベルのメイン モデルの価格が値下げされました97%、1元と200万トークン
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/5925727/blog/11105631