即時本質解読と評価実戦とソースコード解析(1)

第9章 プロンプトの本質の解読と評価 実戦とソースコード解析
9.1 カスタマーサービスケース
本節では主にプロンプ​​トワード(Prompt)の内部動作メカニズムについて、ケース、ソースコード、論文の三次元を中心に解説します。まず、コード部分を見ていきます。これは大規模なモデルに基づいたアプリケーション開発の評価 (評価) であり、明らかに重要な内容です。すべての機械学習ベースのモデル、またはすべての NLP プロジェクトでは、プログラムのバージョン アップグレードやイテレーションでプログラムのパフォーマンスを評価し、基本データを提供する必要があるため、アプリケーションの評価が中核となります。ただし、大規模なモデルの評価は、従来の機械学習、特に GPT シリーズや生成言語モデルに基づくものとは異なります。これは、生成されるコンテンツが、従来の古典的な意味でのコンテンツとタグに基づく評価とまったく同じではないためです。
Gavin big Coffee WeChat: NLP_Matrix_Space
OpenAI は公式にいくつかのガイダンスを提供しました。DeepLearning.AI は、OpenAI のいくつかの指導アイデアを活用して、結果を評価するための具体的な手順をいくつか提案しました。見てみましょう。DeepLearning.AI によって提供された例では、そのプロンプト ワードは非常に古典的です。1 つ目は効果的であるため、2 つ目は、他の多くのオープン ソース フレームワークや製品が同様の実装または同様のプロンプト ワードを備えているためです。

1.	def eval_with_rubric(test_set, assistant_answer

おすすめ

転載: blog.csdn.net/duan_zhihua/article/details/131679540