大型モデルの微調整サンプル構築のコツ

インタビュアー: 大規模モデルの微調整では、トレーニング サンプルをどのように整理しますか?

あなた: 大規模なモデルのトレーニングには 1 つの質問と 1 つの回答、1 つの命令と 1 つの出力。質問と命令はプロンプト入力として使用でき、回答は出力として使用できます。損失計算の部分はパッド トークンをブロックする必要があります。

インタビュアー: 複数ラウンドの対話でトレーニング サンプルを編成するにはどうすればよいですか?

あなた: 複数のラウンドが Q1A1/Q2A2/Q3A3 であると仮定すると、Q1—>A1、Q1A1Q2->A2、Q1A1Q2A2Q3->A3 の 3 つのトレーニング サンプルに変換できます。

聞き手: この場合、1セッションが3つのデータとなり、上記を順番に繰り返すことになりますが、何か問題はありますか?

あなた: データのほとんどがパッドトークンであり、学習データの利用効率が低いです。また、データの繰り返し展開が問題となり、学習データの繰り返し展開はセッション数×平均ラウンド数となり、上記の繰り返し部分があり、学習効率も低くなってしまいます。

インタビュアー: あなたもそのことに気づきましたが、それを改善する方法はありますか?

あなた: セッションをトレーニング サンプルとして一度に構築する方法はありますか? (考え中)

インタビュアー: 注意してください、デコーダのみのシリーズのモデルに限定して、モデルの機能を使用してサンプルの構成形式を改善してください。



この問題に対して、デコーダ専用モデルの特徴を考えてみましょう. まず注意の形がカジュアルであるということです. カジュアルを簡単に理解すると三角形の配列です. 1つのトークンはその上の情報しか見ることができません.

写真が示すように:

おすすめ

転載: blog.csdn.net/u013250861/article/details/131686901