東の風を借りて 第二章
第 1 章 ポータル:トレーニング データに自動的にラベルを付けることがどれほど素晴らしいか想像できません (qq.com)
前回の記事では、より婉曲的な借用と回りくどい借用である Auto Label について主に紹介しましたが、Auto Label が借用するデータは依然として分類や標準 QA などの従来の NLP タスク トレーニングに重点を置いています。皆さんもご存じのとおり、今はGenAIという名前になっていますが、これをやっていないと人に挨拶もできないので、GenAIの学習データを直接貸してもらえませんか?
答えは間違いなくそうです。「借りる」だけではなく、積極的に「借りる」ことも必要です!
今日はデータを「借りる」方法を紹介します もちろんこれが唯一ではありませんが、比較的簡単で実際に検証されていると思います、この方法が Self-Instruct です。
用紙のアドレス:
2212.10560.pdf (arxiv.org)
関連論文を読んだことがある人なら、これが Alpaca のデータ取得方法であることを知っているはずですが、ここで未読の人のために、Alpaca とは何かを広めてみましょう。