Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

业界资讯 2023-08-06 14:33:21 阅读次数: 0

Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

Introduction
- Method
参考

Introduction

本文提出了一种通过线性规则筛选高质量数据的方案（有种套娃的感觉），目前验证指令数据的质量的方法大多数采用GPT+Few Shot 或者微调+验证的方案，作者认为这种方法太贵了，提出了一种通过indicator过滤数据的方法，不用微调模型就可以相对评估指令数据的方案。
作者融合一些开源的指令数据集构成data pool，然后对比了随机sample和使用indicator过滤的方式，最终发现它有42.5的概率战胜随机采样。

Method

符号定义：数据质量Q，D数据，M模型，M撇微调后的模型，L表示损失，D-eval表示测试数据。
作者首先做了一个假设：
在这里插入图片描述
上面的公式表明指令数据的质量Q与微调后模型在验证集的损失成正比。

由于微调+推理不是那么高效，所以作者定义了一个·indicaor :=I，把这个评估的过程想成一个房价预测的过程，每个indicator就是影响房价的因素，如城市、人口，而在本文中表示指令的长度、奖励模型的分数等等。
在这里插入图片描述

假设它可以近似等于微调后的模型在测试集上面的Loss，也就是可以满足下面的公式。
在这里插入图片描述
然后作者通过这种近似继续推倒

其中beta是线性回归的系数，L0与theta为常数，I(D)为数据在每个Indicator上面的数值，可以直接获得，那么Y就是估计的数据质量，而真实值用eval 上面的loss近似替代。

然后作者通过最小二乘法得到下面的权重：
在这里插入图片描述
这样就可以在真实数据上筛选样本，然后下面是与真实数据上随机采样与筛选的结果对比：

参考

https://arxiv.org/pdf/2307.06290.pdf

猜你喜欢

转载自blog.csdn.net/qq_18555105/article/details/131731790

Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

Paper：《Instruction Tuning for Large Language Models: A Survey—大型语言模型的指令调优的综述》翻译与解读

instruction

【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models

Bring Your Data！Self- supervised Evolution of Large Language Models

STA220 Data Analysis Project Instruction

（四十五）：VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research

Challenges and Applications of Large Language Models

A Survey of Large Language Models Attribution

Large Language Models in Finance: A Survey

Instruction Arrangement

illegal instruction

instruction simulation

大模型：高质量对话数据生成，Enhancing Chat Language Models by Scaling High-quality Instructional Conversations

【论文精读】Emergent Abilities of Large Language Models

Are Emergent Abilities of Large Language Models a Mirage?

论文阅读 A Survey of Large Language Models 3

论文阅读 A Survey of Large Language Models 2

论文阅读 A Survey of Large Language Models 1

Augmented Large Language Models with Parametric Knowledge Guiding

Enabling Large Language Models to Generate Text with Citations

A Survey on Model Compression for Large Language Models

Recommender Systems in the Era of Large Language Models (LLMs)

Trends in Integration of Knowledge and Large Language Models

TASKBENCH: BENCHMARKING LARGE LANGUAGE MODELS FOR TASK AUTOMATION

A Survey on Multimodal Large Language Models for Autonomous Driving

A Survey of Text Watermarking in the Era of Large Language Models

论文解读：Large Language Models as Analogical Reasoners

HaluEval： A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey，2020

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)