Bring Your Data！Self- supervised Evolution of Large Language Models

业界资讯 2023-08-06 14:33:18 阅读次数: 0

Bring Your Data！Self- supervised Evolution of Large Language Models

Introduction
Method
参考

Introduction

这篇论文提出了一种自监督的评估方式来衡量大型语言模型的能力和局限性。常规的基于数据集的评估方式存在一些缺点:

需要不断新建数据集。
存在数据集和模型训练数据交叉的问题,影响评估结果。
难以评估模型在实际部署中的表现。为了弥补这些缺点,论文提出了自监督评估方法。

主要思想是:对输入文本做一些简单的转换(如添加否定词、颠倒词序等),然后比较原始文本和转换文本模型的输出(或概率分布),通过模型对这些转换的不变性或敏感度来评估它的能力。

Method

在这里插入图片描述

自监督评估的主要思想是:

基于输入文本做某种简单的转换,形成一对原始文本和变换后的文本，将这对文本送入模型,分析模型对这种转换的不变性或敏感度，将多个这样的文本对的数据聚合,形成一个总体上的不变性或敏感度分数。

具体过程:

对数据集(如维基百科)构建输入文本x和变换后的文本x’对。
将这对文本送入模型f,获取模型输出(可以是概率分布、困惑值、文本等)。
根据输出f(x)和f(x’)使用一个相似度度量M量化它们的相似性。
将相似度度量在整个数据集上聚合,使用聚合函数A计算最终的不变性/敏感度分数。

论文提出了以下变换来评估模型:

添加否定词,测量模型对否定句子模型分布的变化,来反应模型的世界知识。
添加有毒引发词,分析模型生成的文本来测量模型对有毒文本的敏感度。
替换一些上下文句子,测量模型对最后一句话的概率分布变化,来反应模型对长距离上下文的敏感度。
颠倒词序,测量模型对概率分布的变化来反应模型对词序的敏感度。
将输入文本拆分后重新组合,测量模型对这样的分词变化的鲁棒性。

参考

https://arxiv.org/pdf/2306.13651.pdf

猜你喜欢

转载自blog.csdn.net/qq_18555105/article/details/131753628

Bring Your Data！Self- supervised Evolution of Large Language Models

Challenges and Applications of Large Language Models

Large Language Models in Finance: A Survey

A Survey of Large Language Models Attribution

Continual Pre-Training of Large Language Models: How to (re)warm your model?

机器学习：self supervised learning- Recent Advances in pre-trained language models

Are Emergent Abilities of Large Language Models a Mirage?

【论文精读】Emergent Abilities of Large Language Models

论文阅读 A Survey of Large Language Models 3

论文阅读 A Survey of Large Language Models 1

论文阅读 A Survey of Large Language Models 2

Enabling Large Language Models to Generate Text with Citations

A Survey on Model Compression for Large Language Models

Augmented Large Language Models with Parametric Knowledge Guiding

A Survey on Multimodal Large Language Models for Autonomous Driving

A Survey of Text Watermarking in the Era of Large Language Models

Recommender Systems in the Era of Large Language Models (LLMs)

TASKBENCH: BENCHMARKING LARGE LANGUAGE MODELS FOR TASK AUTOMATION

Trends in Integration of Knowledge and Large Language Models

论文解读：Large Language Models as Analogical Reasoners

HaluEval： A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey，2020

chain of thought prompting elicits reasoning in large language models

论文阅读：chain of thought Prompting elicits reasoning in large language models

WizardKM:Empowering Large Language Models to Follow Complex Instructions

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

大模型 LLM 综述, A Survey of Large Language Models

LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)