WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

本文是LLM系列文章,针对《WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models》的翻译。

WaterBench:面向大型语言模型水印的整体评估

摘要

为了减少对大型语言模型(LLM)的潜在滥用,最近的研究开发了水印算法,该算法限制了生成过程,为水印检测留下不可见的痕迹。由于任务的两阶段性质,大多数研究分别评估生成和检测,从而对公正、彻底和适用的评估提出了挑战。在本文中,我们介绍了第一个LLM水印的综合基准WaterBench,其中我们设计了三个关键因素:(1)对于基准程序,为了确保苹果对苹果的比较,我们首先调整每种水印方法的超参数以达到相同的水印强度,然后联合评估它们的生成和检测性能。(2) 对于任务选择,我们将输入和输出长度多样化,形成一个五类分类法,涵盖9个任务。(3) 对于评估指标,我们采用GPT4 Judge来自动评估水印后指令跟随能力的下降。我们在2种水印强度下对2种LLM上的4种开源水印进行了评估,并观察了当前方法在保持生成质量方面的常见困难。代码和数据在https://github.com/thu-keg/waterbench可用.

1 引言

2 相关工作

3 WaterBench

4 实验

5 结论

在本文中,我们提出了WaterBench,这是一种评估大型语言模型水印的新基准。WaterBench旨在促进对水印检测和生成质量的公平和全面评估。我们首先介绍了一种基准测试程序,该程序搜索超参数,以统一不同方法的水印强度,从而进行苹果对苹果的比较。其次,我们构建了一个多任务基准,该基准跨越了九个具有不同输入/输出长度的典型NLP任务。最后,我们结合了GPT4 Judge度量来自动评估WaterBench结果。实验表明,它能灵敏地反映水印后指令跟随质量的下降。关键发现包括短任务的难度以及不同强度下水印性能之间的差异。我们所有的代码和数据都是开源的。我们希望我们的工作能对LLM水印的未来研究起到启发和促进作用。

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/135114380