使用生成 AI 实现准确的新闻摘要

85187b7b13240a5c3aea21d45235fce9.png

cd524d92e19f74ad0e809e8820907e70.png

shadow

这篇文章介绍了作者 Alessandro Alviani 的实践经验,非常有参考价值。


指令冗余,多步引导,是目前提高LLM输出质量的方法之一。

Towards Accurate Quote-Aware Summarization of News using Generative AI

4ddd270b5fb47d252aa39e18813bb41c.png

Alessandro

Alviani

generative-ai-newsroom.com/towards-accurate-quote-aware-summarization-of-news-using-generative-ai-b786493e0c3d

归因是新闻业的基本原则。正确引用新闻来源而不扭曲所表达内容的含义,或者更糟糕的是,添加记者推断的信息,是任何记者的一项基本技能。

大型语言模型LLM带来了新的挑战:它们可能会编造引文或将准确的引文错误地分配给错误的来源。这是因为它们的工作方式是根据先前的文本预测序列中下一个最可能的单词。此类错误可能会削弱人们对媒体的信任,应该避免。

我们的目标

在IPPEN.MEDIA,我们一直在尝试大型语言模型 LLM 的大量用例。其中一些包括建议标题和线索变体,以及总结或重写文章以针对不同的受众。在处理引用时,生成摘要或文本变体很容易出错。

在我们的第一轮测试中,我们发现 ChatGPT 倾向于重写引用,即使明确指示不要这样做。当我们试图通过在提示中添加特定约束来总结一篇文章,同时保持所有引用不变时,ChatGPT 只是忽略了这些约束并重写了引用。更糟糕的是,虽然提示有时会按预期工作并且所有引文都会正确再现,但大多数时候却并非如此。

这种不一致部分是 LLM 所固有的,LLM 是概率性模型,而不是确定性模型。

即使我们对使用 ChatGPT 和其他 LLM 编辑的所有文本采取了双重检查,虚构的文本仍然可能通过人类编辑的审查。

我们的方法

事实证明提示工程的基本概念之一:构建尽可能具体和清晰的提示来定义所需的输出——可能还不够。我们的方法是,需要结合指令冗余的多步骤方法。

我们最初添加到 ChatGPT 提示中的摘要和文章的指令以两种方式失败:原始引用要么被重写并加引号,要么被解释。

我们尝试将初始提示分为两个步骤。我们还通过使用系统提示为模型分配经验丰富的新闻编辑的角色来提供更多背景信息。同样,该模型通常最终会解释原始引用。

及时迭代是关键

小技巧,我们将温度参数设置为 0 以减少输出的变化。

我们再次使用了分步方法,但这次我们的做法有所不同:我们指示模型首先使用格式“”提取所有引号(即查找引号之间的任何内容),然后生成摘要或包含先前提取的引号的新文本版本。

结果要好得多。然而,即使它有效地提取了步骤 1 中的所有引号,模型仍然可能偏离提示并错误地使用、重写引号。

更糟糕的是,对于具有多个引用的较长文章,该模型可能会犯两个常见错误:要么无法提取所有引用,要么错误地将出现在实际引用旁边或中间的非引用句子识别为引用。一般来说,文本越长,识别的引号数量越少。对于 GPT-3.5 模型尤其如此。

此迭代过程中真正的游戏规则改变者是接下来的两项调整。首先,添加一个简单的系统提示。结果显着改善,支持了为 LLM 提供更多背景知识可以提高其表现的观点。

第二个重大改进来自使用 GPT-4。我们的测试表明,OpenAI 的最新模型优于 GPT-3.5。使用我们的两步方法,几乎都被正确识别。

3832b1ba797f936cbd4bad8e3714e46f.png

总结,GPT-4 远远优于 GPT-3.5。在 12 篇文章中的 11 篇中,所有引用都正确包含在 AI 生成的摘要中。

指令冗余效果很好。在我们的两步方法中,我们在第二步中要求 GPT-3.5 和 GPT-4 重写或总结文本,不仅粘贴了在步骤 1 中提取的所有引用,而且再次把原始文章粘贴到提示的末尾。即使 GPT-3.5 和 GPT-4 未能在第一步中提供正确结论 ,他们通常能够在第二步中正确地输出。

df25fcf9f135dc152d2b0c4ae7d10032.jpeg

备注:提示工程社群

9025feb9f93100aea2416355f537b9fd.png

opus

作者分享的提示工程,供大家参考。也欢迎加入Mix的提示工程社群~~

提示工程:

[1] The text contains quotations; they are enclosed in quotation marks. Quotations must remain as in the original.

[1]正文包含引文;它们用引号引起来。引文必须保持原样。

[2] You are an editor with 30 years of experience. You need to rewrite the following article into a new text. Think step by step.
Step 1: Rewrite the following original title using vivid but neutral language; Step 2: Make sure that all quotations within quotation marks are reproduced in the new content in the same way. Nothing in quotation marks may be rewritten.

[2] 是一位拥有 30 年经验的编辑。您需要将以下文章重写为新文本。一步步思考。
步骤1:用生动但中性的语言重写以下原标题;步骤2:确保引号内的所有引用都以相同的方式再现在新内容中。引号中的任何内容都不能被重写。

[3] 1st step:
Extract all quotes between quotation marks such as “” in the following text:
###Text##

2nd step (after the model has extracted the quotes):
Rewrite the article and make sure the following quotes remain unchanged:
“quote”
“quote”
“quote”
Article: ###Text###

[3]第一步:
提取以下文本中引号之间的所有引号,例如“”:
###Text##

第二步(模型提取引号后):
重写文章并确保以下引号保持不变:
“quote”
“quote”
“quote”
文章:###Text###

[4] You are a precise journalist and editor.

[4]你是一位严谨的记者和编辑。

猜你喜欢

转载自blog.csdn.net/shadowcz007/article/details/131356014