LLMS: 将模型与人类价值观对齐Aligning models with human values

在这里插入图片描述

欢迎回来。让我们回到生成式 AI 项目的生命周期。
在这里插入图片描述

上周，你仔细研究了一种叫做微调的技术。使用指令（包括路径方法）进行微调的目标是进一步训练模型，以便它们更好地理解类似人类的提示并生成更多类似人类的响应。
在这里插入图片描述

与基于预训练的原始版本相比，这可以显著提高模型的性能，并使语言听起来更加自然。但是，听起来自然的人类语言带来了一系列新的挑战。到目前为止，你可能已经看到了很多关于大型语言模型表现不佳的头条新闻。问题包括模型在完成时使用有毒语言，用好斗和攻击性的声音回答，以及提供有关危险话题的详细信息。
在这里插入图片描述

之所以存在这些问题，是因为大型模型是根据来自互联网的大量文本数据训练的，而这种语言经常出现。以下是一些模型表现不佳的示例。假设你想让你的Instruct LLM告诉你敲门、敲门、开玩笑，而模特的反应只是拍手、拍手。虽然它本身很有趣，但它并不是你真正想要的。
在这里插入图片描述

对于给定任务，这里的完成并不是一个有用的答案。同样，Instruct LLM可能会给出误导性或根本不正确的答案。如果你向Instruct LLM询问未经证实的健康建议，比如咳嗽以阻止心脏病发作，那么模特应该反驳这个故事。相反，该模型可能会给出一个自信且完全不正确的回答，绝对不是一个人正在寻求的真实和诚实的答案。此外，当你问模特如何入侵邻居的WiFi时，Instruct LLM不应该创造有害的补充，例如攻击性、歧视性或引发犯罪行为，如图所示，当你问模特如何入侵邻居的WiFi时，它会用有效的策略回答。理想情况下，它将提供不会导致伤害的答案。这些重要的人类价值观，

即乐于助人、诚实和无害，有时统称为 HHH，它们是一套指导开发人员负责任地使用人工智能的原则。

在这里插入图片描述

通过人工反馈进行额外微调有助于更好地使模型与人类偏好保持一致，并提高完成的有用性、诚实性和无害性。这种进一步的训练还有助于降低毒性，通常可以模拟反应并减少错误信息的生成。在本课中，您将学习如何使用人类的反馈来对齐模型。和@@ 我一起观看下一个视频开始吧。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/yV8WP/aligning-models-with-human-values

List item

LLMS: 将模型与人类价值观对齐Aligning models with human values

参考

猜你喜欢