大语言模型LLM中的幻觉

LLM是什么?

大型语言模型（LLM）是一种基于自然语言处理和机器学习技术的大型语言处理模型。它能够理解和生成自然语言文本，并能够处理各种语言和文本类型，如对话、问答、文本生成等。

LLM的主要特点是使用了大规模的语料库和复杂的机器学习算法，通过学习大量的文本数据，以理解、生成和分类自然语言文本。它能够处理复杂的语言结构和语义，并且可以处理多种语言和文本类型，包括但不限于小说、新闻、电子邮件、社交媒体文本等。

LLM在许多领域都有广泛的应用，如搜索引擎、机器翻译、自然语言理解、智能客服、语音识别、内容审核等。它可以帮助人们更高效地处理大量的自然语言数据，提高语言处理的准确性和效率。同时，LLM也面临着一些挑战，如模型的可解释性、安全性和隐私问题等。

幻觉

由ChatGPT带来的大模型时代，国内外各大厂家都在陆续推出自己的大模型，然而目前大模型都存在一个普遍的现象就是：幻觉。

大白话就是大模型无法理解你的用词约束，结果出来一个稀里糊涂的东西。

简称：对牛弹琴。

我们在医学、金融、科研等领域对一些数据要求精准度非常的高，如果给个幻觉的错误数据，那么后面问题就太大了。

事实幻觉

事实不一致，当问AI：如何解决大模型的幻觉问题，话题是：幻觉可以说早就已经是LLM老生常谈的问题了，那为什么会产生这个现象该如何解决这个问题呢？快来和我们分享一下吧~

反馈结果如下：

这就很离谱，还是重要的角色了，完全的不对啊。其实我们文的也稍微有点问题，如果单独文LLM是什么的话我们来看看。

这个回答就更不靠谱了。。。

事实捏造

我们还问LLM，这回问LLM的起源是什么？

根本不是我们想要的，这个大概率是百度搜出来的，不一定靠谱，按时我知道LLM单独搜索肯定是法学硕士，可以百度的结果真的就靠谱吗？很明显不是，我学生也做个这个，很多信息条是不正确的。

指令与答案不一致、文本不一致、逻辑不一致，这类问题很多，用着各种不舒服的。所以我们就需要一直更换我们的提示词语。

错误信息和偏见。鉴于对大规模语料库的需求日益增长，启发式数据收集方法被用来有效收集大量数据。

这种方法在提供大量数据的同时，可能会无意中引入错误信息，增加出现模仿性错误的风险。此外，社会偏见也会在无意中被引入LLMs的学习过程。

这些偏差主要包括重复偏差和各种社会偏差，导致最终的数据出现各类的问题。

总结

实话说，想彻底解决这个问题可以说很难很难，在数据收集的时候很多数据我们无法保证它的正确性，就算是当前科学界确认的东西也可能在某方面是不正确的，本身就没有绝对正确的事物，我们都在这个过程中不断的摸索，并找寻最终答案而已。

附：

解决大模型对话中的幻觉问题，可以考虑以下几个方面：

数据增强：通过在输入数据中添加噪声或随机性，增加模型的泛化能力，减少幻觉问题。例如，在文本生成过程中，可以通过随机插入停用词、改变词序、使用伪词等技术，使模型在训练过程中更加鲁棒。

模型微调：针对特定任务，对预训练大模型进行微调，使其更好地适应特定领域。通过微调，可以减少大模型对特定领域的泛化能力不足的问题，从而减少幻觉的产生。

引入注意力机制：注意力机制能够使模型更加关注重要的信息，减少对无关信息的关注，从而减少幻觉的产生。

调整模型架构：通过调整模型的架构，使模型能够更好地处理对话任务中的信息，避免幻觉问题的出现。例如，可以增加模型的语言表达能力、记忆能力等。

实时反馈：对于用户的反馈，可以在一定程度上控制模型的幻觉行为。例如，如果用户表示不喜欢某个选项，则模型可以在下一个选项中更倾向于选择用户喜欢的选项。

验证和测试：在应用大模型进行对话生成之前，需要对其进行充分的验证和测试，以确保其在实际应用中能够满足用户需求，避免幻觉问题的出现。