大模型LLM深入浅出、主打通俗易懂

AI(人工智能)是通过机器来模拟人类认识能力的一种科技能力。AI最核心的能力就是根据给定的输入做出判断或预测。对数据进行分析，从而总结得到研究对象的内在规律。一般通过使用适当的统计、机器学习、深度学习等方法，对收集的大量数据进行计算、分析、汇总和整理，以求最大化地开发数据价值，发挥数据作用。

目前AI分两大模块，计算机视觉和自然语言处理

1.计算机视觉应用场景：人脸识别、自动驾驶、车辆识别、医学影像、工业机器人图像分类、图片增强现实等。

2.自然语言处理应用场景：智能客服、语音识别、机器翻译、自然语言生成、智能助理、信息抽取等。

NLP(自然语言处理)它是研究如何让计算机读懂人类语言，也就是将人的自然语言转换为计算机可以阅读的指令，NLP是人工智能和语言学领域的分支学科。

而LLM是 NLP 中的一个重要组成部分，主要是用来预测自然语言文本中下一个词或字符的概率分布情况，可以看作是一种对语言规律的学习和抽象。

本文主要针对LLM(大语言模型)展开叙述。

LLM它是一种人工智能模型，主要是为了理解和生成人类语言，是在大量的文本数据上进行训练，可以执行大量的任务，包括文本总结、机器翻译、情感分析等等，其中最常见的应用是智能客服、语音识别、机器翻译、自然语言生成等。

LLM的特点是规模庞大，包含成百、上千亿的参数，该模型可以捕捉语言的复杂模式，包括句法、语义和一些上下文信息，从而生成连贯的、有意义的文本。

目前国内外有很多成熟大模型，如下：

其中ChatGLM是清华技术成果转化的公司智谱AI研发的支持中英双语的对话机器人。按照训练参数分类分别为ChatGLM-130B、ChatGLM-6B、ChatGLM2-6B等几种大模型(参数单位 1B=10亿)。

在斯坦福大学2022年对全球30个主流大模型全方位的评测中，ChatGLM-130B是亚洲唯一入选的大模型，其在准确性和恶意性指标上与 GPT-3-175B 接近或持平。

在ChatGLM产品中，ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 GLM (General Language Model) 架构，具有62亿参数。ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。并且ChatGLM-6B可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需6GB显存)，即使量化参数为FP16精度，推理也只需要13GB显存，本次采用一张NVIDIA GeForce RTX 3090 GPU, 显存大小为24G。

目前主流大模型，都是基于LLaMA、chatglm进行预训练，所以诞生了几种预训练架构，如下：

图中的autoencoding自编码模型(AE模型)、 autoregressive自回归模型(AR模型)、encoder-decoder(Seq2seq模型)，这三种预训练框架各有利弊，没有一种框架在“自然语言理解(NLU)、无条件生成以及条件生成”这三种领域中表现最佳。T5曾经尝试使用MTL的方式统一上述框架，然而“自编码”和“自回归”的目标天然存在差异，简单的融合无法继承各个框架的优点。

在天下三分的僵持局面下，GLM诞生了。GLM模型基于autoregressive blank infilling方法，结合了上述三种预训练模型的思想，GLM主要使用的技术是：双向注意力和自回归空白填充目标，嵌入梯度收缩策略可以显著提升训练稳定性。(模型结构详见论文：Glm: General language model pretraining with autoregressive blank infilling

那么接下来我将根据这张“GLM的mask原理”图详细解说一下

1.原理图简单注释：输入到模型中的prompt是如何进行mask，并同时实现单向和双向的注意力机制，借此全面了解训练目标和GLM结构。

2.假设说明：假设有一条原始数据，通过文本分割后，解析为6个span，分别为x1-x6。此时，随机遮住两个span，分别为x3、x5和x6，并且以mask打标记，假设分割后的文本x = [x1,x2..xn]，多个采样span标识为{s1,s2...sm}, 其中选中的span用[mask]标记，则构成标记后的文本Xcorrupt。现在用Zm来表示长度是m的标号序列的所有的可能性，那么预训练的目标就可以表示为：

3.详细说明：图中(a)（b）可看出：原来的数据是x1-x6，分别采样x3、x5和x6后，就变成了两部分Part A和Part B。Part A是被损坏后的文本，被采样的数据用[mask]标记，而Part B是由采样数据组成。此时Part A和Part B部分将进行拼接作为模型的输入。

图(c)可看出：多了[E]和[S]，其表达意思是每个span片段使用[S]填充在开头作为输入，使用[E]填充在末尾作为输出。而且能看到x5和x6 与 x3调换了位置，可以得知采样出来的片段是随机顺序，更能保证模型充分学习到片段之间的依赖关系。同时可看到，Position 1和Position 2，其中Position 1:代表每个Token在原始文本中所在的位置，可以看到Part B部分的span位置在Part A中的掩码表示 [M]对应的位置编码相同，而Position 2在待填空span中的相对位置。Part A部分中的Token用0来编码，能看到[s] x5 x6 是一个待填空片段，因此编码为1,2,3。

图(d)可看出：既有有双向注意力也有单向注意力。巧妙的地方在于：Part A中的tokens彼此可见，但是不可见B中的任意tokens，Part B tokens可见Part A，Part B tokens可见B中过去的tokens，不可见B中未来的tokens(蓝、黄、绿圈出的数据范围)。

总结理解一下就是：Part A部分相当于自编码的MLM语言模型，自然是利用双向的上下文信息，而Part B部分的每个Token需要采用自回归的形式至左向右预测，自然只能看到单向的信息。模型可以自动学习双向encoder(Part A)以及单向decoder(Part B)， 其实GLM主要的目的就是想利用未遮挡的数据来自回归式预测被遮住的信息。

若要构建垂直领域大模型，需要根据各自行业知识做预训练。目前各行业垂直领域大模型如下：

对上图中的训练方法再做个简单介绍，预训练私有垂直领域大模型目前有两种方式，第一种微调模型(LoRA、p-tuning v2)，第二种基于LangChain框架的知识库原理。

1.LoRA(Low-Rank Adaptation of Large Language Models)的方法，是微软研究员引入的一项新技术，主要用于处理大模型微调的问题，在使用大模型适配下游任务时，只需训练少量参数即可达到很好的效果。核心原理: 通过冻结大语言模型中的预训练权重，同时在Transformer架构的每一层中加入可训练的低秩分解矩阵，通过低秩矩阵来运算，可以极大减少网络运算参数量。

上图中(论文地址：https://arxiv.org/abs/2106.09685)，左边蓝色代表预训练好的模型参数，右边橘色分别初始化A和B两块模型。众所周知，如果想直接训练蓝色的原始模型，将是十分耗费资源，需要8张A100显卡(A100目前市场价格13万一个)，并且训练中耗费大量电力资源(OpenAI的chatGPT-3训练一次的成本约为140万美元)，而为了节省资源，LoRA思想是将右边橘色的两个模型，先分别初始化为高斯分布和0，训练的时候固定预训练语言模型的参数(蓝色部分)，只训练降维矩阵 A 与升维矩阵 B，而模型的输入输出维度不变，输出时将 BA 与预训练语言模型的参数叠加。用随机高斯分布初始化 A，用 0 矩阵初始化 B，这样能保证训练开始时，新增的通路BA=0，从而对模型结果没有影响，在推断时可以利用重参数（reparametrization）思想，将AB与W合并，这样就不会在推断时引入额外的计算了

假设在原始全量参数模型上微调，那么需要加入增量 W=W0+ΔW 。参考此公式，那么Lora其就是通过冻结原始参数W0 ,并且把增量部分通过低秩分解方式进一步降低参数量级ΔW=B*A ，原始参数的维度是d∗d (蓝色部分), 则低秩分解后的参数量级是2∗r∗d ，因为这里的r远小于d，所以起到了大幅降低微调参数量级的效果，即公式转变为 W = W0 + B*A。

此外，有兴趣可以了解prompt-tuning(提示调优)、p-tuning v2(Prefix-tuning)等算法，有时间再总结。

2.LangChain知识库

知识库存在的意义：建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案

理解知识库，结合上图，三步走：

1.将一段文本划分为多个段落(split)，将分割后的文档Embedding(向量化),存到向量库(图Vector Store标识)。

2.获取到用户的问题，先对问题Embedding，生成Query Vector,然后去Vector Store匹配最相近的TOP K。每一条内容都有评分，可以根据阈值筛选评分低的数据(相似Elasticsearch技术)。

3.将获取到的K条内容，整理成Prompts，并汇总用户问题，调LLM接口，生成答案。

举个例子理解：

有一个文本，里面有一段话

"小拾喜欢玩手机、打游戏、看电影。阿敏喜欢吐槽小拾。"

根据逗号分割问两句话：

(1)"小拾喜欢玩手机、打游戏、看电影。"

(2)"阿敏喜欢吐槽小拾。"

你可以问这么一个问题：

"小拾喜欢做什么?"

用这个问题查询文本向量库，根据相似性，会返回以下内容：

"小拾喜欢玩手机、打游戏、看电影。"

因为这句话和你的问题中都包含了"小拾"，"喜欢"

然后把这段话加上你的问题组合成prompts：

"""已知信息：

小拾喜欢玩手机、打游戏、看电影。

根据上述已知信息，简洁和专业的来回答用户的问题。如果无法从中得到答案，请说 “根据已知信息无法回答该问题” 或 “没有提供足够的相关信息”，不允许在答案中添加编造成分，答案请使用中文。问题是：小拾喜欢做什么

"""

将这个prompts扔给LLM，然后模型会重新组织语言，给出回答!

大模型LLM深入浅出、主打通俗易懂

猜你喜欢