【大模型AIGC系列课程 3-2】国产开源大模型:ChatGLM

重磅推荐专栏: 《大模型AIGC》
本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经验分享,旨在帮助读者更好地理解和应用这些领域的最新进展

1. GLM

https://arxiv.org/pdf/2103.10360.pdf
GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。它的主要目标是通过自回归的空白填充来进行预训练,以解决现有预训练框架在自然语言理解(NLU)、无条件生成和有条件生成等任务中表现不佳的问题。
具体来说,GLM通过随机遮盖文本中连续的标记,并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系,并且能够处理可变长度的空白。通过添加二维位置编码和允许任意顺序预测空白,GLM改进了空白填充预训练的性能。
在这里插入图片描述

这个图示说明了GLM预训练的过程,具体解释如下:
a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。在这个例子中,我们随机选择了两个连续的词片段[x3]和[x5, x

猜你喜欢

转载自blog.csdn.net/u011239443/article/details/132522269