MIT、北大、浙大、港大的四位讲者分享大模型前沿研究,畅聊ChatGPT

点击蓝字

d2064883b8167a2d4d9df9479bd3393a.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

fe186ff31dd2aebd78cb46e069efee59.gif

2023年3月9日,AI TIME 大模型系列活动推出首期专场活动。本次活动邀请到了香港大学一年级博士生谢天宝、北京大学计算机学院四年级博士生张之远、浙江大学一年级硕士乔硕斐、麻省理工学院一年级博士生肖光烜。四位嘉宾分享了他们在大模型方面的前沿研究。在panel环节,讨论了ChatGPT、AIGC等当下热点话题,为观众带来了一场精彩的大模型科学思辨,本次活动共吸引了线上约两万观众观看。

409b3fedc0c7c988c74271a05cccdb90.png

谢天宝:UnifiedSKG:Unifying and Muti-Tasking Structured Knowledge Grounding with Text-to-Text Language Models

结构化知识基础(Structured knowledge grounding,SKG)利用结构化知识来完成用户请求,例如基于数据库的语义解析和基于知识库的问答。由于SKG任务的输入和输出是异构的,它们被不同的社区分别研究,这限制了对SKG的系统性和兼容性研究。谢博士分享了自己最新的研究工作中通过提出UnifiedSKG框架克服了这一限制。新框架将21个SKG任务统一为文本到文本格式,旨在促进系统的SKG研究,而不是排他性地针对单个任务、领域或数据集,同时也证明了多任务前缀调整可以提高大多数任务的性能,从而大大提高整体性能。

张之远:Fine-mixing:Mitigating Backdoors in Fine-tuned Language Models

众所周知,深度神经网络(DNN)容易受到后门攻击。在自然语言处理(NLP)中,大规模预训练语言模型(PLM)通常在含有后门的有毒数据上被微调的过程中被后门化。尽管PLM的干净权重很容易获得,但现有方法在保护NLP模型免受后门攻击时忽略了这一信息。张之远博士在本次活动中介绍了自己的研究工作,这项工作为安全微调的NLP模型建立了一个简单但强大的基线防御方法Fine-mixing来抵御后门攻击。该项工作通过两种互补技术利用未微调的干净预训练权重来去除被微调后的语言模型中的后门,并在三个单句情感分类任务和两个句子对分类任务上将 Fine-mixing与典型的后门防御算法方法进行了比较,证明了Fine-mixing性能的优越性。

扫描二维码关注公众号,回复: 14650431 查看本文章

乔硕斐:Reasoning with Language Model Prompting:A survey

推理能力是人类智能的核心,但在自然语言处理(NLP)中,现代神经网络很难根据已知或已知信息进行推理。随着预训练的革命性发展,扩大语言模型(LM)的规模已经证明可以赋予一系列推理能力,例如算术、常识和符号推理。这些能力可以通过提示策略提示、生成知识提示,这可以极大地缩小人类和机器智能之间的差距。但是,这些方法分散在各种任务中,还没有得到系统的审查和分析。乔硕斐在本次报告的主题是对语言模型提示推理最新进展的综述,他首先介绍了推理的背景知识,然后分别介绍现有的语言模型提示推理的方法,将它们总结为分类体系,进行全面深入的对比和讨论,最后提出了一些值得探索的研究方向,并且表示期望自然语言处理领域能够与认知科学、社会科学等更多的领域结合起来,解决更多更复杂的推理任务。

肖光烜:SmoothQuant:Accurate and Efficient Post-Training Quantization for Large Language Models

大型语言模型(LLM)展现出卓越的性能,但是其计算和内存需求非常高,因此量化技术可以减少内存占用并提高推理速度。然而,针对超过千亿参数的LLM,现有的量化方法无法保证准确性,或无法在硬件上高效地运行。在这次活动中,肖光烜介绍了一种免训练、能够保持精度并且通用的训练后量化(PTQ)解决方案——SmoothQuant。SmoothQuant可以无损量化高达530B参数的大模型,支持对LLM中所有GEMM的权重和激活进行量化。相比于混合精度激活量化基线方法,SmoothQuant显著减少了推理延迟和内存使用。SmoothQuant通过PyTorch和FasterTransformer实现,可以获得高达1.56倍的推理加速,并将内存占用减半。SmoothQuant显著降低了大模型的推理成本,有益于将大模型应用大众化。

Debate

1

ChatGPT的出现,作为基座之一的

大模型,是否会改变AIGC领域的未来发展方向?

张之远:事实上在ChatGPT之前的大模型,学术界也有很多的进展。比如说从fast-text的词向量,到后来的Bert模型和GPT-3模型。但是为什么在ChatGPT之前这些模型似乎都没有引起过社会这么大的关注和影响呢?我觉得原因可能主要有两个:第一个是因为ChatGPT生成的效果非常好,它比GPT-3的生成效果更好,可能它的数据量计算量上去了,再加上近期的instruct-training的训练方式,它的生成效果变得非常好。但是对于普通的研究者而言,如果我们缺乏足够的计算量,事实上是无法判断ChatGPT的效果好是来自数据和模型,还是来自instruct-training的。另一方面可能是ChatGPT作为一个生成式模型,它与人类的交互,相比Bert的判别式模型它可能更加有趣。Bert的使用者多数为学术界的人,但是对于一个普通的AI爱好者他可能很难直接跟Bert产生交互,而ChatGPT的出现把AI运用的门槛变得非常低,我们可以方便地运用AI来指导我们写邮件或者聊天,把它当作搜索引擎用,所以就产生了一个现象级的热度。包括之前的stable diffusion model,它可以直接画出图,所以大家交互起来都非常方便。ChatGPT是否会改变AIGC未来领域的方向,可能不太好说,ChatGPT生成类路线的成功不一定说明Bert这个判别式路线的失败,只能说生成类这个路线可能也可以走。ChatGPT的交互非常方便,引起很大的关注,会给AI增加更多的热度和曝光或者投资之类的,这应该是可以预见的,以上就是我的个人意见。

乔硕斐:首先我觉得大模型对于AIGC领域的未来发展产生影响这是肯定的,但是当下的人工智能它是有数据驱动的,而且AIGC它通常也是需要海量数据的,那么大模型有能力去学习和储存这些海量的数据中包含的知识模式等等,并且在少样本和零样本这种场景中都发挥优势。在目前人工智能发展水平的大模型技术,对于AIGC来说是一个好的选择。但是ChatGPT背后的大模型仍然存在着很多的局限,比如说模态单一的问题。大规模的语言模型只能处理纯文本的数据,但是人类世界的所有的知识是否都能用文本去代表,这个很难去评判。另外就是我们尝试去问ChatGPT一些常识性的问题,可以发现它尽管已经储存了很多的知识,但是其中仍然包含着一些事实性的或者是价值性方面的一些错误,那么这些问题需要外部的知识库来得到缓解。最后,我认为大模型可能只是AIGC发展的一个阶段,因为最终AIGC的发展不应该是由数据来驱动的,而是由人类的需求以及人类的价值观来驱动的。那么这就需要大模型不仅与数据打交道,也需要与人类社会以及物理环境来产生互动。目前的大模型技术显然是不能满足这些需求的,所以想要达到真正我们所想要的AIGC还有很长的路要走。

肖光烜:我感觉ChatGPT的出现已经是在改变AIGC领域的方向。首先就刚才几位同学都已经提到过的,ChatGPT包括之前的一些GPT-3这些模型,他们最大的特征就是大,包括模型参数大、训练的数据大,还有就是它的用户也是非常多的。这样的一种大的模型未来在可见的一段时间内还是会接着变大,那么模型的效率是更重要的一个问题了。因为当ChatGPT如果将来部署到像搜索引擎一样,需要每秒钟被很多人访问的话,它的真正服务的延迟以及每一次服务耗费运营的金额都是一个非常实际的需要考虑的问题。这个是在efficiency的方向,我感觉未来还会有很多工作来研究这个方向。在模型大了之后以及服务的人越来越多之后,大家可能会考虑它跟人的这些关系,这个也是非常重要的一些方向。比如说当模型服务的人越来越多,ChatGPT有的时候可能会一本正经地说胡话,但是如果大家没有辨别能力去相信它说的这些话的时候,它捏造的这些事实可能是非常有害的。怎么让ChatGPT能负责任地说话,这个也是未来的一些研究方向。总之来说,ChatGPT的出现其实已经是在不断地改变AIGC领域的方向,对它而言我们有非常多可以探索的方向,我目前就在探索研究模型效率的一个方向。

谢天宝:其实对学术界来讲,ChatGPT的出现带来的大模型,对于大家对AIGC的研究其实还是有帮助作用的,而且大家对这项研究还是很乐观的。我们当然可以结合之前的框架继续做,同时我们还可以引入它,结合它现在所有的问题包括一些效率的问题进行改进。

2

大模型的可解释性和透明度是否

足够满足用户和社会的需求?

张之远:我觉得首先现在大模型的可解释性和透明度是不够的。未来随着我们的研究可解释性和透明度肯定是会上去的,但是我们可能要有一种涌现或者是整体的观点,而不是以还原论的观点去看待大模型的可解释性。首先是可解释性的问题,之前大家也说到就ChatGPT会有一本正经说胡话的这个情况,有时它无法保证数据是真实的,它可能只是从概率上推断,无法解释这个东西是从哪里出来的,所以它的透明度和可解释性是远远不够的。在很多要求精确的领域像数学领域,如果盲目依赖ChatGPT的一些回答,可能有时候会造成一些重大的事实性或知识性的误导,而且很多情况下ChatGPT无法解释一些行为的发生,所以在当下可能是不够的。

那么在未来我们把可解释性做清楚或者把透明度提高大概有两种思路:一种思路是还原论的思路。举个例子,比如说试图研究一个系统,把系统的每个部分都搞清楚,那么ChatGPT有这么多参数,就问它一个问题,他是调用了哪一部分的参数或者哪一部分的记忆来回答这个问题呢?这个可能就是还原论的思路,把它每一个参数和参数之间的交互彻底搞清楚,甚至可能之前有一些可解释性的网络就让它像人的大脑一样分区储存,某个部分专门储存某些知识。另一种就是整体论或者涌现论,ChatGPT把它当作一个具体的黑箱,不尝试解释ChatGPT的参数是如何作用的或者他的每个部分到底表示什么,就是作为一个整体的黑箱输入输出,然后看它对特定的任务的完成情况。比如说引用参考文献的时候让ChatGPT指出出处,或者在它提炼观点的时候让它列举一些论据并且对论据的真实性做出保证,或者对于有疑问的论据真实性打一个标签。对于这些特定的任务或者行为,我觉得ChatGPT能唯象地做到这些就好了,它只要行为上做到了,我们不一定能探究清它的内部机制,我觉得很有可能未来的透明度或者可解释性的研究是一个唯象的研究。那么我以前面我分享的我的工作为例,首先先解释一下唯象的研究,就是并不在意某一部分的具体分工,例如我的工作中,将两部分的参数混合,模型效果就能提升,这就是个比较唯象的研究。那么不唯象的还原的研究就是把它每个部分的参数进行分析,然后找到一些可能有问题的参数并且解释为什么有问题。我觉得可能现在很多可解释性的研究还是偏还原论的,尝试弄清楚每一个参数的功能,但这个可能对越来越大的参数或越来越大的模型是力不从心的,而且现在有很多研究也表明随着数据量的增加会突然在某一个尺度上出现一个涌现的现象,这可能是基于一个复杂系统的,而不能把复杂系统看作一些简单系统的叠加。

乔硕斐:我觉得目前ChatGPT可以满足一些人类社会基本的需求,但是他能满足的是有限的,他不能满足更多更高层次的需求。比如说我们问ChatGPT一些简单的问题,让他去翻译一篇文章,或者是润色一篇论文,或者是修改一段代码,或者是现在也可以就是给他发一张图片的链接让他描述一下图片内容,这些任务不要求大模型具有多少可解释性和透明度,但是人类的最终目的肯定是想要让模型去解决一些人类做不到的事。我们想要去评价一个模型他能不能完成某些任务通常的标准就是我们能不能信任它。讲到信任模型,我们平常去信任一个东西,一般要了解它是怎么工作的,它的内部结构是什么,它是怎么去处理这些任务的?这样我们才能达到我们所想要的那种信任程度,那么这就需要对大模型有很高的可解释性和透明度。另外我们平时让模型去干一些事情,是因为对模型的犯错误的代价要求很小,但是在我们人类的很多领域比如说与生命有关的生物科学、医药科学或者是与航空航天有关的,这些任务的犯错代价基本为0,是不允许我们去犯错的。这就要求大模型的具有高度的可解释性和透明度,所以就目前来看它是可以满足一些基本的需求,但是并不能满足我们所有的需求,以上就是我的一些个人观点。

肖光烜:我感觉造这种等级的AI已经不能用还原论来做大模型可解释性了。我们退一步讲,比如说要造一个跟人一样的AI的话,大家现在能做到解释人的大脑里边每一个决策所的内部神经元是怎么激活的吗?这个显然目前是没有这样的工作。所以我非常赞同这种我们要造越来越强的AI的观点,我们要用一种不管内部是怎么工作的,但是我们要让它外部的接口去解释它为什么这样去做决策,这也是GPT这一类模型一直在做的一个方向。可以问ChatGPT为什么这么想,为什么做这样的决策,就像跟人对话一样来做这样的解释。这样的解释性我觉得是非常符合越来越强的AI的发展的,是非常现实的。因为如果要把模型还原性地拆解的话,那它就像角色术能剥离在人的面前的话,很难说这样的模型会具有非常好的表达能力。我觉得大模型目前存在一本正经说胡话的现象,这说明它跟现实世界还是有剥离的。目前只从大规模的训练语料上面获得一个概率分布,但它并不理解它输出话其实是跟现实中的一些东西是有联系的,或者是每一个概念它都是有一个现实的对应的,让它理解这样的对应其实是非常重要的。还有一种可解释性,就是比如说让它做研究一样,它给出的每一个观点都让它从外部的数据库中给出一些参考的链接,然后让人来看,这个我觉得也是能够极大地提高大模型的可解释性的一个方向。

谢天宝:我也赞成要增加一些grounding source,对于科学领域或者是满足用户需求会有更大的帮助。我们最近的一些研究也在提供一些可解释性的代码,就是说我们不只给answer,我们去给一些中间如何得到answer的这个过程,以代码形式来呈现,但这个代码可能会比较特殊。我的观点是当这个系统没有办法做到100%的时候,即使做到95%,中间的解释也是很必要的。因为哪怕只有5%的错误率的话,可能也会面临很多问题问题。

整理:陈   研

审核:张之远、乔硕斐、肖光烜、谢天宝

往期精彩文章推荐

36813543baaf9df6f476875e3e047b26.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1000多位海内外讲者,举办了逾500场活动,超500万人次观看。

aa541c0585974a619ef04df6871e2595.png

我知道你

在看

~

0030301fa85172de95191d092f600de9.gif

点击 阅读原文 查看回放!

猜你喜欢

转载自blog.csdn.net/AITIME_HY/article/details/129870234