ChatGPT的真相:强泛化的秘密以及众多关键问题

本文从ChatGPT带来的即时学习能力(in-context learning)入手,逐步深入地探讨了ChatGPT目前众多的关键性问题,包括:

    1. ChatGPT带来了从未有过的计算层次——虚拟人

    2. ChatGPT带来的新的智能计算构架:母体和虚拟人

    3. 在人类语料知识用尽的时候,新的智能架构如何成长,如何吸收新的技能

    4. 强泛化能力的解释,以及大模型能力涌现的可能原因

    5. 一本正经胡说八道问题的原因和长、短期解决方案

    6. ChatGPT如何细化到垂直领域,比如法律领域。

本文并不是对已发表的大模型论文的技术总结,不是一篇综述文章,而是基于笔者自己的研究分析去探索上述问题的答案。希望能起到一个抛砖引玉的作用。文章的写作跨度比较长,大部分的写作完成于OpenAI推出plugins功能之前,所以有少部分技术内容显得有些滞后了。

1 ChatGPT带来的崭新技术:

即时学习能力

在OpenAI的GPT-3出现之前,以往的深度学习模型只是为某个特定任务开发的,比如,翻译、分类、摘要、信息抽取等等。每个任务都有一个专用的模型,都需要人类标柱员专门为这个任务生成大量的标注数据用来训练模型。而OpenAI采用自监督的方式来训练它的超级大模型GPT-3,不需要任何人类标注数据。它使用了巨量的50TB的文字语料,其中大部分来自于互联网。而它所做的唯一一件训练任务就是根据文本中前面看到的文字,不断的预测下一个文字是什么。

这个1750亿参数的模型充分训练

猜你喜欢

转载自blog.csdn.net/qq_41771998/article/details/130300166