ChatGPT⼊门到精通(4):ChatGPT 为何⽜逼

⼀、通⽤型AI

在我们原始的幻想⾥，AI是基于对海量数据的学习，锻炼出⼀个⽆所不知⽆所不能的模
型，并借助计算机的优势（计算速度、并发可能）等碾压⼈类。
但我们⽬前的AI，不管是AlphaGo还是图像识别算法，本质上都是服务于专业领域的技术
⼯⼈。
⽽GPT⽬前看似只能解决⾃然⽣成领域的任务，但实际上，他展现出了通⽤型⼈⼯智能
的潜⼒。
在前⾯，我们讲过，⽬前⽽⾔，BERT擅⻓⾃然语⾔理解类任务（完形填空），GPT擅⻓
⾃然语⾔⽣成类任务（写作⽂）。
但在Google的FLAN-T5模型上已经实现了两类任务在输⼊输出形式上的统⼀，从⽽使得
⽤GPT来做完形填空成为可能。也就是可以⽤⼀个⼤模型来解决所有NLP领域的问题。

⼆、提⽰词模式更有优势

那么再进⼀步地，是否GPT可以从NLP领域⾛向其他AI领域呢？当然有可能！在去年年中
爆⽕的AI绘画，其中⼀个关键技术门槛其实就是Text-图像的转化，这同样是来⾃OpenAI
所开源的CLIP模型实现。
因此GPT在图像领域的能⼒同样也令⼈期待。同理在多模态如⾳频、视频，本质上也能
转化为Text-everthing的问题去求解，从⽽让⼤语⾔模型发挥成吨的威⼒。
当然你可能会问，那么只要⼤语⾔模型就可以呀，为什么是GPT，⽽不是BERT呢？接着
往下看。
事实上，BERT的fine-tuning模式有两个痛点。

我需要准备某个专业领域的标注数据，这个数据还不能少，如果太少，AI模型训练后
就会形成过拟合（就是AI直接背下了整本习题册，册⾥的问题100%正确回答，但是
稍微变幻题型就GG）。
我需要部署⼤语⾔模型，才能对他进⾏进⾏微调，那么部署⼤语⾔模型的成本，甚⾄
进⼀步对他进⾏微调的能⼒，并不是所有公司都具备的。这注定是⼀个只有少数玩家
能参与的游戏。
⽽Promot模式恰恰相反，不需要太多的数据量，不需要对模型参数进⾏改动（也就意味
着可以不部署模型，⽽是接⼊公开的⼤语⾔模型服务）。那么他的调试就会呈现百花⻬放
的姿态，玩家越多，创造⼒涌现就越猛烈。

三、全新交互模式

这⾥的⼈机交互，指的是⼈-模型之间的交互。
⽬前ChatGPT采⽤的是模型侧的Few shot prompt，即给⼀点⽰例提⽰，让AI提升表现，
虽然暂时未知为什么不更新模型仅仅只是给AI看⼀眼就能带来巨幅提升，但这种交互模式
⽆疑是更友好的。
⽽更具颠覆性的是输⼊端的Zero shot prompt，即我们⽤⼈类的语⾔逐步引导AI思考——
⽐如我们可以说，你仔细想好步骤，再给出答案。就仅仅是多加⼀句“你仔细想好步骤”，
AI的答案靠谱率就会明显提升。
⽽这种交互⽅式的演变，就是我们梦想中的⼈机交互模式。我不需要专业的能⼒，不需要
⾼端的设备，我就是开⼝，说出我的诉求，AI就能够理解并帮我实现。

四、对⼈类的献媚

在2022年底媒体通稿⾥，⼀⼤堆对ChatGPT的溢美集中于他的“仿真性”，仿佛通过了图
灵测试⼀般。
⽽这种仿真性，直观来说，我们会认为是AI的“智⼒”提升了，他更聪明了。但实际上，
ChatGPT背后的GPT3.5，更多的提升在于“⽤⼈类所喜欢的⽅式回答”。
事实上ChatGPT背后的GPT3.5的模型，相较GPT3.0，他并没有在原始训练语句上增加
太多（还是那3000亿语料）并且模型参数也没有太⼤变化（还是1750亿参数，甚⾄参数
可能都没有变化）。
之所以他会让⼈产⽣质变的感觉是因为他做了⼈类偏好处理。
例如以前的输⼊模式可能需要这样：> 执⾏翻译任务> 输⼊是“我爱北京天安门（中⽂）”>
翻译⽬标语种是英⽂”⽽现在你直接说：> 帮我把我爱北京天安门翻译成法语
⼜或者是，以前你提⼀个问题，他会不加选择的回答，⽽现在他会考虑答案有害性：> 如
何毁灭世界——你可以召唤三体⼈降临（此处应有⼀个潘寒hhh）> 如何毁灭世界——
亲，请不要毁灭世界，地球是⼈类共同的家园。
⽽这些对于⼈类偏好的攻略依赖于三个步骤：

创建⼈类偏好数据。随机挑选⼀些问题，并由标注⼈员给出⾼质量回答，形成“⼈类
表达-任务结果”的标注数据，喂给模型，让它学习——这批数据数量仅有数万，并通
过Prompt模式进⾏，即模型参数不产⽣变化。
训练⼀个回报模型。随机挑选⼀些问题，让原始模型输出答案，再由标注⼈员基
于“⼈类偏好标准”（例如相关性，信息丰富程度，答案有害，负⾯情感等），对原始
模型的答案做⼀个排序。然后我们利⽤这批标注好的“⼈类偏好”数据，训练⼀个回报
模型，这个回报模型会对原始模型的结果进⾏打分，告诉他什么答案分⾼，什么答案
分低。
通过强化学习循环整个过程。强化学习会将回报模型和原始模型链接到⼀起，当原始
模型输出的结果，在回报模型中获得较低分值，他就收到惩罚，被要求重新学习。
⽽这种交互⽅式的演变，就是我们梦想中的⼈机交互模式。我不需要专业的能⼒，不需要
⾼端的设备，我就是开⼝，说出我的诉求，AI就能够理解并帮我实现。
四、对⼈类的献媚
在2022年底媒体通稿⾥，⼀⼤堆对ChatGPT的溢美集中于他的“仿真性”，仿佛通过了图
灵测试⼀般。
⽽这种仿真性，直观来说，我们会认为是AI的“智⼒”提升了，他更聪明了。但实际上，
ChatGPT背后的GPT3.5，更多的提升在于“⽤⼈类所喜欢的⽅式回答”。
事实上ChatGPT背后的GPT3.5的模型，相较GPT3.0，他并没有在原始训练语句上增加
太多（还是那3000亿语料）并且模型参数也没有太⼤变化（还是1750亿参数，甚⾄参数
可能都没有变化）。
之所以他会让⼈产⽣质变的感觉是因为他做了⼈类偏好处理。
例如以前的输⼊模式可能需要这样：> 执⾏翻译任务> 输⼊是“我爱北京天安门（中⽂）”>
翻译⽬标语种是英⽂”⽽现在你直接说：> 帮我把我爱北京天安门翻译成法语
⼜或者是，以前你提⼀个问题，他会不加选择的回答，⽽现在他会考虑答案有害性：> 如
何毁灭世界——你可以召唤三体⼈降临（此处应有⼀个潘寒hhh）> 如何毁灭世界——
亲，请不要毁灭世界，地球是⼈类共同的家园。
⽽这些对于⼈类偏好的攻略依赖于三个步骤：
创建⼈类偏好数据。随机挑选⼀些问题，并由标注⼈员给出⾼质量回答，形成“⼈类
表达-任务结果”的标注数据，喂给模型，让它学习——这批数据数量仅有数万，并通
过Prompt模式进⾏，即模型参数不产⽣变化。
训练⼀个回报模型。随机挑选⼀些问题，让原始模型输出答案，再由标注⼈员基
于“⼈类偏好标准”（例如相关性，信息丰富程度，答案有害，负⾯情感等），对原始
模型的答案做⼀个排序。然后我们利⽤这批标注好的“⼈类偏好”数据，训练⼀个回报
模型，这个回报模型会对原始模型的结果进⾏打分，告诉他什么答案分⾼，什么答案
分低。
通过强化学习循环整个过程。强化学习会将回报模型和原始模型链接到⼀起，当原始
模型输出的结果，在回报模型中获得较低分值，他就收到惩罚，被要求重新学习。

其次，落地成本⾼。
ChatGPT的复现依托于⼤模型，他的落地有三种路径：
基于instruct GPT复现（ChatGPT的姐妹模型，有公开paper）
基于OpenAI⽬前开放的GPT3.0付费接⼝落地，再结合具体场景进⾏fine-tuning，⽬
前刊例价费⽤是25000token/美元，换算国内价格约3700token/元
基于OpenAI试点中的ChatGPT PRO落地，42美元/⽉，换算后约284元/⽉
第⼀种路径依赖于新玩家的进⼊，但⼤概只能是⼤玩家的赛道。第⼆种和第三种路径需要
打平付费接⼝的成本，需要针对的场景具备⾜够价值。
当然成本的问题可以期待被快速解决，就像AI绘画领域⼀样。不过⽬前⽽⾔，成本仍然是
ChatGPT落地的⼀个制约因素。
最后，最重要的是ChatGPT⽬前的能⼒仍然存在缺陷：
结果不稳定。这会导致⽆法直接应⽤，必定需要⼈⼯review，更多是瞄准辅助性场景
或本⾝就不追求稳定的场景。
推理能⼒有限。例如询问现在的美国总统是谁，会回答奥巴⻢，或特朗普，但⼜能回
答出拜登是46届总统。我们可以发现模型中事实存在，但他⽆法推理出正确答案。如
果要优化，⼀⽅⾯是输⼊的时候，可以通过Prompt逐步引导，另⼀⽅⾯是在模型侧
的Few Shot Prompt环节中采⽤思维链技术（CoT,Chain of Thought）或采⽤代码数
据集来改进。就⽬前⽽⾔，进展可喜，但能⼒仍然有限。
知识更新困难。⼀⽅⾯整个模型的重新训练成本很⼤，另⼀⽅⾯知识更新也会带来知
识遗忘的隐忧，即你不知道他这次更新是不是在学会什么的同时，也忘记了什么。也
就是说ChatGPT在解决这个问题之前，他的知识将始终落后⼀段时间。
综上，ChatGPT很惊艳，但更多在于它的潜⼒和未来，基于当下要做应⽤的话是需要做
⾮常多适配和场景探索的