0代码训练GPT-5？MIT微软证实GPT-4涌现自我纠错能力迭代 - 代码天地

0代码训练GPT-5？MIT微软证实GPT-4涌现自我纠错能力迭代

业界资讯 2023-07-11 20:38:19 阅读次数: 0

我们都知道，大模型具有自省能力，可以对写出的代码进行自我纠错。

这种自我修复背后的机制，究竟是怎样运作的？

对代码为什么是错误的，模型在多大程度上能提供准确反馈？

近日，MIT和微软的学者发现，在GPT-4和GPT-3.5之中，只有GPT-4表现出了有效的自修复。并且，GPT-4甚至还能对GPT-3.5生成的程序提供反馈。

论文地址：https://arxiv.org/pdf/2306.09896.pdf

英伟达科学家Jim Fan强烈推荐了这项研究。

在他看来，即使是最专业的人类程序员也无法一次性正确编写程序。他们需要查看执行结果，推理出问题所在，给出修复措施，反复尝试。这是一个智能体循环：根据环境反馈迭代改进代码。

很有可能，OpenAI正在通过雇佣大量软件工程师来训练下一代GPT。而他们不需要输出代码——Critique is all you need。

- GPT-4能够进行自我修复的核心原因是其强大的反馈能力。它能够有效地自我反思代码的问题所在，其他模型无法与之竞争。

- 反馈模型和代码生成模型不必相同。事实上，反馈模型是瓶颈。

- 基于GPT-4的反馈，GPT-3.5能够编写更好的代码。

- 基于专业人员的反馈，GPT-4本身能够编写更好的代码。

揭秘用于代码生成GPT修复

我们都知道，大语言模型在生成代码方面，表现出了非凡的能力。

然而，在具有挑战性的编程任务（比如竞赛和软件工程师的面试）中，它们却完成得并不好。

好在，很多模型会通过一种自修复工作流来「自省」，来自我纠正代码中的错误。

研究者很希望知道，这些模型在多大程度上能提供正确的反馈，并且说明自己生成的代码为什么是错误的。

如图显示的是，基于自我修复方法的经典工作流程。

首先，给定一个规范，从代码生成模型中采样一个程序，然后在规范中提供的一组单元测试上执行该程序。

如果程序在任何单元测试中失败，那么错误的消息和程序会被提供给一个反馈生成模型，该模型再输出代码失败原因的简短解释。

最后，反馈被传递给一个修复模型，该模型生成程序的一个固定版本。

表面上看，这个工作流似乎非常完美。它让系统在解码过程中克服由于不良样本引起的错误，在修复阶段容易地合并来自符号系统（编译器、静态分析工具和执行引擎等）的反馈。

并且模仿人类软件工程师编写代码的试错方式。

然而，工作流有一个问题：自修复需要对模型进行更多的调用，从而增加了计算成本。

而且，研究者们发现了一个很有意思的现象：大模型自修复的有效性不仅取决于模型生成代码的能力，还取决于它对于代码如何在任务中犯错的识别能力。

目前还没有任何工作对此进行详细调查，因此，作者们研究了GPT-3.5和GPT-4在解决竞赛级代码生成任务时的自修复有效性。

研究人员提出了一个新的评估策略，称为，在这个策略中，根据从模型中采样的token总数来衡量任务的通过率。

因为使用的是pass@t，而不是传统的pass@k（根据实验数量衡量通过率），这样就能与纯粹基于采样的方法进行公平的比较。

从实验中，研究者发现：

1. GPT-4才能实现自我修复带来的性能提升；对于GPT-3.5，在所有预算下，修复后的通过率要低于或等于基准的无修复方法。

2. 即使对于GPT-4模型，性能提升也最多只能算是适度的（在预算为7000个token的情况下，通过率从66％提高到71％，约等于45个独立同分布的GPT-4样本的成本），并且取决于初始程序的多样性足够丰富。

3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释，可以获得更好的自修复性能，甚至超过基准的无修复GPT-3.5方法（在7000个token下，从50％提高到54％）。

4. 使用人类程序员提供的解释替换GPT-4自己的解释，可以显著改善修复效果，修复并通过测试的程序数量增加了57%。

自我修复四阶段

自修复方法涉及4个阶段：代码生成、代码执行、反馈生成和代码修复。对此，研究人员正式定义了这四个阶段。

阶段一：代码生成

给定规范，一个程序模型，首先生成样本

用一个公式来表示：

阶段二：代码执行

然后在测试平台上执行代码示例，并假设可以以可执行形式的访问完整测试集。

如果任何样本通过了所有的测试，就会停止，因为此时已经找到了令人满意的程序。

否则，收集执行环境返回的错误信息。

这些错误消息要么包含编译/运行时错误信息，要么包含程序输出与预期不同的示例输入。

阶段三：反馈生成

在此，研究人员使用反馈模型来生成更详细的错误解释。

在这个阶段，为每个错误的程序生成反馈字符串，，如下所示:

阶段四：代码修复

在最后一步中，对于每个初始程序和反馈，候选修复程序从中采样：

研究人员称这个过程产生的交错文本和程序树修复树T

——植根于规范，然后分支到初始程序，每个程序分支到反馈，然后修复。

具体如图所示：

由于自我修复需要几个非一致成本的相关模型调用，在这种设置中，（在样本中获得正确程序的可能性）不是比较和评估自我修复的各种超参数选择的合适度量。

相反，研究人员将通过率作为从模型中采样总token数量的函数来衡量，将其称之为的度量。

实验过程

研究人员又进一步针对3个问题进行了测试：

1. 对于更加有挑战的编程任务中，这些模型的自我修复是否比不进行修复的i.i.d.有更好的采样？

2. 更强的反馈模型会提高模型的修复性能吗？

3. 如果让人类参与功能最强模型的自我修复循环，提供人工反馈，是否可以解锁更好的修复性能？

首先研究团队引入了一个很有挑战的编程任务：Automated Programming Progress Standard （APPS）数据集中的编程任务。

这个数据集中的任务包括从入门级到大学竞赛级的编程任务，可以用来评估人类程序员解决问题和代码能力。

研究人员选取了300个任务，包括60个入门级别的任务和60个竞赛级别的任务。

研究人员选取了GPT-3.5和GPT-4作为模型，使用模板字符串连接和单次提示词来进行自我修复。

下图为提示词的实例之一。

自修复需要强大的模型和多样化的初始样本

研究人员让单个模型分别进行代码的修复生成和反馈生成。

在右边的图中，我们沿轴显示了具有两个超参数的热图，其中每个单元格中的值表示平均通过率，当给定相同的token预算（即t的相同值pass@t）时，自我修复由基线的平均通过率归一化。

从图中可以看到，对于GPT-3.5模型，pass@t在所有设置下都低于或等于相应的基线（黑），清楚地表明自我修复对GPT-3.5并不是一种有效的策略。

而在GPT-4（下图）中，有几个值的自修复通过率明显优于基线。

下图是和基线的无修复方法。

GPT-4反馈改进了GPT3.5的修复结果

研究人员又进一步进行了新的实验，评估使用单独的、更强的模型来生成反馈的效果，目的是为了测试一个假设：由于模型无法内省和调试自己的代码，阻碍了自我修复（比如说对于GPT-3.5）。

这个实验的结果如上图（亮蓝色）所示。

在绝对性能方面，GPT-3.5，GPT-4确实突破了性能障碍，并且比GPT-3.5的i.i.d.采样略微更高效。

这表明文本反馈阶段本身是至关重要的，改进它可以缓解GPT-3.5自修复的瓶颈。

人工反馈显著提高了GPT-4修复的成功率

在最后一项实验中，想要研究在用更强的模型（GPT-4）进行修复时，加入专家人类程序员的反馈的影响。

研究目的是了解模型识别代码中错误的能力与人类的能力相比如何，以及这如何影响自修复的下游性能。

研究人员研究人员招募了16名参与者，包括15名研究生和1名专业机器学习工程师。

每个参与者都有五种不同的基础程序，基于他们的Python经验编写代码。

每个程序都取自不同的任务，参与者永远不会看到属于同一个任务的两个不同的程序。

然后，参与者被要求用他们自己的话解释这个程序做错了什么。

实验结果如下图所示：

研究人员发现，当我们用人类参与者的调试替换GPT-4自己的调试时，总体成功率提高了1.57×以上。

不出意外的是，随着问题变得更难，相对差异也会增加，这表明当任务(和代码)变得更复杂时，GPT-4产生准确和有用反馈的能力远远落后于人类参与者。

猜你喜欢

转载自blog.csdn.net/zhaomengsen/article/details/131613952

0代码训练GPT-5？MIT微软证实GPT-4涌现自我纠错能力迭代

GPT-4：从纠正错误代码中揭示成熟大模型的涌现能力

【GPT4】微软 GPT-4 测试报告（5）与外界环境的交互能力

GPT-5正秘密训练！DeepMind联创爆料，这模型比GPT-4大100倍

OpenAI 已为 GPT-5 申请商标，GPT-4 发布不到半年，GPT-5 就要来了吗？

【GPT4】微软 GPT-4 测试报告（4）GPT4 的数学能力

MIT新方法让GPT-4学会反思，写代码能力提升21%！

【GPT4】微软 GPT-4 测试报告（3）GPT4 的编程能力

GPT-4 还没玩透，GPT-5已遭众人围剿

【GPT4】微软 GPT-4 测试报告（7）判别能力

【GPT4】微软 GPT-4 测试报告（6）与人类的交互能力

GPT-4还没普及 GPT-5这就要来了：AI领域无敌手

比尔盖茨：GPT-5不会比GPT-4好多少，生成式AI已达到极限

Cursor！！！GPT-4帮我写代码

微软154页论文刷屏：GPT-4能力接近人类！初版AGI就快来了...

GPT-4写代码能力提升21%！MIT新方法让LLM学会反思，网友：和人类的思考方式一样

研究实锤GPT-4惊人失灵：数学能力雪崩式下降，代码能力暴跌！

【OpenAI 多模态预训练】VideoGPT？微软透露GPT-4或将在下周发布

GPT-4火爆出圈，GPT-5或年底发布？这儿有一份原创最全NLP学习路线请查收！

GPT-5将死于GPT-4背刺？牛津剑桥研究警告：AI训AI成「剧毒」，会让模型崩溃！...

滴滴崩上热搜；比尔·盖茨：GPT-5 不会比 GPT-4 好多少；Spring Boot 3.2 发布｜极客头条

我的GPT-4 API 接入之旅

GPT-4救了我狗的命

GPT-4 VS ChatGPT：训练、性能、能力和限制的探索

我们对 GPT-5 有何期待？

GPT-4 介绍

OpenAI CEO：安全对我们很重要但我们没有训练GPT-5

传谷歌开始小范围测试 Gemini：比训练 GPT-4 算力大 5 倍，多模态能力大提升

微软New Bing（GPT-4）写的Delphi诗歌

GPT-4 其实没有推理能力？！

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)