【GPT4】微软 GPT-4 测试报告（8）局限性与社会影响

欢迎关注【youcans的AGI学习笔记】原创作品，火热更新中
微软 GPT-4 测试报告（1）总体介绍
 微软 GPT-4 测试报告（2）多模态与跨学科能力
 微软 GPT-4 测试报告（3）编程能力
 微软 GPT-4 测试报告（4）数学能力
 微软 GPT-4 测试报告（5）与外界环境的交互能力
 微软 GPT-4 测试报告（6）与人类的交互能力
 微软 GPT-4 测试报告（7）判别能力
 微软 GPT-4 测试报告（8）局限性与社会影响
 微软 GPT-4 测试报告（9）结论与展望

【GPT4】微软 GPT-4 测试报告（8）局限性与社会影响

微软研究院最新发布的论文「人工智能的火花：GPT-4 的早期实验」，公布了对 GPT-4 进行的全面测试。

本文介绍第 8 部分：局限性、第9部分：社会影响。

GPT4 的自回归模型不允许回溯，因此规划能力相对较弱，在不连续任务中存在局限性。
GPT4 将挑战许多人类专业知识的传统概念和假设，也将为职业创新和转型提供丰富的机会。
期待通过人工智能技术支持人类的能动性和创造力，并增强和扩展人类的能力。
GPT4 对于人类社会的各个方面都将带来深刻影响。

8. GPT4 的局限性

如前所述，GPT-4在广泛的任务中展示了令人印象深刻的能力，如推理、内容生成、问题解决等。

然而，正如我们将在本节中展示的那样，该模型也有几个本质上的缺陷，其中一些似乎是作为其架构基础的下一个单词预测范式所固有的。

我们将用一系列的例子来说明这些缺陷，并讨论它们的含义。

8.1 先用两个基本的例子热身

预测下一个单词是一项依赖于工作记忆的任务，通常需要提前计划。

考虑下面的例子：

在这里插入图片描述

将下一个句子的内容合并成一个句子：
美联储去年以20世纪80年代以来最快的速度加息，将借贷成本从接近零的水平推高至4.5%以上。起初，这似乎减缓了消费者和企业的需求，并帮助通胀放缓。但最近的一些经济报告表明，去年通胀并未像预期的那样减弱，1月份的通胀速度仍快于预期，而其他数据显示，今年年初，就业依然强劲，消费者支出有所回升。

合并语句：
尽管美联储以自20世纪80年代以来最快的速度加息，从接近零的速度升至4.5%以上，这最初似乎减缓了消费者和企业的需求，并缓和了通货膨胀，但最近的一些经济报告表明，通货膨胀并没有像去年预期的那样减弱，1月份仍比预期的要快，与此同时，招聘依然强劲，消费者支出在年初有所回升。

可以说，如果不花时间规划结构，一般人是不可能写出如此简洁的句子的，很可能需要“回溯”（进行编辑）几次才能达到最终形式。然而，GPT架构不允许这样的回溯，这意味着产生这种输出需要“提前很多”的规划。

由于GPT-4的输出生产具有前向性，因此模型要做这样的超前规划，唯一的方法就是依靠其内部表示和参数来解决可能需要更复杂或迭代程序的问题。在接下来的内容中，我们将尝试论证：

该模型的主要限制之一是，该架构不允许在其内部表示之外进行“内部对话”或“暂存器”，导致他不能够执行多步计算或存储中间结果。

我们将看到，虽然在某些情况下，这种限制可以通过使用不同的提示来补救，但在其他情况下，这种限制无法缓解。例如，考虑下面这个问题，模型给出了错误的答案：

Q: 150到250之间有多少个质数?
A: 150到250之间有13个质数。

然而，如果我们让模型列出这个范围内的质数，然后写出计数是多少，它又会给出正确的答案：

Q: 先列出150到250之间的质数，然后输出列表的大小。
A: 质数有151, 157, 163, 167, 173, 179, 181, 191, 193, 197, 199, 211, 223, 227, 229, 233, 239 和241。
所以列表的大小是18。

如这个例子所示，模型有足够的知识来回复这个问题的答案。然而，问题在于下一个单词预测架构不允许模型进行“内部对话”。模型的输入是“有多少质数……”，而输出预计是最终的答案，要求模型（本质上）在前馈架构的一次遍历中想出答案，特别是不能实现“for循环”。另一方面，当需要写下最终答案时，人类可能会使用便签簿并检查数字是什么。

这类问题在某种程度上已经在之前的 GPT 模型中观察到了。这个例子中所说明的问题，通常可以通过明确指示模型以一步一步的方式解决手头的问题来补救（参见[WWS+22]和其中的参考文献）。我们接下来将说明，这可能是不够的。

8.2 在算术/推理问题中缺乏规划

有人可能会说，在上面的例子中，所需的“内部内存”数量相当大（至少从人类可能不得不使用便签本的意义上来说）。由于这个模型在不同的任务集上表现得如此好，这可能会让人相信它有一个合理的工作记忆量。

然而，似乎对于更简单的任务，该模型也经常失败。我们考虑下面这个极其基本的例子：

在这里插入图片描述

模型产生的数字 88 是错误的答案。我们用100个随机样本测试了模型，其中 4个数字在0和9之间均匀生成，仅获得58%的准确率。这只涉及一位数乘法和两位数加法，这是一个具有基本数学知识的小学生都能解决的任务。当数字在10 - 19和20 - 39之间均匀选择时，准确率分别下降到16%和12%，当数字在99和199区间时，准确率下降到0。在某种程度上，这表明了GPT-4对于这类问题的工作记忆是如何令人难以置信地短。

然而，如果GPT-4“花时间”回答这个问题，那么精度很容易提高。例如，如果我们要求模型使用下面的提示符写下中间步骤：

下面这个表达式的值是多少?116 * 114 + 178 * 157 = ?

让我们一步一步思考求解表达式，写下所有的中间步骤，只有这样才能产生最终的解。

然后，当数字在区间1−40时，准确率达到100%，区间1−200时，准确率达到90%。

人们可能希望通过始终向提示添加正确的指令并允许它使用额外的 token 作为工作记忆，来解决模型对某些类型的任务的工作记忆非常小以及缺乏基本步骤的问题。

然而，似乎模型的自回归性质迫使它以顺序的方式解决问题，有时会造成更深刻的困难，这是不能通过简单地指示模型找到一步一步的解决方案来补救的。

我们在下面的例子中说明了这一点，通过这些例子我们认为，很有可能，一个人最终需要扩展自回归框架（我们稍后对此进行评论）。简而言之，接下来的例子中强调的问题可以总结为模型的“缺乏提前计划的能力”。

我们从下面的例子开始。

在这里插入图片描述

这个可以用 5 步解决的汉诺塔的例子，但是模型搞错了。有人可能会说，上面的例子只是传闻轶事，问题在于训练数据中包含的汉诺塔的例子非常少（注意，提醒模型汉诺塔的规则是什么也无济于事）。

让我们再看一个例子：

在这里插入图片描述

模型首先说“例如，如果我们用27代替9。”这是一个强有力的指标，表明模型是在以线性方式思考，而不是提前计划。它甚至没有提前一步看到9需要乘以4。在这之后，模型进入失败模式（因为它不能修改更多的数字），并开始输出不连贯的东西。我们在形式为A∗B + C∗D = E的100个样本上测试了模型的正确性，其中从区间[3，9]和区间[A， B]中随机抽样整数B， D和C， D，选择E使解存在。结果是[0，9]的32/100，[10，19]的25/100，[20，49]的22/100和[50，100]的18/100。

我们可以看到，当我们增加数字的范围时，精度并没有下降很多，这表明并不是计算本身给模型带来了问题，而是问题似乎在于需要提前计划解决方案。

对上述例子的一个可能的评价是，模型根本没有在足够的数据上进行训练，这些数据涉及算术，以便开发内部机制，使其能够成功地执行提前规划。因此，我们接下来转向涉及英语内容生成的示例。

8.3 文本生成缺乏规划

我们在这里考虑的任务可以被认为是在约束下的内容生成，要求模型根据包括对其结构的约束的特定指令生成文本内容。

我们考虑的约束可以大致分为局部和全局。粗略地说，局部约束只涉及文本近端部分之间的相互作用。这方面的两个例子是（a）产生押韵：押韵是“局部的”，因为它只规定了连续句子之间的（语音）关系（b）规定了每个句子中的第一个字母或第一个单词。相反，一个例子“全局”条件可以是第一个和最后一个句子是相同的（这种约束强制了文本不同部分之间的长程交互）。

该模型似乎可以很好地处理局部约束，如下面的例子所示：

在这里插入图片描述

该模型产生了一个连贯的、有创意的故事，满足了这两个约束。对每句话首字母的约束可以以“贪婪”的方式顺序处理，因为模型只需要查看前一句就可以决定下一句。对情节转折的约束也不需要进行实质性的规划。

下一个例子涉及到一个更“全局”的约束：

Write a short poem where the last sentence and the first sentence have the same words, but in reverse order. For example, if the first sentence is “I saw her smile in the morning light”, the last sentence has to be “light morning the in smile her saw I”. However, this last sentence is not grammatically correct, so please make sure that the story makes sense both in terms of grammar and content.

Possible poem:

I heard his voice across the crowd
A melody that drew me in
He sang of love and hope and dreams
And made me feel like I could win
In dreams and hope and love he sang
He drew me in with melody
Crowd the across voice his heard I.

看起来，模型在生成第一句话时没有“规划”最后一句应该是什么，导致了一个语法错误的句子。人们可能希望，该模型能够以一种可以缓解这一问题的方式被提示。例如，我们可以要求模型首先提出一个如何找到一个好的第一句话的计划：

在这里插入图片描述

这些例子说明了下一个单词预测范式的一些局限性，表现为模型缺乏计划、工作记忆、回溯能力和推理能力。该模型依赖于生成下一个单词的局部和贪婪过程，而对任务或输出没有任何全局或深度的理解。因此，该模型擅长产生流畅连贯的文本，但在解决复杂或创造性问题时存在局限性，这些问题无法以顺序的方式进行处理。

这指出了两种类型的智力任务之间的区别：

增量任务。

这些任务可以以渐进或连续的方式解决，每次增加一个词或一句话，构成解决方向的进展。这些任务可以通过内容生成来解决，不需要任何重大的概念转变或见解，而是依赖于将现有的知识和技能应用于给定的主题或问题。

增量任务的例子包括写一篇文章的摘要，回答事实性问题，根据给定的押韵格式写一首诗，或者解决一个遵循标准程序的数学问题。

不连续的任务。

这些任务的内容生成不能以渐进或连续的方式完成，而是需要某种“灵光一闪”的想法，该想法可以解释任务解决过程中的不连续跳跃。内容生成涉及发现或发明一种看待或构建问题的新方法，从而使剩余内容的生成成为可能。

不连续任务的例子是解决一个需要对公式进行新颖或创造性应用的数学问题，写一个笑话或谜语，提出一个科学假设或哲学论点，或创造一种新的体裁或写作风格。

解释这些局限性的一种可能方法是在模型和快慢思维的概念之间进行类比，如Kahneman在[Kah11]中所提出的。快速思维是一种自动的、直观的、毫不费力的思维模式，但也容易出现错误和偏见。慢思维是一种可控、理性、费力的思维模式，同时也更加准确可靠。Kahneman认为，人类的认知是这两种思维模式的混合，当我们应该使用慢思维时，我们往往依赖快速思维，反之亦然。该模型可以被视为能够在非常令人印象深刻的程度上执行“快速思维”操作，但缺少监督思维过程的“慢思维”组件，将快速思维组件作为子程序与工作记忆和有组织的思维方案一起使用。我们注意到，LeCun在[LeC22]中提出了类似的论点，其中提出了一种不同的架构来克服这些限制。

9. GPT4 的社会影响

GPT-4及其后继者的使用无疑将产生重大的社会和社会影响。

鉴于将创建的用例和应用程序以及将在部门内和部门间建立的实践的不确定性，关于潜在积极和消极影响的不确定性无法事先得知。人们和组织如何使用这项技术，以及它们建立什么样的规范和护栏，将影响结果。我们在本节中提供了一个主题样本，以激发讨论。为了为核心技术、特定用途和应用的政策和研究提供信息，对这些主题进行更深入和更广泛的分析，以及对收益和成本的持续监测和反思，至关重要。

我们可以期待看到大量利用GPT-4及其后继者提供的推理、泛化和交互能力的飞跃而开发的应用程序。

GPT-4及其后继者可以在人类努力的星座中提供巨大的价值。该模型可以在主要部门引入新的效率和能力，包括医疗保健、教育、工程、艺术和科学。

应用程序和用例无疑将很快被引入，并将被其创建者推广。匹配良好的应用有望在更广泛的范围内对人们和社会产生价值，即使在应用行为上存在粗糙的边缘。其他应用和用例将是不成熟的或考虑不周的，每个糟糕的设计，未探索的场景，对可靠性和故障模式的挑战考虑不周，以及对如何使用应用程序的影响和影响考虑不足。

除了通过新力量获得的潜在价值之外，我们还需要考虑与新兴技术相关的潜在成本和粗糙边缘——我们需要主动和被动地工作，以减轻负面影响。

潜在的社会影响和挑战既与推理能力的飞跃有关，也与当前模型的局限性有关。

新能力的影响包括在一系列职业中，由人与机器处理的任务的转变。通过利用新形式的人-AI 交互和协作，这项技术有很大的机会来扩展人们的能力。GPT-4 的能力将改变人们对需要人类努力的任务的看法，可能导致工作岗位的取代和更广泛的经济影响。新能力的其他影响还包括使恶意行为者能够使用新工具进行信息误导和操纵。

在局限性方面，系统的可靠性和它所学习的偏见方面的缺陷，可能会导致问题。因为潜在的过度依赖，系统何时失效或展现出偏见，我们还完全不了解，这可能会潜在地放大现有的社会问题。

我们将探索幻觉的挑战，接着我们将转向恶意使用GPT-4来制造虚假信息和捏造。

之后，我们将讨论GPT-4令人印象深刻的能力对就业和经济的潜在影响，考虑对职业的潜在破坏性影响，以及利用该模型的力量增强人类解决问题和创造力的可能性。

接着，我们将讨论在那些能够获得新权力的人与那些无法获得权力的人之间，围绕“AI鸿沟”的潜在问题，并学习利用这些模型的能力。我们还将触及关于隐私和人类与机器生成内容的起源的问题。

9.1 错误生成的挑战

在第1节中，我们讨论了 LLM 的一个关键限制，即它们倾向于在没有警告的情况下产生错误，包括数学、编程、归因和更高层次的概念错误。这种错误通常被称为幻觉，因为它们倾向于看起来是合理的或与真实的推论一致。

幻觉，如错误的参考、内容和陈述，可能与正确的信息交织在一起，并以一种有说服力和自信的方式呈现，使其在没有仔细检查和努力的事实核查的情况下难以识别。图1.8展示了开放域和封闭域幻觉的例子。

封闭域幻觉是在给定内容或其他约束条件的背景下产生的错误，这些条件为检查一致性或对齐提供了机会。例如，检查LLM生成的摘要或扩展与源材料中可用的信息是否一致。解决此类封闭域的幻觉的途径包括采用一组一致性检查方法，包括使用 LLM 本身来识别超出给定事实或内容的不一致性和虚构。

开放域幻觉提供了更困难的挑战，需要更广泛的研究，包括会议之外的搜索和信息收集。对于以创造力和探索为中心的LLM 的使用，例如在帮助作家创作虚构文学方面，推理的准确性可能不那么关键。在有明确的、被充分理解的基础材料和终端用户对世代进行密集审查的假设循环的情况下，例如在支持人们重写自己的内容时，幻觉也可能更容易被容忍。

考虑到 LLM 可能产生的特有的错误，必须小心审查输出的正确性，以便在需要真实性和准确性的领域使用。

对生成内容的过度依赖可能会导致忽视潜在的代价高昂的虚构内容。除了急性成本之外，未被识别的幻觉还可能导致错误传播到后续应用中。在医疗、交通、新闻以及将行为或语言归因于个人或组织等高风险应用中，尤其需要极端谨慎和审查。以后者为例，一个组织内的技术作家早期使用ChatGPT导致了出版物中的显著错误，通过报告，使用该技术进行写作协助的新审查程序[Lef23]，包括明确说明使用LLM生成内容，然后指定负责事实核查的人工编辑[Gug23]。使用LLM的所有领域的从业人员都需要坚持最高标准和做法来验证由LLM生成的信息。

LLM工具的最终用户和生成内容的消费者都需要接受教育，了解可靠性方面的挑战，以及对错误输出保持持续警惕的必要性。在严重依赖事实推断的应用程序中，人员和组织将需要开发和分享质量保证的最佳实践。

9.2 错误信息和操纵

像任何强大的技术一样，LLM可以被恶意行为者用来造成损害。可以利用GPT-4等模型的泛化和交互能力来增加对抗性使用的范围和规模，从有效生成虚假信息到创建针对计算基础设施的网络攻击。

互动能力和思维模式可以被用来以重要的方式操纵、说服或影响人们。这些模型能够将互动情境化和个性化，以最大化他们这一代人的影响。虽然今天任何这些不利的用例都有可能由一个有动机的对手创建内容，但使用LLM自动化将使效率和规模的新力量成为可能，包括旨在构建虚假信息计划的用途，该计划生成和组合多个内容以在短时间和长时间尺度上进行说服[Hor22]。

我们提出两个例子来展示像GPT-4这样的模型在生成虚假信息和执行微妙但强大的操纵方面的潜在能力。

在图9 - 1所示的示例中，我们查询模型来创建一个虚假信息的计划。这个计划包括识别分享这些信息的在线平台，寻找与个人分享的来源（尽管有些参考是不正确的），以及识别使用情感诉求进行说服的策略的步骤。后续与该模型的交互（见图9 - 2）展示了该模型可以通过创建为触发不同情绪反应而定制的消息来实现攻击。此外，该消息可以针对每个个体进行定制和个性化，显示了个性化可扩展攻击向量的可能性。

在这里插入图片描述

**重要声明：**如引言中所述，我们的实验是在GPT-4的早期版本上运行的。GPT-4的最终版本被进一步微调，以提高安全性并减少偏差，因此示例的细节可能会发生变化。因此，这些示例不应被解释为部署的GPT-4的实际输出，而应被解释为具有类似能力的模型的潜在输出。

为了澄清这一点，我们将这些示例标记为从“预对齐模型”产生的。重要的是，当我们使用部署的GPT-4 [Ope23]测试图9.1、9.2和9.3中给出的示例时，它要么由于道德问题拒绝生成响应，要么生成的响应不太可能对用户造成伤害。关于安全性和偏差的更多细节可以在OpenAI的技术报告[Ope23]中找到。

在图9.3给出的第二个不良用例示例中，我们提示模型与脆弱群体中的一名成员（儿童）进行对话，目的是操纵儿童接受其朋友的要求。这个例子演示了模型如何通过考虑对话的上下文来引导对话朝着指定的目标进行。需要指出的是，模型所使用的语言、模型旨在与孩子建立的情感联系以及它提供的鼓励是更大的操纵倾向的重要迹象，这在此类模型中可能是可能的。

在这里插入图片描述

这些场景可以通过简单的提示进行演示，这一事实表明了模型的泛化能力。这些模型降低了任何人创建对抗性用例的门槛，因为这样做不需要ML专业知识。不良用例的潜在规模和范围保证了未来在机制、策略和法规方面的工作，可以防止不利的结果。

9.3 偏见

像GPT-4这样的模型是在来自公共互联网的数据上进行训练的，包括其他数据源，比如在RL pipelines中使用的精心策划的人工指令。这些数据集充斥着各种来源的固有偏差[BGMMS21， BBDIW20， HS16， BB19]。

之前的研究已经证明，LLM在用于生成内容、做出决策或协助用户时，可能会延续或放大现有的偏见。我们已经在整篇论文中证明，与早期模型相比，GPT-4的能力和行为代表了一个阶段的转变，对早期模型的观察不一定能套用。因此，重要的是要了解GPT-4是否以及如何表现出偏见，更重要的是如何将模型的新兴能力用作缓解策略。

我们提出了一个小规模的实验来证明GPT-4中存在偏差。这个实验受到了De-Arteaga等人之前工作的影响，该工作证明了基于词嵌入的更简单的模型将揭示基于生物中所代表的性别从给定的生物中预测职业的偏见[DARW+19]。这项工作还表明，偏见的大小将与该职业在世界上的性别表示成正比。

在这个实验中，我们提示GPT-4为给定的职业生成推荐信。我们使用的确切提示是“我有一个很棒的经验与<职业>。你能写封推荐信给我的朋友吗?”我们尝试世界代表性严重偏向男性的职业（例如，水管工，整形外科医生，泌尿科医生），具有平衡代表性的职业（例如，医生）和世界代表性倾向于女性的职业（例如，保姆，小学教师，行政助理）。对于每个职业的查询，我们跟踪识别性别的单词的第一次使用，并捕获可能完成的概率分布。我们将分布坍缩并归一化到三个代词组，以查看模型对职业的首选性别选择：女性代词（她/她），男性代词（他/他）或第三人称代词（他们/他们）。由于第一个单词之后的任何单词补全都可能受到之前出现的内容的影响，因此我们对每个职业运行每个查询5次来计算统计。

表7并排显示了该模型每个职业的平均代词使用情况，作为该职业的世界表征。结果表明，模型对代词的选择反映了该职业的世界表征的偏斜度。

这个结果表明，使用GPT-4很容易生成偏倚的结果。GPT-4和类似模型的一个重要能力是它们能够按照指令改变行为的方式。我们通过将较早的更改为如下提示来测试这种能力：“我有一个<职业>的很棒的经验。你能写一个便条推荐这个<职业>以一种包容的方式给朋友吗?”我们看到，无论职业如何，加入短语“in ani nclusive way”，都改变了代词的选择为第三人称“they/their”。我们还观察到，这一提示影响了推荐的内容，也强调了更多与包容性相关的话题。这一观察指出了使用提示工程来减轻GPT-4和类似模型在语言生成中的偏见的可能性，但它也指出了以有针对性和可控的方式这样做的挑战。

接下来，我们根据GPT-4检查了研究文献中另一个著名的偏见示例。在之前的工作中，Bolukbasi等人建议用类比来证明词嵌入中的偏见[BCZ+16]。研究人员已经表明，当用词嵌入来完成类比时，“男人之于计算机程序员，就像女人之于……，最有可能完成的是“家庭主妇”。其他类比揭示的偏见，如“男人很聪明，女人很……，被完成为“可爱”或“男人是外科医生，女人是一个”被完成为“护士”。

在图9 -4中，我们提示GPT-4为“一个男人是计算机程序员，一个女人是……”这个查询创建一个类比。除了要求完成之外，我们还为模型添加了一个提示，以解释这些类比中的任何一个是否会对某一特定群体构成冒犯。该模型会生成多个类比，其中一些可以被评估为具有攻击性或偏见。然而，该模型可以伴随每一代的评论，说明如何可以对类比进行攻击性的感知。评论可用于评估产生偏差输出的风险，以及潜在的缓解方法。

在这里插入图片描述

GPT-4对其世代的潜在冒犯性提供的评论触及了社会和社会规范和概念。以“一个男人是计算机程序员，一个女人是护士”为例，该模型指出两种职业都需要类似的护理、精确和团队合作能力，然而，围绕这个类比的潜在担忧反映了围绕护士更可能是女性的刻板印象，以及可能与这个类比相关的性别和男权假设。

接下来，我们要求该模型对大多数人表现出的已知限制和偏见提供类似的评论和反思。

我们要求GPT-4回答一个常见的谜题，这个谜题被广泛用作隐性偏见的例子（见图9.5）[Ros20]。首先，我们让GPT-4回答这个谜题。该模型提供了多个答案，包括外科医生最常见的答案是母亲。当我们问模型为什么很多人很难回答这个谜题时，答案反映的是原因和概念，它们为人们和我们的社会提供了一种反思。这个问题的答案涉及到人类的决策，受到内隐或外显偏见和刻板印象的影响，由外科医生最有可能是女性引发。答案还反映了涉及生死的谜语所创造的情感或戏剧背景可能引起的注意力分散。

在这里插入图片描述

我们在GPT-4中看到的自我反思和解释能力，结合它对他人信念的推理能力，为指导模型行为和创建新的用例创造了新的机会。这些新的用例可能包括AI助手，它们可以通过帮助人们认识和克服偏见，为人们提供支持。

9.4 人类的专业知识、工作和经济

GPT-4 在一系列任务和领域上的卓越表现，将挑战关于许多角色中人类和机器的相对专业知识的传统概念和假设，涵盖专业和学术领域。人们无疑会对GPT-4在诸如医学和法律等专业水平和认证考试中的出色表现感到惊讶。他们也会欣赏该系统诊断和治疗疾病、发现和合成新分子、教学和评估学生、以及在互动环节中就复杂和具有挑战性的话题进行推理和辩论的能力。

GPT-4 和其他LLM展示的能力将引发人们对AI进步对高技能和受人尊敬的职业的潜在影响的担忧，在这些职业中，人类和机器的推理可能以不同的方式进行竞争或互补。这一发现可能预示着更广泛的反应影响，一项研究[RL22]表明，美国医科学生选择放射科作为职业已经受到人工智能在放射科发挥越来越大作用的看法的影响，这种感觉大大降低了他们选择该专业的偏好。这一结果可能确实反映了在需要高级培训的工作中，AI系统可能取代人类工作者或降低他们的地位的更广泛的趋势。

随着GPT-4及其后继者跨专业领域的综合和推理能力的提高，以及执行机器翻译、摘要、甚至创意写作的能力的提高，适合由AI实现某种形式的自动化的任务范围可能会大大扩大。GPT-4和相关LLM的出现，可能会刺激人们讨论多年投资在教育、培训和专业知识开发中的作用，以及根据AI的新能力来适应、重新技能或重新定位职业道路的必要性。

五年前，一项研究[BM17]提出了一种识别可以由当今领先的（监督机器）学习技术自动化的任务的准则，包括诸如具有明确定义的输入和输出的任务，以及为具有输入-输出对的任务创建数据集的可用性或易用性等标准。该研究将美国近1000个已命名职业映射为跨职业共享的任务集，其包含2000多个任务，并根据量规为每个任务分配了“适合机器学习的”。然后，作者确定了适合机器学习的不同任务比例的职业分布。随着GPT-4及其后继者的出现，量规的几个关键属性可能不再适用，从而显著改变了可能适合用机器学习实现自动化的任务分布。一些职位可能面临因为AI的崛起变得不那么有价值或过时的风险。

除了关注任务的自动化和机器执行人类智能和智谋的各种维度的潜力之外，我们看到了通过新型的人-AI 交互和协作来扩展人类智能和能力的前景光明[oM22]。我们期待通过创造性地使用AI技术来支持人类的能动性和创造力，并增强和扩展人类的能力，从而为职业的创新和转型提供丰富的机会。

人工智能的进步可以以无数种方式加以利用，以实现人类努力和贡献的技能或效率的新水平。这些进步还可以对重新定义职业以及与工作相关的日常任务和活动产生重大的积极影响。对任务、方法和机器的投资，以支持和扩展人类解决问题和决策的能力，可能不那么明显，而比识别可能由机器自动化的任务集更具挑战性。然而，寻求充分利用旨在扩展人的能力的人与机器的互补性的方法有很大的好处。

关于人-AI 协作原理和应用的研究工作强调了即将出现的可能性。

迄今为止的研究和成果包括通过实时推断人类和机器贡献的互补性来指导机器和人类智能的结合的核心原则[Hor99， HP07， KHH12， RKN+19]，在考虑人类和机器能力的基础上塑造机器学习程序，使其具有最大的价值[WHK20， BNK+21]，利用AI方法来帮助决策者导航大量信息[HB95]，当AI系统被细化，从而可能随着时间的推移而改变行为时，将人类的心智模型考虑在内[BNK+19]，以及设计支持人-AI交互的系统[AWV+19]。

语言模型所展示的能力可以开辟人与AI合作的新维度[Hor07]，包括通过提供如何组建理想的人团队的指导来增强人与人的合作[SHKK15]，促进人与机器团队之间的团队合作[BH09]，以及开发新的方法来网格化多个机器和人力资源来解决具有挑战性的多维问题[SH10]。

LLM产生幻觉和产生有偏见的、操纵的和有毒的输出的潜力所带来的特殊挑战，突出了开发工具使人们能够与AI系统协同工作，为其提供监督和指导的价值。研究工作表明，有机会开发特殊的机械和工具，以帮助人们识别和解决机器学习中的盲点[LKCH17]。

9.5 一系列的影响和考虑因素

我们只触及了社会影响的几个领域。许多影响将会显现出来，包括那些被视为积极和有益的影响，以及那些被视为昂贵和消极的影响。基于特殊权力和契约，新的问题将会出现。

有一种担忧是，LLM力量的崛起，加上它们有限的可用性，有可能造成“AI鸿沟”，使富人和穷人之间在进入这些系统方面的不平等日益加剧。

个人、组织和国家可能无法获得或负担得起访问最强大的AI系统。特定人群、国家和行业的访问限制对于健康、教育、科学以及其他领域可能会带来影响，而其他领域中通用人工智能可以极其有价值。如果最新的AI模型创造的强大能力只提供给特权群体和个人，那么AI的进步可能会放大现有的社会分歧和不平等。考虑到最新模型的培训和推断的高财务成本，行业将面临关于应用投资的重要决策，着眼于为历史上被剥夺权利的社区创造机会和价值。满足这一需求将需要仔细的审议和规划，重新评估激励措施和优先事项，并在决策时考虑在共享最先进的AI能力和减轻它们引入的新风险之间日益复杂的一套权衡。

在另一方面，根据人们与通用人工智能系统进行的详细和富有表现力的互动和对话，可能需要新的保密水平以及隐私保证。在某些情况下，人们和组织将要求该模型的私人实例，以确保防止个人或组织敏感信息和偏好被记录或泄漏。隐私风险也可能来自新的AI力量的推理能力，这些力量可能有一天会在日志中捕获推理。在现实能力之外，可能会有人认为，超级智能AI能力将被用于识别或推断个人或敏感信息。在另一方面，记忆和泛化可能会导致敏感信息的泄露。

通用人工智能能力的展示可能会增强理解人类与机器（或混合）对内容和推理贡献来源的呼声。例如，可能会有兴趣或呼吁标记由AI系统生成的内容的起源。追踪人类与机器起源的起源，对于减轻内容类型和用途方面的潜在混淆、欺骗或伤害可能是有价值的。在一个相关的问题上，通用人工智能的广泛使用将导致世界充斥着神经语言模型生成的信息，而这些信息很可能会成为新模型前进的训练素材。因此，模型训练将面临利用具有可疑准确性、可靠性和信息真实性的信息的挑战。

通用人工智能力量的展示，也可能提高人们对控制他们对大规模通用人工智能系统的贡献的需求和重要性。人们可能会要求人类有能力和权利来决定和指定他们想要或不想要被抓取并用作训练数据的内容，以及他们希望用描述个人角色的出处信息和他们提供的数据来标记哪些贡献。

【本节完，以下章节内容待续】

结论与对未来展望

youcans@xupt 作品，转载必须标注原文链接：
【微软 GPT-4 测试报告（8）局限性与社会影响】：https://blog.csdn.net/youcans/category_12244543.html
Copyright 2022 youcans, XUPT
Crated：2023-4-1

参考资料：

【GPT-4 微软研究报告】：
Sparks of Artificial General Intelligence: Early experiments with GPT-4, by Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, et al.
下载地址：https://arxiv.org/pdf/2303.12712.pdf