OpenAI开发者大会之后，当何去何从？

简介
过往总结
产品升级
- GPT-4 Turbo
- Agent化
此间的未来
- 定制GPT
- GPT商店
- Assistants API
总结与思考

简介

此次发布会简单总结如下。

1. 发布GPT-4 Turbo：

更长。支持128K上下文输入，标准GPT-4是8K版本，之前升级出了32K版本
更可控。JSON格式输出，增加seed控制模型回复可复现
更新的知识。GPT-4 Trubo的知识更新至2023年4月
开放多模态能力，整合了文生图模型DALL·E 3和声音合成模型（TTS）以及语音识别模型Whisper V3等
开放 Fine-Tuning功能，支持在GPT-4基础上微调进行模型定制
输出速度更快，每分钟输出翻倍

2. GPT Builder & GPT Store

围绕ChatGPT构建应用生态。

Agent化，自动调用各个工具(插件)
支持定制GPT4应用
推出GPT商店，高价值热门应用参与OpenAI收入分成

3. Assistant API

面向开发者推出Assistant API。Assistant API帮助开发者在自己的应用中构建Agent。这是官方推出的基于大模型Agent开发框架，大模型Agent创业，卒！

历史对话管理。持久且无限长的thread
Retrieval。支持外挂知识
代码解释器Code interpretor以及Function Calling等。

过往总结

从2022年11月30日发布ChatGPT，到现在奥特曼给了一组数据展现OpenAI这一年的成果：

200万开发者正在使用OpenAI的API
财富500强公司中有高于92%正在使用OpenAI的产品搭建服务
ChatGPT的周活用户数也达到1亿人。这些都是大家通过口口相传带来的用户。潜台词就是，产品够好，自带营销属性，完全不需要额外营销！

升级GPT4

发布最新版的GPT-4Turbo，同时Agent化。这意味这白嫖用户(使用默认的GPT-3.5)只能眼巴巴、看着升级后的GPT4直流口水。白嫖用户或许可以拿到GPT-4 (All Tools)的测试资格，可以体验Agent功能。

GPT-4 Turbo

新推出的GPT-4 Turbo具有如下6个特点：

更长之前的GPT4只支持16k和32k的上下文长度，而GPT-4 Turbo支持128k的上下文长度，相当于一次能输入300页的书籍。
更可控

(1)提供JSON格式的模式，使得模型以JSON格式进行响应。这对调用API的开发人员更加友好！

(2)可复现。通过传递种子参数，使模型的返回结果保持一致性。

(3) 未来几周内还将追加logprobs参数，查看模型最有可能的输出概率分布。

更好的知识

(1) 支持检索。将外部文档或数据库中的知识导入，可以进行知识问答或者检索。这其实就是RAG，挂载外部知识，做特定知识库的问答。

(2) GTP4的世界知识更新到2023年4月。

开放多模态能力

开放DALL E-3、GPT-4 Turbo with Vision、TTS的API。直接在GPT-4 Turbo中整合了文生图模型DALL·E 3、声音合成模型（TTS）以及语音识别模型Whisper V3等能力，而各个API到调用是自动的，真正做到了Agent。TTS的API现阶段预设6种声音。此外还顺带开源Whisper V3模型。GPT-4 Turbo with Vision这个功能的API可以通过指定gpt-4-vision-preview这个API。该API可以帮助视觉障碍人士完成日常任务，比如识别眼前的产品。至于价格，1080×1080 像素大小的图片传入GPT-4 Turbo花费是$0.00765。

定制化

(1) GPT3.5微调支持16K版

(2) 邀请GPT3.5微调活跃的用户参与GPT-4的微调

(3) 自定义模型。

当需要模型学习全新的领域知识或使用大量专有数据从头训练，此时就需要定制模型。OpenAI的研究员将与企业密切合作，帮助定制模型。特别是使用tool的各种case。此外，这种定制还包括修改模型训练过程的每个步骤，进行额外特定领域的预训练，针对特定领域量身定制的自定义强化学习(RL)训练等等。这种定制GPT4的价格起步为200-300W美元。那些试图搞大模型定制化创业公司前景堪忧。

更高的速率限制

GPT-4 每分钟的Token数上限增加一倍。可以直接在API帐户设置中更改进一步的速率限制和配额。

此外，奥特曼还强调版权盾。版权护盾意味着，如果用户面临有关版权侵权的法律索赔，OpenAI 将介入并为客户辩护并支付所产生的费用。这适用于ChatGPT Enterprise和API用户。此外，奥特曼强调：从来不使用来自API或ChatGPT Enterprise的数据进行训练。

关于GPT-4 Turbo定价。GPT-4 Turbo比GPT4更强大，输入的token数是GPT4的3倍，输出token数是GPT4到2倍。

每1000个输入Token 1 美分，每1000个输出Token 3美分。这使得GPT-4 Turbo的混合速率比GPT-4便宜2.75倍以上。

GPT-3.5 Turbo 16K的成本也下降了，输入token的成本下降3倍，输出token成本下降2倍。这意味着GPT-3.5 Turbo 16k现在的价格比之前的GPT-3.5 4k还便宜。妥妥的加量还降价，微调的GPT-3.5Turbo 16k 版本也比旧的微调4k版本便宜。

Agent化

无需像之前那样手动选择使用哪个tool，比如使用bing进行网页搜索，使用DALL·E 3生成图片。新版的GPT知晓何时使用哪个工具，也知道各个工具如何使用。这个功能其实就是此前的GPT4(all-tools)，演示视频如下：

AI科技爱科学

此间的未来

上面介绍的是OpenAI自带的ChatGPT的功能，那么如果想要定制化呢，创建自己的Agent呢？以下包括定制GPT、GPT商店和Assistants API这三部分。

定制GPT

OpenAI相信，如果为人们提供更好的工具，那么他们就会做出惊人的事情。为此，OpenAI推出GPTs，在这里每个GPT都是定制版的ChatGPT。整个构建自定义GPT的过程也都是通过自然语言对话的形式。这些定制化的GPT可以发布到GPT Store供其他人使用。这些应用的创建者还可以根据自己创建 GPT的使用人数获得一定分成。

每个定制化的GPT都包含了指令Instructions、拓展知识(Expanded knowledge)和Actions这三要素。OpenAI已将插件发展为GPT的自定义操作(即Actions)，所以后续提到的Action就是之前的插件。

示例1：以Code.org创建的Lesson Planner为例：创建的这个GPT汇集了Code.org广泛的课程和专业知识，让教师可以快速轻松地根据自己的需求进行调整。

示例2：Canva构建了一个GPT，让你可以通过用自然语言描述你想要的设计内容。比如你说，为今天下午、今天晚上的开发日招待会制作一张海报。

示例3：以Zapier为例，Zapier构建了一个GPT，可让你跨6000个应用程序执行操作，从而解锁各种可能性，比如访问手机日历，发送短信。具体示例如下视频：

AI科技爱科学

为各种想要创建GPT的人，但是不懂得如何编码的人，提供对话式编程的交互方式。即用自然语言实现编程，进而创建GPT应用。那如何用自然语言创建一个GPT？创建GPT的入口：https://chat.openai.com/gpts/editor。在该页面，利用GPT Builder 进行交互式地创建GPT应用。以下创建一个AI创业导师的GPT应用，以在启动新项目时为创始人和开发人员提供建议。完整示例如下视频：

AI科技爱科学

GPT商店

11月底将推出GPT商店，并对各应用的热门程度进行排序。同时OpenAI将向那些构建最有用和最热门GPT应用的人支付OpenAI收入的一部分。OpenAI试图通过GPT商店构建一个生态系统。这种GPT应用生态的构建，其实与poe构建各种对话机器人很相似。模型应用的生态化，使用户只需要专注于自己的应用场景。这与移动互联网时代何其相似。

Assistants API

OpenAI 推出 Assistants API，从而让开发人员在他们的应用程序中构建各种Assistants。

Assistants API 特点：

(1)Assistants API中包含了持久线程(persistent threads)，这使得开发人员不必弄清楚如何处理长对话历史记录。

(2)内置检索。内置的检索功能可以很好地进行文档的解析，比如演示中呈现的PDF解析。之前每次API调用时，通常需要重新发送整个对话历史记录，这意味着建立一个key-value存储，处理上下文窗口、序列化消息等等。如今借助Assistants API，这种复杂性就完全消失了。但是，OpenAl管理这个API并不意味着它是一个黑匣子，可以在开发人员仪表板中看到这些工具正在执行的步骤。

(3)内置代码解释器Code interpreter，具体是Python interpreter。想象一下，如果你正在构建一个非常复杂的金融应用程序，它需要处理无数的数字并绘制图表。这时候，Code interpreter就可以大显神威。任何涉及代码的任务，都可以借助Code interpreter。

(4)升级函数调用(一次调用多个)。

以下是一个示例。假设需要构建一个旅行应用程序Wanderlust，图中是已经用GPT-4和DALL·E 3生成的目的地列表及风景图。要构建一个该网站的AI聊天助手，开发者只需输入聊天助手的名称、简介，选择需要使用的模型，并选择需要的工具即可自动生成。完整演示视频如下：

AI科技爱科学

此外，还演示了一个为此次开发者大会构建的专用Assistant，包含本次大会的全部数据，并使用语音交互而非文字交互。通过手机语音输入，让该Assistant与现场与会者打了个招呼。使用Whisper做ASR将语音输入转换为文本，GPT-4Turbo作为助手进行回复，回复内容通过TTS接口生成语音。其背后的语音合成(TTS)API内置了6种声音，开发者可以直接调用TTS的API，将创建的Assistant以语音方式回复。

在喜闻乐见的抽奖环节，通过语音的方式让Assistant随机抽取5名“幸运观众”，最后又让Assistant为现场所有与会者每人提供了500美元的API积分。完整演示视频如下：

AI科技爱科学

总结与思考

这是OpenAI迈向人工智能Agent的第一步，随着时间的推移和迭代优化会日渐更智能、更强大。推出了新的GPT-4 Turbo模型，改进函数调用、更新的知识、更低的价格、新可控等等。各种API的更新升级和发布，其实都在意料之中，只是没有想到会这么快。物美价廉的GPT-4 Turbo API很难不令开发者心动。

Assistants API的出现确实又刀了一批创业者，极大地降低语音助手的构建门槛，每个人构建自己的语音助手已经成为现实。TTS模块目前只内置6中声音，但是感觉这部分的定制化也不会遥远。猜测声音克隆模块的加入也近在此尺。

虽然OpenAI官方已经提供了Agent功能，Agent创业者听说又是夙夜难寐，辗转反侧。但是，对于开源大模型，Agent创业者还是可以苟活的。除非OpenAI允许其他开源模型部署到OpenAI的平台，复用这套解决方案。其实，这点倒是更看好作为开源模型集散地的huggingface。

目前似乎就剩下应用层面的开发和自定义Tool。应用层面定然出现百花齐放的盛况，也是机会最多的。每个应用的开发者都应该思考如何GPT+，思考如何让GPT让应用变更更智能，比如演示中日历+GPT，催动手机短信发送。未来会有越来越多的有趣的应用搭载GPT，创作更多高层级智能。如果硬件设备搭载GPT，机械智能也是近在眼前。想必OpenAI会与更多硬件公司进行合作。

至于工具层面，目前OpenAI提供的工具：browser、代码解释器、DALL E-3等都是预设的，用户无法自定义或发布新的工具来直接与Assistant交互。工具的添加和更新并不对外公开，也没有一个平台允许用户自行创建和发布工具。为此，开发更多Tools可能是后续的一个发展方向。

那些无法访问OpenAI的地区和国家的创业者在遵纪守法的基础上除了搞培训卖课、卖GPT账户，还有更好的选择吗？人工智能将成为一场技术和社会革命，终将改变世界！特别是卖课的方向！敬，此间的我们和创业者！