OpenAI 开发者大会 Sam Altman 45分演讲带来哪些干货和狠货

在这里插入图片描述

文章目录

北京时间 11 月 7 日凌晨，美国人工智能公司 OpenAI 的开发者大会正式开启，创始人 Sam Altman 在台上和同事，只用 45 分钟时间，就「轰」出了团队最新的成果 GPT-4 Turbo，后者不仅更快、有更长的上下文、而且更好的控制。

GPT 的六大升级

发布会一开始，Sam Altman 就宣布了 GPT-4 的一次大升级，推出了 GPT-4 Turbo，同步在 ChatGPT 和 API 版本推出。

Sam Altman 表示团队一直在征求开发者的建议，对开发者关注的问题做了六大升级，分别是更长的上下文长度、更强的控制、模型的知识升级、多模态、模型微调定制和更高的速率限制。其中前四条主要关于新模型的性能的提升，而后两点则主要针对企业开发者的痛点。在提升性能的同时，OpenAI 还宣布了 API 价格的下调，可谓「加量不加价」了。

第一，就是上下文长度。OpenAI 原本提供的最长的上下文长度为 32k，而此次，GPT-4 Turbo 直接将上下文长度提升至 128k，一举超过了竞争对手 Anthropic 的 100k 上下文长度。128k 的上下文大概是什么概念？大概约等于 300 页标准大小的书所涵盖的文字量。除了能够容纳更长上下文外，Sam 还表示，新模型还能够在更长的上下文中，保持更连贯和准确。
第二，是为开发者提供了几项更强的控制手段，以更好地进行 API 和函数调用。首先，新模型提供了一个 JSON Mode，可以保证模型以特定 JSON 方式提供回答，调用 API 时也更加方便。另外，新模型还允许同时调用多个函数，同时引入了 seed parameter，在需要的时候，可以确保模型能够返回固定输出。接下来几周，模型还将增加新功能，让开发者能看到 log probs。
第三，则是模型内部和外部知识库的升级。ChatGPT 横空出世大概一年后，GPT 的知识库终于更新到了 2023 年 4 月。Sam Altman 承诺未来还将继续更新其知识库，不使其落伍。「对于 GPT 的知识停留在 2021 年，我们和你们一样，甚至比你们更恼火。」Sam Altman 表示。GPT 内部知识库终于升级到了 2023 年 4 月｜OpenAI除了内部知识库的升级，GPT-4 Turbo 也升级了外部知识库的更新方式，现在可以上传外部数据库或文件，来为 GPT-4 Turbo 提供外部知识库的支持。
第四，或许是最不让人意外的，多模态。新模型支持了 OpenAI 的视觉模型 DALL·E 3，还支持了新的文本到语音模型——开发者可以从六种预设声音中选择所需的声音。多模态成为 GPT 的内置功能｜OpenAIGPT-4 Turbo 现在可以以图生图了。同时，在图像问题上，目前 OpenAI 推出了防止滥用的安全系统。OpenAI 还表示，它将为所有客户提供牵涉到的版权问题的法律费用。在语音系统中，OpenAI 表示，目前的语音模型远超市场上的同类，并宣布了开源语音识别模型 Whisper V3。
第五，模型微调与定制。8 月，OpenAI 曾经发布过 GPT-3.5 Turbo 的微调服务。当时，有早期测试表明，经过微调的 GPT-3.5 Turbo 版本在某些任务中甚至可以超越 GPT-4，不过定价相对较高。而此次，Sam 宣布 GPT-3.5 Turbo 16k 的版本目前也可以进行微调的定制了，且价格将比前一代更低。GPT-4 的微调定制也在申请中了。同时，OpenAI 也开始接受单个企业的模型定制了。「包括修改模型训练过程的每一步，进行额外的特定领域的预训练，针对特定领域的后训练等等。」Sam 表示。同时他表示，OpenAI 没有办法做很多这样的模型定制，而且价格不会便宜。
第六，也是最后一点，是更高的速率限制。GPT-4 用户，发布会后马上可以享受到每分钟的速率限制翻倍的体验。同时，如果不够满意，还可以进一步通过 API 账户，申请进一步提升速率限制。六大升级以外，是 API 体系的全线降价。此次新发布的 GPT-4 Turbo，输入方面比 GPT-4 降价 3 倍，而输出方面降价 2 倍，OpenAI 表示，总体使用上降价大概 2.75 倍。新模型的价格是每千输入 token 1 美分，而每千输出 token 3 美分。降价的 API 迎来了现场开发者的欢呼。

Sam 还表示，在优先解决价格之后，下一个重点解决的问题将是速度问题，很快，开发者们就会发现 GPT-4 Turbo 将变快很多。

所有功能更新总结

OpenAI Dev Day 提供了多项更新，总结如下：

GPT 4-Turbo

现在可以通过API使用GPT 4-Turbo。
提供了更长的128k令牌上下文，之前为32k。
相比GPT-4，成本降低了50%以上。
知识更新至2023年4月，之前为2021年9月。
性能优于GPT-4。
API现在支持同时提供图片和文本输入。
新的JSON模式可以强制GPT以纯JSON格式响应。
更宽松的频率限制。

自定义GPTs

用户可以构建针对特定任务的“自定义GPT”。
可以无需编码、使用自然语言创建CustomGPTs，并上传文件作为上下文。
企业可以制作针对公司和组织的专有Custom-GPTs。
OpenAI提供了两个自定义GPT示例：Canva和ZapierAI。

自定义GPT商店

用户可以将他们的CustomGPTs上传到商店供他人使用。
OpenAI将提供收入分享计划，流行模型的作者将获得收益。

助手API

助手API可以让你构建具有访问工具的自主代理。
OpenAI目前提供了三个工具：代码解释器（编程）、检索（自定义知识）和函数调用。
可以通过自定义指令定义其角色，就像使用普通API一样。

高质量语音合成

OpenAI发布了tts-1和tts-1-hd模型。
tts-1模型优化了速度，而tts-1-hd模型优化了质量。
可以从六种声音类型中选择，通过API创建逼真的人声。

版权保护

当使用OpenAI的产品时，版权保护功能可以保护您和您的公司不受版权索赔的影响。

Whisper V3

Whisper是OpenAI的语音转文字模型，能够转录声音并输出文本。
Whisper是开源的，V3也以开源形式发布。
目前，Whisper v3通过API（付费）还未上线。

企业定制模型

对于特定公司，OpenAI研究团队将创建具有特定领域知识的企业定制模型。

总结和展望

这些更新表明OpenAI在推进其产品线向更加灵活、可定制和用户友好的方向发展。GPT 4-Turbo和自定义GPTs的引入，将使开发者和企业能够更容易地集成和利用大规模语言模型。特别是，自定义GPT的出现可能会改变企业如何利用AI，使其更贴近企业自身的特定需求。这意味着，AI将越来越多地嵌入到日常工作流程中，为特定的任务和流程提供支持。

随着助手API的引入，开发者现在可以构建更智能、更能自主运行的代理，这可能会减少对如Langchain这类抽象层的需求，因为检索功能已内建于API中。最后，通过商业化的自定义GPT和版权保护，OpenAI正在为用户提供一种更安全、合规且具有商业潜力的使用AI的方式。