OpenAI开发者大会之后,当何去何从?

  • 简介

  • 过往总结

  • ​产品升级

    • GPT-4 Turbo

    • Agent化

  • 此间的未来

    • 定制GPT

    • GPT商店

    • Assistants API

  • 总结与思考

简介

此次发布会简单总结如下。

1. 发布GPT-4 Turbo

  • 更长。支持128K上下文输入,标准GPT-4是8K版本,之前升级出了32K版本

  • 更可控。JSON格式输出,增加seed控制模型回复可复现

  • 更新的知识。GPT-4 Trubo的知识更新至2023年4月

  • 开放多模态能力,整合了文生图模型DALL·E 3和声音合成模型(TTS)以及语音识别模型Whisper V3等

  • 开放 Fine-Tuning功能,支持在GPT-4基础上微调进行模型定制

  • 输出速度更快,每分钟输出翻倍

2. GPT Builder & GPT Store

围绕ChatGPT构建应用生态。

  • Agent化,自动调用各个工具(插件)

  • 支持定制GPT4应用

  • 推出GPT商店,高价值热门应用参与OpenAI收入分成

3. Assistant API

面向开发者推出Assistant API。Assistant API帮助开发者在自己的应用中构建Agent。这是官方推出的基于大模型Agent开发框架,大模型Agent创业,卒!

  • 历史对话管理。持久且无限长的thread

  • Retrieval。支持外挂知识

  • 代码解释器Code interpretor以及Function Calling等。

过往总结

从2022年11月30日发布ChatGPT,到现在奥特曼给了一组数据展现OpenAI这一年的成果:

  • 200万开发者正在使用OpenAI的API

  • 财富500强公司中有高于92%正在使用OpenAI的产品搭建服务

  • ChatGPT的周活用户数也达到1亿人。这些都是大家通过口口相传带来的用户。潜台词就是,产品够好,自带营销属性,完全不需要额外营销!

升级GPT4

发布最新版的GPT-4Turbo,同时Agent化。这意味这白嫖用户(使用默认的GPT-3.5)只能眼巴巴、看着升级后的GPT4直流口水。白嫖用户或许可以拿到GPT-4 (All Tools)的测试资格,可以体验Agent功能。

GPT-4 Turbo

新推出的GPT-4 Turbo具有如下6个特点:

  1. 更长之前的GPT4只支持16k和32k的上下文长度,而GPT-4 Turbo支持128k的上下文长度,相当于一次能输入300页的书籍。

  2. 更可控

(1)提供JSON格式的模式,使得模型以JSON格式进行响应。这对调用API的开发人员更加友好!

(2)可复现。通过传递种子参数,使模型的返回结果保持一致性。

(3) 未来几周内还将追加logprobs参数,查看模型最有可能的输出概率分布。

  1. 更好的知识

(1) 支持检索。将外部文档或数据库中的知识导入,可以进行知识问答或者检索。这其实就是RAG,挂载外部知识,做特定知识库的问答。

(2) GTP4的世界知识更新到2023年4月。

  1. 开放多模态能力

开放DALL E-3、GPT-4 Turbo with Vision、TTS的API。直接在GPT-4 Turbo中整合了文生图模型DALL·E 3、声音合成模型(TTS)以及语音识别模型Whisper V3等能力,而各个API到调用是自动的,真正做到了Agent。TTS的API现阶段预设6种声音。此外还顺带开源Whisper V3模型。GPT-4 Turbo with Vision这个功能的API可以通过指定gpt-4-vision-preview这个API。该API可以帮助视觉障碍人士完成日常任务,比如识别眼前的产品。至于价格,1080×1080 像素大小的图片传入GPT-4 Turbo花费是$0.00765。

  1. 定制化

(1) GPT3.5微调支持16K版

(2) 邀请GPT3.5微调活跃的用户参与GPT-4的微调

(3) 自定义模型

当需要模型学习全新的领域知识或使用大量专有数据从头训练,此时就需要定制模型。OpenAI的研究员将与企业密切合作,帮助定制模型。特别是使用tool的各种case。此外,这种定制还包括修改模型训练过程的每个步骤,进行额外特定领域的预训练,针对特定领域量身定制的自定义强化学习(RL)训练等等。这种定制GPT4的价格起步为200-300W美元。那些试图搞大模型定制化创业公司前景堪忧。

  1. 更高的速率限制

GPT-4 每分钟的Token数上限增加一倍。可以直接在API帐户设置中更改进一步的速率限制和配额。

此外,奥特曼还强调版权盾。版权护盾意味着,如果用户面临有关版权侵权的法律索赔,OpenAI 将介入并为客户辩护并支付所产生的费用。这适用于ChatGPT Enterprise和API用户。此外,奥特曼强调:从来不使用来自API或ChatGPT Enterprise的数据进行训练。

关于GPT-4 Turbo定价。GPT-4 Turbo比GPT4更强大,输入的token数是GPT4的3倍,输出token数是GPT4到2倍。

每1000个输入Token 1 美分,每1000个输出Token 3美分。这使得GPT-4 Turbo的混合速率比GPT-4便宜2.75倍以上。

GPT-3.5 Turbo 16K的成本也下降了,输入token的成本下降3倍,输出token成本下降2倍。这意味着GPT-3.5 Turbo 16k现在的价格比之前的GPT-3.5 4k还便宜。妥妥的加量还降价,微调的GPT-3.5Turbo 16k 版本也比旧的微调4k版本便宜。

Agent化

无需像之前那样手动选择使用哪个tool,比如使用bing进行网页搜索,使用DALL·E 3生成图片。新版的GPT知晓何时使用哪个工具,也知道各个工具如何使用。这个功能其实就是此前的GPT4(all-tools),演示视频如下:

AI科技爱科学

此间的未来

上面介绍的是OpenAI自带的ChatGPT的功能,那么如果想要定制化呢,创建自己的Agent呢?以下包括定制GPT、GPT商店和Assistants API这三部分。

定制GPT

OpenAI相信,如果为人们提供更好的工具,那么他们就会做出 惊人的事情。为此,OpenAI推出GPTs,在这里每个GPT都是定制版的ChatGPT。整个构建自定义GPT的过程也都是通过自然语言对话的形式。这些定制化的GPT可以发布到GPT Store供其他人使用。这些应用的创建者还可以根据自己创建 GPT的使用人数获得一定分成。

每个定制化的GPT都包含了指令Instructions、拓展知识(Expanded knowledge)和Actions这三要素。OpenAI已将插件发展为GPT的自定义操作(即Actions),所以后续提到的Action就是之前的插件。

示例1:以Code.org创建的Lesson Planner为例:创建的这个GPT汇集了Code.org广泛的课程和专业知识,让教师可以快速轻松地根据自己的需求进行调整。

示例2:Canva构建了一个GPT,让你可以通过用自然语言描述你想要的设计内容。比如你说,为今天下午、今天晚上的开发日招待会制作一张海报。

示例3:以Zapier为例,Zapier构建了一个GPT,可让你跨6000个应用程序执行操作,从而解锁各种可能性,比如访问手机日历,发送短信。具体示例如下视频:

AI科技爱科学

为各种想要创建GPT的人,但是不懂得如何编码的人,提供对话式编程的交互方式。即用自然语言实现编程,进而创建GPT应用。那如何用自然语言创建一个GPT?创建GPT的入口:https://chat.openai.com/gpts/editor。在该页面,利用GPT Builder 进行交互式地创建GPT应用。以下创建一个AI创业导师的GPT应用,以在启动新项目时为创始人和开发人员提供建议。完整示例如下视频:

AI科技爱科学

GPT商店

11月底将推出GPT商店,并对各应用的热门程度进行排序。同时OpenAI将向那些构建最有用和最热门GPT应用的人支付OpenAI收入的一部分。OpenAI试图通过GPT商店构建一个生态系统。这种GPT应用生态的构建,其实与poe构建各种对话机器人很相似。模型应用的生态化,使用户只需要专注于自己的应用场景。这与移动互联网时代何其相似。

Assistants API

OpenAI 推出 Assistants API,从而让开发人员在他们的应用程序中构建各种Assistants。

Assistants API 特点:

(1)Assistants API中包含了持久线程(persistent threads),这使得开发人员不必弄清楚如何处理长对话 历史记录。

(2)内置检索。内置的检索功能可以很好地进行文档的解析,比如演示中呈现的PDF解析。之前每次API调用时,通常需要重新发送整个对话历史记录,这意味着建立一个key-value存储,处理上下文窗口、序列化消息等等。如今借助Assistants API,这种复杂性就完全消失了。但是,OpenAl管理这个API并不意味着它是一个黑匣子,可以在开发人员仪表板中看到这些工具正在执行的步骤。

(3)内置代码解释器Code interpreter,具体是Python interpreter。想象一下,如果你正在构建一个非常复杂的金融应用程序,它需要 处理无数的数字并绘制图表。这时候,Code interpreter就可以大显神威。任何涉及代码的任务,都可以借助Code interpreter。

(4)升级函数调用(一次调用多个)。

以下是一个示例。假设需要构建一个旅行应用程序Wanderlust,图中是已经用GPT-4和DALL·E 3生成的目的地列表及风景图。要构建一个该网站的AI聊天助手,开发者只需输入聊天助手的名称、简介,选择需要使用的模型,并选择需要的工具即可自动生成。完整演示视频如下:

AI科技爱科学

此外,还演示了一个为此次开发者大会构建的专用Assistant,包含本次大会的全部数据,并使用语音交互而非文字交互。通过手机语音输入,让该Assistant与现场与会者打了个招呼。使用Whisper做ASR将语音输入转换为文本,GPT-4Turbo作为助手进行回复,回复内容通过TTS接口生成语音。其背后的语音合成(TTS)API内置了6种声音,开发者可以直接调用TTS的API,将创建的Assistant以语音方式回复。

在喜闻乐见的抽奖环节,通过语音的方式让Assistant随机抽取5名“幸运观众”,最后又让Assistant为现场所有与会者每人提供了500美元的API积分。完整演示视频如下:

AI科技爱科学

总结与思考

这是OpenAI迈向人工智能Agent的第一步,随着时间的推移和迭代优化会日渐更智能、更强大。推出了新的GPT-4 Turbo模型,改进函数调用、更新的知识、更低的价格、新可控等等。各种API的更新升级和发布,其实都在意料之中,只是没有想到会这么快。物美价廉的GPT-4 Turbo API很难不令开发者心动。

Assistants API的出现确实又刀了一批创业者,极大地降低语音助手的构建门槛,每个人构建自己的语音助手已经成为现实。TTS模块目前只内置6中声音,但是感觉这部分的定制化也不会遥远。猜测声音克隆模块的加入也近在此尺。

虽然OpenAI官方已经提供了Agent功能,Agent创业者听说又是夙夜难寐,辗转反侧。但是,对于开源大模型,Agent创业者还是可以苟活的。除非OpenAI允许其他开源模型部署到OpenAI的平台,复用这套解决方案。其实,这点倒是更看好作为开源模型集散地的huggingface。

目前似乎就剩下应用层面的开发和自定义Tool。应用层面定然出现百花齐放的盛况,也是机会最多的。每个应用的开发者都应该思考如何GPT+,思考如何让GPT让应用变更更智能,比如演示中日历+GPT,催动手机短信发送。未来会有越来越多的有趣的应用搭载GPT,创作更多高层级智能。如果硬件设备搭载GPT,机械智能也是近在眼前。想必OpenAI会与更多硬件公司进行合作。

至于工具层面,目前OpenAI提供的工具:browser、代码解释器、DALL E-3等都是预设的,用户无法自定义或发布新的工具来直接与Assistant交互。工具的添加和更新并不对外公开,也没有一个平台允许用户自行创建和发布工具。为此,开发更多Tools可能是后续的一个发展方向。

那些无法访问OpenAI的地区和国家的创业者在遵纪守法的基础上除了搞培训卖课、卖GPT账户,还有更好的选择吗?人工智能将成为一场技术和社会革命,终将改变世界!特别是卖课的方向!敬,此间的我们和创业者!

猜你喜欢

转载自blog.csdn.net/ljp1919/article/details/134301068