OpenAI推出了ChatGPT的新功能:声音和图像功能,ChatGPT现在可以看到、听到和说话了,通过进行语音对话或向ChatGPT展示您所看到的内容。
ChatGPT提供了一种新的、更直观的界面。
当您在家时,拍摄冰箱和食品储藏室的照片,
|
确定晚餐的内容(并可就步骤式食谱提问)。
|
晚餐后,通过拍照、圈出问题并让ChatGPT分享提示,
|
帮助您的孩子解决数学问题。
技术原理:
新的语音功能由一种新的文本转语音模型驱动,这种模型能够从纯文本和几秒钟的示例语音中生成类似人类的音频。我们与专业的配音演员合作,为每个声音创建了独特的声音。
系统还使用了Whisper,一个开源语音识别系统,将用户的口述文字转录为文本。
图像理解功能由多模态GPT-3.5和GPT-4提供支持。这些模型运用他们的语言推理能力来处理各种图像,如照片、屏幕截图以及同时包含文本和图像的文档。
最后,OpenAI也强调了其目标是构建安全和有益的AGI。逐步提供更为强大的工具,这样就可以随着时间的推移进行改进和完善风险措施,同时也为未来更强大的系统做好准备
扫码申请加入社群
ChatGPT can now see, hear, and speak
openai.com/blog/chatgpt-can-now-see-hear-and-speak
#MixCopilot