2023年11月下旬大模型新动向集锦

2023.12.1
版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。

1、微软将向中国大陆开放Windows Copilot服务

据微软发布的消息，微软将在 2023 年 12 月 1 日面向中国大陆的企业和教育机构推出 Web AI 聊天功能 Copilot，即此前的 Bing Chat Enterprise。企业和教育机构可以使用 Windows Copilot、Bing Chat Enterprise 以及在 Microsoft Edge 中使用 Copilot，AI 模型是支持联网获取数据的。

根据说明，Copilot 是免费提供的，前提是只要企业和教育机构订阅了 Microsoft 365 即可。支持的许可证包括：

Microsoft 365 E3
Microsoft 365 E5
Microsoft 365 Business Standard
Microsoft 365 Business Premium
Microsoft 365 A3
Microsoft 365 A5

后续其他许可证例如 Microsoft 365 F3 以及更多 Microsoft Entra ID 用户也将支持使用 Copilot，Entra ID 即此前的 Microsoft Azure Active Directory。

由于这个 Copilot 是基于 Bing Chat Enterprise 的，所以用户与 AI 交谈的内容是隔离的，微软称用户和业务数据受到保护，不会泄露到组织外部。微软也没有访问权限，也不会利用这些数据训练模型。

2、OpenAI 向所有用户免费开放 ChatGPT Voice

11 月 22 日，OpenAI 向所有用户免费开放 ChatGPT Voice。之前，声音聊天功能仅对 ChatGPT Plus 和企业用户开放。现在，用户可以通过点击耳机图标，在移动应用中使用他们的声音与 ChatGPT 交谈，并获得语音回复，即使是非付费用户，也可以享受 ChatGPT 的语音功能。

3、微软在 Windows Terminal 应用增加 AI 聊天机器人

微软在最近的 Build 2023 开发者大会上，宣布为 Windows Terminal 应用添加 AI 聊天机器人功能，可以“向用户推荐命令、解释错误，并帮助用户采取后续操作”。微软宣称这项功能是“开源的”，并希望能够让开源社区帮助定义这款应用中的 AI 能力，同时邀请开发人员尝试体验并参与构建过程。

据悉，Terminal Chat 功能目前仅在 Windows Terminal Canary 中提供，不会包含在 Windows Terminal 预览版或 Windows Terminal 稳定版的构建中。不过 Windows Terminal Canary 并没有内置 AI 模型，用户必须手动在应用设置中添加 AI 服务节点和密钥。目前 Terminal Chat 仅支持微软自家的 Azure OpenAI 服务，因此用户若需要使用相关服务，依然需要通过微软服务，创建和部署 Azure OpenAI 资源。

4、谷歌 Deepmind 推出 Lyria AI 音频模型

Deepmind 日前推出了一款名为 Lyria 的音频模型，可用于生成带有乐器和人声的音乐。此外 Deepmind 还通过与 YouTube 合作，整合 Lyria 模型开发了音乐创作工具 Dream Track，声称可令视频创作者“更有效率地将想法变为作品”。

研究人员介绍了当前通过 AI 模型生成音乐的挑战，这是因为音乐本身包含极高的信息密度，其中每一秒钟都可能拥有多个节拍、音符及和声。而这也使得“生成音乐”相较于“生成语言（文字转语音）”更为复杂，而对于 AI 模型来说，维持长音乐序列中的连续性也更为困难，这是因为模型需要在不同的乐句、诗节和长段落中，保持音乐的流畅性和一致性。

5、Anthropic 推出聊天机器人 Claude 2.1

OpenAI 竞争对手 Anthropic 日前推出了 Claude 2.1 聊天机器人及对应同名 AI 模型，Claude 2.1 支持输入多达 20 万个 Token，并改善了准确度，同时新增系统预设提示词（System Prompt）功能。

此前 Claude 2.0 单次回话只支持 10 万个 Token，而 Claude 2.1 支持输入多达 20 万个 Token，相当于 15 万个文字或是 500 页的文件，已凌驾于 OpenAI GPT-4 Turbo 的 12.8 万个 Token。Anthropic 表示，自从 Claude 聊天服务在今年上线后，已经有数百万名用户利用它来翻译学术报告、起草商业计划或分析复杂的合约，许多用户在处理庞大冗长的文件时，想要有更长的 Token，因此 Anthropic 决定相关输入规模提升一倍。

而在准确度上，Claude 2.1 号称准确率是 Claude 2.0 的两倍，此外该模型也改善了对于文本内容的理解能力，特别是对法律文件、财报与技术规格等更高准确度的文档进行了优化，号称“出现错误答案的比例减少了 30%”。Claude 2.1 还可以通过整合特定领域的数据库，以弥补通用模型可能存在的不足，Anthropic 声称，如果用户需要编程，可以事先要求 Claude 切换至“编程模式”，将自然语言转换为结构性的输出，不过这一功能目前仍处于早期开发阶段。

6、Stability AI 推出 Stable Video Diffusion，可以将图片转换为视频

Stability AI 推出了 Stable Video Diffusion，这是 Stability AI 的第一个基于图像模型 Stable Diffusion 的生成式视频基础模型。且 Stability AI 已经在 GitHub 上开源了 Stable Video Diffusion 的代码，在 Hugging Face 上也可以找到模型本地运行所需要的 weights。

github: https://github.com/Stability-AI/generative-models

7、微软研究院发布 Orca 2 LLM

微软研究院近日发布了相比主流语言模型更小的 Orca 2 LLM，Orca 2 共有 70 亿和 130 亿两种尺寸，部分融合了 Llama 2 LLM 参数，通过融合定制的高质量合成数据，提供更准确、更优秀的合成数据。微软表示 Orca 2 使用扩展的、高度定制的合成数据集进行训练。Orca 2 支持分步处理、回忆然后生成、回忆-原因-生成、提取-生成和直接回答等各种推理技术，同时还能为不同的任务选择不同的解决方案策略。Orca 2 模型相比较 Llama 2 和 WizardLM 等大型语言模型，在痛苦理解、常识推理、多步推理、数学问题解决、阅读理解等方面更为优秀。

微软表示，Orca 2 的性能明显优于类似尺寸的模型。它还达到了与至少大 10 倍的模型相似或更好的性能水平，展示了为较小模型配备更好推理能力的潜力。