2023年9月中旬大模型新动向集锦

2023.9.20
版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。

1、微软发布13亿参数小模型phi-1.5

微软研究院于2023年9月11日发布了名为 phi-1.5 的全新预训练语言模型，共有 13 亿个参数，适用于 QA 问答、聊天格式和代码等等场景。phi-1.5 采用来自 StackOverflow 平台关于 Python 板块的 Q&A 内容、code_contests 中的竞争代码、合成 Python 教科书，gpt-3.5-turbo-0301 生成等各种数据集，此外还包括各种 NLP 合成文本组成的新数据源。

微软表示，在测试常识、语言理解和逻辑推理的基准下，phi-1.5 的表现超出了大部分参数低于 100 万的模型。phi-1.5 在 AGIEval 得分上超过了拥有 70 亿参数、来自 Meta 的 llama-2；在带 LM-Eval Harness 的 GPT4AL 跑分套件中，可以媲美 70 亿参数的 llama-2。

2、人工智能应用 Character.ai 月活跃用户数正在赶超 ChatGPT

Character.ai 是一家人工智能应用程序开发商，允许用户设计自己的 AI 角色。根据市场情报公司 Similarweb 最近的分析，得到 a16z 支持的 Character.ai 的 iOS 和 Android 应用程序在美国现在每月有 420 万活跃用户，而 ChatGPT 的移动应用程序在美国的月活跃用户数接近 600 万。话虽如此，在网页上 ChatGPT 仍然远远领先于 Character.ai——很可能是因为 Character.ai 的许多用户更喜欢在个人移动设备上构建和与其 AI 聊天机器人交互，而不是通过网站。

3、Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频

Stability AI 公司近日推出 Stable Audio，可以基于用户输入的文本内容，自动生成音乐或者音频。免费版 Stable Audio 可以生成最长 20 秒的音乐片段，而用户在购买 Pro 订阅之后，可以生成最长 90 秒的音频内容。

4、英伟达发布开源软件TensorRT-LLM测试版

英伟达发布开源软件TensorRT-LLM测试版，用户需注册英伟达开发者计划才能申请下载。该软件正式版预计于未来几周内发布，并将很快集成到英伟达NeMo框架中，这个框架是英伟达的企业级AI软件平台AI Enterprise的一部分。TensorRT-LLM是一个开源库，可加速和优化英伟达Tensor Core GPU上最新LLM的推理性能。

申请地址：https://developer.nvidia.com/tensorrt-llm-early-access
Github主页：https://github.com/NVIDIA/TensorRT

5、百度智能云千帆大模型平台适配Falcon-180B

百度智能云的千帆大模型平台近日适配了6日发布的Falcon-180B大模型，并提供模型微调、部署、应用开发的全流程工具链和开发环境，方便企业和开发者率先体验。Falcon-180B-Chat由TII研发的仅使用解码器的180B模型，在Ultrachat, Platypus和Airoboros的混合数据集上进行微调，具备优异的推理效果。该模型目前面向测试企业用户开放，如需使用请填写申请表单.

地址：https://cloud.baidu.com/doc/WENXINWORKSHOP/s/llm8zxyph

6、阿里AI大模型应用“淘宝问问”开始内测

阿里AI大模型应用“淘宝问问”正在进行内测。据称，淘宝问问可以理解消费者跨类别、跨领域的需求，实现信息搜索、创意内容生成等方面的需求和场景。目前，该应用可通过淘宝App搜索“淘宝问问”提交内测申请，或通过邀请码参与测试。官方暂未透露应用全量上线的时间。

类似的，国外的电商巨头eBay近日面向卖家推出一款AI工具，可以根据单张照片生成商品列表，目前仅提供iOS版本，安卓版本将在未来几周内推出。该工具可以根据照片自动编写标题和描述，以及包括产品发布日期在内的信息，并提供类别、子类别、标价和运费建议等。简而言之，就是以图搜产品的功能。

7、用好提示词，性能最高提升50%

谷歌DeepMind团队发表论文，称大模型自己设计的提示词在Big-Bench Hard数据集上的表现最高提升50%。团队称，如果在提示词中加上“深呼吸”（Take a deep breath），AI大模型的数学成绩可以再涨8.4分，而这个提示词是AI自己找出来的。用这个新提示词结合此前发现的“一步一步地想”（Let’s think step by step），大模型在GSM8K数据集上的成绩可以从71.8分提高到80.2分。

论文地址：https://arxiv.org/abs/2309.03409

8、蚂蚁集团开源CodeFuse代码大模型

近日，蚂蚁集团首次开源了代码大模型CodeFuse。CodeFuse基于蚂蚁基础大模型研发，在近期代码补全的HumanEval评测中，CodeFuse得分74.4%，超过GPT-4的67%和WizardCoder-34B的73.2%。本次开源内容包括代码框架、模型等，现已上架HuggingFace等平台。代码框架部分包括自研的多任务微调（Multi-task fine-tuning，MFT）框架，支持代码生成、代码翻译、测试用例生成、bug修复等数10个任务一起微调。模型部分包括CodeFuse13B-4K、CodeFuse-CodeLlaMa34B-MFT两个大模型。

开源地址：https://huggingface.co/codefuse-ai

9、多模态大模型Gobi对决Gemini

据外媒The Information爆料，OpenAI的一款名为Gobi的全新多模态大模型，已经在紧锣密鼓地筹备了。OpenAI计划，在Gemini发布之前就推出多模态LLM，彻底击败谷歌。跟GPT-4不同，Gobi从一开始就是按多模态模型构建的。

另一边，谷歌也在开始邀请部分外部开发者加急测试，即将推出的下一代多模态大模型Gemini。近日The Information独家报道称，Gemini可能很快准备好进行测试发布，并会集成到自家的Google Cloud Vertex AI等服务中。据一位参与测试过的人士透漏，Gemini至少在一个方面比GPT-4有优势：除了网络上的公开信息外，该模型还利用了大量谷歌消费产品（搜索、Youtube）的专有数据。Gemini在理解用户对特定查询的意图时应该特别准确，而且它产生的错误答案（即幻觉），似乎更少。谷歌的下一代大模型Gemini，已经开始在新的TPUv5 Pod上进行训练，算力高达~1e26 FLOPS，比训练GPT-4的算力还要大5倍。