2023年12月上旬大模型新动向集锦

2023.12.12
版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。

1、Pika 1.0 发布

2023 年 11 月 30 日，Pika 结束测试，正式对外发布了第一款产品 Pika 1.0。Pika 1.0 的视频生成质量较高，支持 3D 劢画、劢漫戒申影等多种视频风格，用户还可以通过 Pika 对视频迚行编辑，比如画布延展、局部修改、视频时长拓展等。目前，Pika 团队已经上线最新官网，需要排队甲请试用。Pika 已经获得 5500 万美元融资（估值近 2 亿美元）。

Pika 1.0 视频生成具备多种丰富，目前用户可在 Discord 使用 Pika 服务器。视频效果优质，拥有电影质感，动画级特效。从像素风到到黑白幻灯片效果，演示出的 5 种风格转化，几乎涵盖了现有申影和劢画大部分风格。支持对于视频实时编辑和修改。可以直接在视频中添加想要的素材，支持三
种模态的提示输入。

对比竞品 Runway ML，时长斱面，Runway ML 免费用户生成的视频时长为 4 秒，但可以通过会员付费等斱式延长视频时长，Pika 生成的视频为 3 秒，在 Discord 的服务器上无法延长时间。画质斱面，对比 Pika 和 Runway ML 针对同一段文字生成的视频，Pika 生成的视频画面更具劢态感和立体感。

Pika labs创立于2023年4月，为由斯坦福华人博士生郭文景等4人初创的公司，创立初衷在于构建更易使用的的AI视频生成工具，目前Pika用户超50万，每周生成数百万个视频。Pika 1.0支持文字、图片和视频三种模态的提示输入，能够实现低成本高效生成视频，Pika的迅速出圈打开了多模态AI应用的想象空间。

2、英特尔计划于 2023 年 12 月 14 日正式推出首个 AI PC 处理器 Meteor Lake

英特尔计划于 2023 年 12 月 14 日正式推出首个 AI PC 处理器 Meteor Lake。Meteor Lake 采用分离式模块化设计，由 CPU 模块、SoC 模块、GPU 模块以及 IO 模块四大独立模块组成，并通过 Foveros 3D 封装技术实现极低功耗和高密度的晶片连接。

CPU 模块：首次采用了 Intel 4 纳米制程工艺，相比 Intel 7 纳米制程能效提升超 20%，使 Meteor Lake 处理器成为英特尔历史上能效最高的客户端处理器；同时具有快速响应能力，适用于轻量级、单次推理低延迟的 AI 任务。
SOC 模块：集成了英特尔首个 PC 端 AI 加速引擎 NPU；该 NPU 采用低功耗设计，可持续处理 AI 任务。
GPU 模块：每瓦性能是第 12 代处理器 Alder Lake 的两倍，同时具有性能并行性和高吞吐量，适用于媒体、3D 应用和图形渲染等相关任务，可同时处理大量 AI 任务。
IO 模块：支持 WI-Fi 7、Thunderbolt 4、PCIe Gen5 等新一代 IO 接口。

AI PC，即 CPU 集成 AI 引擎的 PC，对语音、图像信息具备 AI 感知能力，同时软件系统兼容 AI 搜索、内容生成、智能推荐等 AI 应用，并能够贡献 AI 算力。

3、谷歌发布 Translatotron 3 模型

谷歌于 2019 年推出了 Translatotron S2ST 系统，于 2021 年 7 月推出第 2 个版本，在 2023 年 5 月 27 日发布的一篇论文中，宣布正在部署新方法，训练 Translatotron 3。12 月 2 日，谷歌正式发布 Translatotron 3 的新 AI 模型，无需任何并行语音数据下，可以实现语音对语音的同声传译翻译。该模型的推出，这标志着谷歌公司在人工智能语音翻译领域的一项重要突破。

4、Runway和Getty宣布合作开发新生成式AI视频模型RGM

11 月底，Runway 正式推出了“运动画笔”（Motion Brush）功能，让你的图片变成视频，迅速动起来。这个新运动画笔功能有望成为创作者可以用来为 AI 制作的图像和视频添加运动元素的另一个强大工具。不仅仅是任何运动，而是可以添加到特定区域的非常精确和受控的运动。运动画笔工具的工作原理是允许用户在其视频生成中添加受控运动。它的工作原理是允许用户“绘制”一个区域或主题，然后选择一个方向并添加强度，然后 Runway 将为该区域添加运动并达到该强度。

12月5日，Runway ML与Getty Images宣布合作开发新的生成式AI视频模型，命名为Runway Getty Images Model（RGM），旨在服务好莱坞和广告行业。RGM不仅仅是一个视频模型，更是为企业提供的基准模型，企业可以在其基础上构建自己的定制模型，用于生成各种视频内容。Runway企业客户可通过使用自有专有数据集对RGM进行微调，这使得在诸如好莱坞制片厂、广告、媒体、广播等各个领域的企业能够提升其创意能力，为视频创作开辟全新渠道，轻松打造符合企业风格和品牌特色、迎合独特受众的愉悦体验。

5、华为云推出大模型混合云

11月30日，以“践行深度用云，加速智能升级”为主题的华为云行业高峰论坛2023在北京盛大开幕。会上，华为云重磅推出业界首个大模型混合云，并发布《深度用云展望2025》白皮书及深度用云行动计划，希望通过创新技术、理论沉淀及行动举措，助力政企践行深度用云，加速智能升级。未来，所有企业都会使用大模型。源于长期的行业积累，大型企业拥有丰富的私有数据资源，这些私有数据对大模型的训练至关重要。大型政企由于其业务特点，更倾向于将数据留在本地，确保“数据不出域”。因此，基于混合云的大模型将成为未来行业大模型的重要部署形态，既满足业务创新诉求，也缓解企业对数据安全和隐私的担忧。

华为云Stack 8.3在业界率先实现大模型能力基于混合云部署，提供算力平台、云服务、开发套件和专业服务等业界最完整的AI生产链，帮助政企客户一站式建立专属大模型能力。华为云Stack针对大模型场景做了四大优化：

首先，基于原生混合云能力，用户可以将大模型从本地延伸到边缘和公有云，多云协同架构让行业大模型在公有云上训练，在混合云上结合企业本地数据微调，然后推送到边缘云进行推理，实现全场景跨云部署。
其次，通过软硬协同实现算子融合与混合精度的优化，模型训练性能提升45%，充分挖掘算力潜能。
第三，华为云Stack提供3类工具套件，让企业能够高效地完成数据清洗、模型开发和应用开发，降低开发门槛。
最后，大模型训练任务通常需要连续执行数天，华为云Stack通过无感断点续训的能力，让AI训练可以长稳运行30天以上。

6、微软发布跨平台机器学习框架ML.NET 3.0

微软发布了 ML.NET 3.0，带来了许多新功能和改进。ML.NET 是一个专为 .NET 开发者设计的开源、跨平台的机器学习框架，可以将自定义的机器学习模型集成到 .NET 应用程序中。在 ML.NET 3.0 中，深度学习方案得到了扩展，新增了目标检测、命名实体识别和问答等功能，这些功能的实现得益于与 TorchSharp 和 ONNX 模型的集成和互操作性。同时，该版本还将集成的 LightGBM 升级到了最新版本。数据处理方面也有改进，DataFrame 引入了一系列增强和错误修复，使得数据的加载、检查、转换和可视化等步骤更加强大。此外，ML.NET 3.0 还引入了 Intel oneDAL 的训练加速功能，可以加快训练过程。Intel oneDAL 是一个用于数据分析的库，通过提供高度优化的算法构建块，加速数据分析和机器学习过程。它通过利用 64 位架构中的 SIMD 扩展，支持 Intel 和 AMD 的 CPU。自动机器学习 (AutoML) 是 ML.NET 3.0 的一个重要功能。AutoML 可以自动化应用机器学习到数据的过程，简化了模型构建的流程。ML.NET 3.0 的 AutoML 针对多个新功能进行了增强，包括支持判断句子相似性、问答和目标检测等任务。

7、昆仑万维发布 AI Agent 开发平台天工 SkyAgents

12月1日，昆仑万维发布了「天工SkyAgents」平台，这是一款领先的AI Agents开发平台，基于「天工大模型」打造，用户可以通过自然语言构建自己的单个或多个“私人助理”，执行各种任务。「天工SkyAgents」具备从感知到决策、从决策到执行的自主学习和独立思考能力，用户无需代码编程，即可在几分钟之内部署属于自己的AI Agents。它能够完成行业研究报告、单据填写、商标设计、健身计划、旅行航班预定等多项私人定制需求，并支持一键服务部署，确保其在不同业务系统中的无缝接入。「天工SkyAgents」还具备数据检索增强（RAG）的能力，能够支持导入更多格式和更大规模的数据和知识，结合人工智能技术，平台能够从导入的数据中自动识别关键信息点，形成结构化的知识体系。「天工SkyAgents」不仅能成为你的私人AI助理，还能是你的私人法律专家、私人人力顾问、私人IT大神等。

8、AMD 发布 MI300 系列 AI 芯片

12月6日，超威半导体（AMD）在美国加利福尼亚州圣何塞推出了其备受期待的MI300系列产品。这可能是AMD五年历史上最重要的发布之一，该公司将在火热的人工智能加速器市场上与英伟达正面对决。AMD提供其最新芯片的两种变体：一款名为MI300X，是一款适用于人工智能计算的GPU。另一款名为MI300A，将图形处理功能与标准中央处理器（CPU）相结合，面向人工智能和科学研究。AMD表示，MI300X芯片是业界当前最先进的人工智能加速器，并称其性能优于英伟达目前的产品。不过这一说法还未得到独立验证。据介绍，MI300X芯片拥有超过1500亿个晶体管，内存密度是目前市场领先者英伟达H100的2.4倍，内存带宽是其1.6倍。

AMD介绍称，与上一代同样搭载锐龙AI NPU的7040相比，8040系列在AI任务上展现了进一步的提升。其NPU的AI性能算力从10TOPS提升到16TOPS，提升了惊人的60％，整体算力也从33TOPS增加到39TOPS。另外，在Llama 2大语言模型和视觉模型环境中，其性能提升均可达到40％。与英特尔酷睿i9 13900H相比，Ryzen8040系列在多线程处理、游戏、内容创作等任务的性能均更加出色。

9、Google 发布 Gemini 大模型

12月6日，Google发布Gemini大语言模型，它具备三大独特优势，号称超越了GPT-4。首先，Gemini在各种任务中表现出色，包括自然语言处理、数学推理等；其次，Gemini具备多模态模型推理能力，能够处理多种数据类型，如文本、图像、音频和视频；最后，Gemini提供三种不同规模的模型，分别为Gemini Ultra、Gemini Pro和Gemini Nano，以满足不同任务和设备的需要。不过，Gemini最大的特性还是原生多模态（native multimodality），这也是Google多次强调的特性，可以无缝的理解和操作包括文本、代码、音频、图像和视频在内的不同类型的信息。

谷歌对Gemini进行了严格的测试，并评估了其在各种任务中的表现。根据Google发布的测试结果显示，Gemini在32个学术基准测试集中有30个测试集的表现超过了当前最先进的模型，可谓是遥遥领先同行。

10、谷歌发布最新一代TPUv5p及对应AIHPC

谷歌于近日发布最新一代TPUv5p及对应AIHPC，性能倍增。在BF16精度下，TPUv5p的训练速度提升至v4的1.7倍达459TFLOPS，约为H100三分之一，芯片间互联（ICI）带宽提升至v4的2倍达4.8Tbit/s（单卡6接口，单口速率为800Gbit/s）；单一POD中最大可互联芯片数上，v5p提升至v4的约2.2倍达8960片，因此v5pPOD最大算力为v4四倍左右；v5p服务器继续沿用3D环形拓扑结构及OCS。谷歌在前代v4服务器上使用了3D环形拓扑结构及OCS（OpticalCircuitSwitch，光路交换机），v5p服务器将继续沿用。参考v4服务器架构，每64个节点组成4×4×4的立方体，每个芯片节点在6个方向上进行连接，其中立方体表面上相对的芯片需连接至同一交换机。