2023年12月上旬大模型新动向集锦

2023年12月上旬大模型新动向集锦

  • 2023.12.12
  • 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。

1、Pika 1.0 发布

2023 年 11 月 30 日,Pika 结束测试,正式对外发布了第一款产品 Pika 1.0。Pika 1.0 的视频生成质量较高,支持 3D 劢画、劢漫戒申影等多种视频风格,用户还可以通过 Pika 对视频迚行编辑,比如画布延展、局部修改、视频时长拓展等。目前,Pika 团队已经上线最新官网,需要排队甲请试用。Pika 已经获得 5500 万美元融资(估值近 2 亿美元)。

Pika 1.0 视频生成具备多种丰富,目前用户可在 Discord 使用 Pika 服务器。视频效果优质,拥有电影质感,动画级特效。从像素风到到黑白幻灯片效果,演示出的 5 种风格转化,几乎涵盖了现有申影和劢画大部分风格。支持对于视频实时编辑和修改。可以直接在视频中添加想要的素材,支持三
种模态的提示输入。

对比竞品 Runway ML,时长斱面,Runway ML 免费用户生成的视频时长为 4 秒,但可以通过会员付费等斱式延长视频时长,Pika 生成的视频为 3 秒,在 Discord 的服务器上无法延长时间。画质斱面,对比 Pika 和 Runway ML 针对同一段文字生成的视频,Pika 生成的视频画面更具劢态感和立体感。

Pika labs创立于2023年4月,为由斯坦福华人博士生郭文景等4人初创的公司,创立初衷在于构建更易使用的的AI视频生成工具,目前Pika用户超50万,每周生成数百万个视频。Pika 1.0支持文字、图片和视频三种模态的提示输入,能够实现低成本高效生成视频,Pika的迅速出圈打开了多模态AI应用的想象空间。

2、英特尔计划于 2023 年 12 月 14 日正式推出首个 AI PC 处理器 Meteor Lake

英特尔计划于 2023 年 12 月 14 日正式推出首个 AI PC 处理器 Meteor Lake。Meteor Lake 采用分离式模块化设计,由 CPU 模块、SoC 模块、GPU 模块以及 IO 模块四大独立模块组成,并通过 Foveros 3D 封装技术实现极低功耗和高密度的晶片连接。

  1. CPU 模块:首次采用了 Intel 4 纳米制程工艺,相比 Intel 7 纳米制程能效提升超 20%,使 Meteor Lake 处理器成为英特尔历史上能效最高的客户端处理器;同时具有快速响应能力,适用于轻量级、单次推理低延迟的 AI 任务。
  2. SOC 模块:集成了英特尔首个 PC 端 AI 加速引擎 NPU;该 NPU 采用低功耗设计,可持续处理 AI 任务。
  3. GPU 模块:每瓦性能是第 12 代处理器 Alder Lake 的两倍,同时具有性能并行性和高吞吐量,适用于媒体、3D 应用和图形渲染等相关任务,可同时处理大量 AI 任务。
  4. IO 模块:支持 WI-Fi 7、Thunderbolt 4、PCIe Gen5 等新一代 IO 接口。

AI PC,即 CPU 集成 AI 引擎的 PC,对语音、图像信息具备 AI 感知能力,同时软件系统兼容 AI 搜索、内容生成、智能推荐等 AI 应用,并能够贡献 AI 算力。

3、谷歌发布 Translatotron 3 模型

谷歌于 2019 年推出了 Translatotron S2ST 系统,于 2021 年 7 月推出第 2 个版本,在 2023 年 5 月 27 日发布的一篇论文中,宣布正在部署新方法,训练 Translatotron 3。12 月 2 日,谷歌正式发布 Translatotron 3 的新 AI 模型,无需任何并行语音数据下,可以实现语音对语音的同声传译翻译。该模型的推出,这标志着谷歌公司在人工智能语音翻译领域的一项重要突破。

4、Runway和Getty宣布合作开发新生成式AI视频模型RGM

11 月底,Runway 正式推出了“运动画笔”(Motion Brush)功能,让你的图片变成视频 ,迅速动起来。这个新运动画笔功能有望成为创作者可以用来为 AI 制作的图像和视频添加运动元素的另一个强大工具。不仅仅是任何运动,而是可以添加到特定区域的非常精确和受控的运动。运动画笔工具的工作原理是允许用户在其视频生成中添加受控运动。它的工作原理是允许用户“绘制”一个区域或主题,然后选择一个方向并添加强度,然后 Runway 将为该区域添加运动并达到该强度。

12月5日,Runway ML与Getty Images宣布合作开发新的生成式AI视频模型,命名为Runway Getty Images Model(RGM),旨在服务好莱坞和广告行业。RGM不仅仅是一个视频模型,更是为企业提供的基准模型,企业可以在其基础上构建自己的定制模型,用于生成各种视频内容。Runway企业客户可通过使用自有专有数据集对RGM进行微调,这使得在诸如好莱坞制片厂、广告、媒体、广播等各个领域的企业能够提升其创意能力,为视频创作开辟全新渠道,轻松打造符合企业风格和品牌特色、迎合独特受众的愉悦体验。

5、华为云推出大模型混合云

11月30日,以“践行深度用云,加速智能升级”为主题的华为云行业高峰论坛2023在北京盛大开幕。会上,华为云重磅推出业界首个大模型混合云,并发布《深度用云展望2025》白皮书及深度用云行动计划,希望通过创新技术、理论沉淀及行动举措,助力政企践行深度用云,加速智能升级。未来,所有企业都会使用大模型。源于长期的行业积累,大型企业拥有丰富的私有数据资源,这些私有数据对大模型的训练至关重要。大型政企由于其业务特点,更倾向于将数据留在本地,确保“数据不出域”。因此,基于混合云的大模型将成为未来行业大模型的重要部署形态,既满足业务创新诉求,也缓解企业对数据安全和隐私的担忧。

华为云Stack 8.3在业界率先实现大模型能力基于混合云部署,提供算力平台、云服务、开发套件和专业服务等业界最完整的AI生产链,帮助政企客户一站式建立专属大模型能力。华为云Stack针对大模型场景做了四大优化:

  • 首先,基于原生混合云能力,用户可以将大模型从本地延伸到边缘和公有云,多云协同架构让行业大模型在公有云上训练,在混合云上结合企业本地数据微调,然后推送到边缘云进行推理,实现全场景跨云部署。
  • 其次,通过软硬协同实现算子融合与混合精度的优化,模型训练性能提升45%,充分挖掘算力潜能。
  • 第三,华为云Stack提供3类工具套件,让企业能够高效地完成数据清洗、模型开发和应用开发,降低开发门槛。
  • 最后,大模型训练任务通常需要连续执行数天,华为云Stack通过无感断点续训的能力,让AI训练可以长稳运行30天以上。

6、微软发布跨平台机器学习框架ML.NET 3.0

微软发布了 ML.NET 3.0,带来了许多新功能和改进。ML.NET 是一个专为 .NET 开发者设计的开源、跨平台的机器学习框架,可以将自定义的机器学习模型集成到 .NET 应用程序中。在 ML.NET 3.0 中,深度学习方案得到了扩展,新增了目标检测、命名实体识别和问答等功能,这些功能的实现得益于与 TorchSharp 和 ONNX 模型的集成和互操作性。同时,该版本还将集成的 LightGBM 升级到了最新版本。数据处理方面也有改进,DataFrame 引入了一系列增强和错误修复,使得数据的加载、检查、转换和可视化等步骤更加强大。此外,ML.NET 3.0 还引入了 Intel oneDAL 的训练加速功能,可以加快训练过程。Intel oneDAL 是一个用于数据分析的库,通过提供高度优化的算法构建块,加速数据分析和机器学习过程。它通过利用 64 位架构中的 SIMD 扩展,支持 Intel 和 AMD 的 CPU。自动机器学习 (AutoML) 是 ML.NET 3.0 的一个重要功能。AutoML 可以自动化应用机器学习到数据的过程,简化了模型构建的流程。ML.NET 3.0 的 AutoML 针对多个新功能进行了增强,包括支持判断句子相似性、问答和目标检测等任务。

7、昆仑万维发布 AI Agent 开发平台天工 SkyAgents

12月1日,昆仑万维发布了「天工SkyAgents」平台,这是一款领先的AI Agents开发平台,基于「天工大模型」打造,用户可以通过自然语言构建自己的单个或多个“私人助理”,执行各种任务。「天工SkyAgents」具备从感知到决策、从决策到执行的自主学习和独立思考能力,用户无需代码编程,即可在几分钟之内部署属于自己的AI Agents。它能够完成行业研究报告、单据填写、商标设计、健身计划、旅行航班预定等多项私人定制需求,并支持一键服务部署,确保其在不同业务系统中的无缝接入。「天工SkyAgents」还具备数据检索增强(RAG)的能力,能够支持导入更多格式和更大规模的数据和知识,结合人工智能技术,平台能够从导入的数据中自动识别关键信息点,形成结构化的知识体系。「天工SkyAgents」不仅能成为你的私人AI助理,还能是你的私人法律专家、私人人力顾问、私人IT大神等。

8、AMD 发布 MI300 系列 AI 芯片

12月6日,超威半导体(AMD)在美国加利福尼亚州圣何塞推出了其备受期待的MI300系列产品。这可能是AMD五年历史上最重要的发布之一,该公司将在火热的人工智能加速器市场上与英伟达正面对决。AMD提供其最新芯片的两种变体:一款名为MI300X,是一款适用于人工智能计算的GPU。另一款名为MI300A,将图形处理功能与标准中央处理器(CPU)相结合,面向人工智能和科学研究。AMD表示,MI300X芯片是业界当前最先进的人工智能加速器,并称其性能优于英伟达目前的产品。不过这一说法还未得到独立验证。据介绍,MI300X芯片拥有超过1500亿个晶体管,内存密度是目前市场领先者英伟达H100的2.4倍,内存带宽是其1.6倍。

AMD介绍称,与上一代同样搭载锐龙AI NPU的7040相比,8040系列在AI任务上展现了进一步的提升。其NPU的AI性能算力从10TOPS提升到16TOPS,提升了惊人的60%,整体算力也从33TOPS增加到39TOPS。另外,在Llama 2大语言模型和视觉模型环境中,其性能提升均可达到40%。与英特尔酷睿i9 13900H相比,Ryzen8040系列在多线程处理、游戏、内容创作等任务的性能均更加出色。

9、Google 发布 Gemini 大模型

12月6日,Google发布Gemini大语言模型,它具备三大独特优势,号称超越了GPT-4。首先,Gemini在各种任务中表现出色,包括自然语言处理、数学推理等;其次,Gemini具备多模态模型推理能力,能够处理多种数据类型,如文本、图像、音频和视频;最后,Gemini提供三种不同规模的模型,分别为Gemini Ultra、Gemini Pro和Gemini Nano,以满足不同任务和设备的需要。不过,Gemini最大的特性还是原生多模态(native multimodality),这也是Google多次强调的特性,可以无缝的理解和操作包括文本、代码、音频、图像和视频在内的不同类型的信息。

谷歌对Gemini进行了严格的测试,并评估了其在各种任务中的表现。根据Google发布的测试结果显示,Gemini在32个学术基准测试集中有30个测试集的表现超过了当前最先进的模型,可谓是遥遥领先同行。

10、谷歌发布最新一代TPUv5p及对应AIHPC

谷歌于近日发布最新一代TPUv5p及对应AIHPC,性能倍增。在BF16精度下,TPUv5p的训练速度提升至v4的1.7倍达459TFLOPS,约为H100三分之一,芯片间互联(ICI)带宽提升至v4的2倍达4.8Tbit/s(单卡6接口,单口速率为800Gbit/s);单一POD中最大可互联芯片数上,v5p提升至v4的约2.2倍达8960片,因此v5pPOD最大算力为v4四倍左右;v5p服务器继续沿用3D环形拓扑结构及OCS。谷歌在前代v4服务器上使用了3D环形拓扑结构及OCS(OpticalCircuitSwitch,光路交换机),v5p服务器将继续沿用。参考v4服务器架构,每64个节点组成4×4×4的立方体,每个芯片节点在6个方向上进行连接,其中立方体表面上相对的芯片需连接至同一交换机。

猜你喜欢

转载自blog.csdn.net/chszs/article/details/134947138