【AIGC】商汤SenseNova大模型“超市”

1. 商汤发布「日日新 SenseNova」

随着 ChatGPT 掀起的全球狂潮,,国内大厂争先恐后,大模型如雨后春笋遍地开花。

2023年 4月10日,重量级选手「商汤」发布「日日新SenseNova」大模型超市。 看这名字,真的很像超市。

「商汤」在技术交流日分享了以 “大模型+大算力” 推进 AGI(通用人工智能)发展的战略布局,公布了「商汤」的“日日新SenseNova”大模型体系,推出自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。

商汤科技表示,SenseNova 大模型体系主要面向政企客户,可提供多种灵活的 API 接口和服务,包括图片生成,自然语言生成,视觉感知通用任务与标注服务。客户可根据实际应用需求,调用 SenseNova 大模型的各项 AI 技术能力,低门槛、低成本、高效率地实现各类AI应用。


2. SenseCore AI 大算力

商汤 CEO 徐立表示:在AI大模型时代,数据、算法和算力这三要素也在经历新的演变,大模型参数量将以指数级的速率提升,而数据量随着多模态的引入也将大规模增长,因此就必然会导致对算力需求的剧增。

商汤建设的 SenseCore AI 大装置拥有 2.7万块 GPU,可以输出 5.0 exaFLOPS(每秒浮点运算次数)的总算力,最多可以支持20个千亿参数量大模型(千卡并行效率91.5%)同时训练,最高可支持万亿参数超大模型的训练。为日益增长的大模型训练需求提供了可靠、先进的研发环境和充沛的算力供应。

2022 年,SenseCore正式面向行业客户开放能力,提供自动化数据标注、自定义大模型训练、模型增量训练、模型推理部署、开发效率提升等多种大模型服务(Model-as-a-Service):

  • 基于预训练大模型的自动化数据标注,比人工数据标注的效率提升近百倍。

  • 大模型并行训练和模型增量训练服务,能够帮助客户快速利用自有数据训练模型,包括在预训练大模型之上进行垂直领域行业模型的开发,生产自定义模型。

  • 模型推理部署服务,可将大模型推理效率提高100%以上,降低用模型提供服务的成本。

商汤也向行业开发人员开放大量预训练模型及 AI 开发工具链,全面赋能客户提升开发效率。


3. SenseChat 语言大模型

自然语言是人机沟通的关键手段,商汤推出了语言大模型「商量SenseChat」。

在这里插入图片描述

商汤科技全面布局生成类预训练大模型,实现并完善了文本、语音、图像、视频、3D场景的多模态生成能力。

2022年,商汤科技联合上海人工智能实验室、清华大学、香港中文大学、上海交通大学发布了多模态多任务通用大模型“书生(INTERN)”,拥有30亿参数,是目前开源模型社区性能最强的多模态大模型。该模型可以接收处理各种不同模态的输入,并采用统一的模型架构和参数处理各种不同的任务,实现多模态多任务的通用处理能力。该模型已经在通用视觉开源平台 OpenGVLab 开源。

2023年3月,商汤科技开源了多模态(指能够处理文本、图像、音视频等多种数据类型)多任务通用大模型“书生(INTERN)2.5”。书生2.5 具备图文跨模态开放任务处理能力,可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。

“书生 2.5" 可以通过文本来定义任务,从而灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

" 书生 2.5" 可以辅助处理各种复杂任务。例如,在自动驾驶场景中,可以大幅提升场景感知理解能力,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。

" 书生 2.5" 可以根据文本快速检索出视觉内容,例如,可在相册中返回文本所指定的相关图像,或是在视频中检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,实现开放世界视频或图像中物体检测及视觉定位。

「商量SenseChat」是千亿级参数的自然语言处理模型,使用大量数据训练,考虑了中文语境,能够更好地理解和处理中文文本。「商量SenseChat」在演示中展示了多轮对话和超长文本的理解能力。

商汤也展示了语言大模型支持的几项创新应用:

  • 编程助手,可帮助开发者更高效地编写和调试代码。

  • 健康咨询助手,为用户提供个性化的医疗建议。

  • PDF 文件阅读助手,能轻松从复杂文档中提取和概括信息。


4. SenseNova 大模型超市

商汤目前已构建了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型,持续演进能力并广泛支持各种应用。

计算器视觉:商汤科技研发了320亿参数量的全球最大的通用视觉模型,实现了高性能的目标检测、图像分割和多物体识别算法,这些技术在自动驾驶、工业质检、医疗影像等领域得到了广泛应用。

AI内容生成:实现了多个文生图大模型的训练,对文字生图的理解、出图画质与推理速度等任务具备出众的能力。尤其在中国传统文化的理解方面具备独特优势,例如可用古诗词作为提示词来生成对应图片等。画质方面,支持6K高清图的生成,且在光影处理方面更加细腻。

语音识别与合成:研发的语音识别模型在多种场景下实现了高准确率、低延迟的语音转文本能力,还研发了语音合成模型,能够根据用户需求生成具有不同语调、音色的语音,为数字人、智能车舱等产品提供了强大支持。

强化学习与决策智能:研发了一系列高效的决策智能模型。这些模型在机器人控制、游戏AI、自动驾驶决策系统等领域取得了显著的应用成果。

AI芯片与硬件加速:研发了数款高性能、低功耗的AI推理芯片及AI ISP芯片,在数据中心、边缘计算等场景下展现出强大的计算能力。

在这里插入图片描述

「日日新SenseNova」大模型超市还包括各种AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用:

  • “秒画SenseMirage”文生图创作平台,展现了光影真实、细节丰富、风格多变的强大的文生图能力,可支持6K高清图的生成;客户还可根据自身需求训练生成模型。

  • “如影SenseAvatar”AI数字人视频生成平台,仅需一段5分钟的真人视频素材,就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。

  • “琼宇SenseSpace”和“格物SenseThings”3D内容生成平台,可以高效低成本生成大规模三维场景和精细化的物件,为元宇宙、虚实融合应用打开新的想象空间。


猜你喜欢

转载自blog.csdn.net/youcans/article/details/130071745