【AIGC】商汤SenseNova大模型“超市”

1. 商汤发布「日日新 SenseNova」

随着 ChatGPT 掀起的全球狂潮，，国内大厂争先恐后，大模型如雨后春笋遍地开花。

2023年 4月10日，重量级选手「商汤」发布「日日新SenseNova」大模型超市。看这名字，真的很像超市。

「商汤」在技术交流日分享了以 “大模型+大算力” 推进 AGI（通用人工智能）发展的战略布局，公布了「商汤」的“日日新SenseNova”大模型体系，推出自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。

商汤科技表示，SenseNova 大模型体系主要面向政企客户，可提供多种灵活的 API 接口和服务，包括图片生成，自然语言生成，视觉感知通用任务与标注服务。客户可根据实际应用需求，调用 SenseNova 大模型的各项 AI 技术能力，低门槛、低成本、高效率地实现各类AI应用。

2. SenseCore AI 大算力

商汤 CEO 徐立表示：在AI大模型时代，数据、算法和算力这三要素也在经历新的演变，大模型参数量将以指数级的速率提升，而数据量随着多模态的引入也将大规模增长，因此就必然会导致对算力需求的剧增。

商汤建设的 SenseCore AI 大装置拥有 2.7万块 GPU，可以输出 5.0 exaFLOPS（每秒浮点运算次数）的总算力，最多可以支持20个千亿参数量大模型（千卡并行效率91.5%）同时训练，最高可支持万亿参数超大模型的训练。为日益增长的大模型训练需求提供了可靠、先进的研发环境和充沛的算力供应。

2022 年，SenseCore正式面向行业客户开放能力，提供自动化数据标注、自定义大模型训练、模型增量训练、模型推理部署、开发效率提升等多种大模型服务（Model-as-a-Service）：

基于预训练大模型的自动化数据标注，比人工数据标注的效率提升近百倍。
大模型并行训练和模型增量训练服务，能够帮助客户快速利用自有数据训练模型，包括在预训练大模型之上进行垂直领域行业模型的开发，生产自定义模型。
模型推理部署服务，可将大模型推理效率提高100%以上，降低用模型提供服务的成本。

商汤也向行业开发人员开放大量预训练模型及 AI 开发工具链，全面赋能客户提升开发效率。

3. SenseChat 语言大模型

自然语言是人机沟通的关键手段，商汤推出了语言大模型「商量SenseChat」。

在这里插入图片描述

商汤科技全面布局生成类预训练大模型，实现并完善了文本、语音、图像、视频、3D场景的多模态生成能力。

2022年，商汤科技联合上海人工智能实验室、清华大学、香港中文大学、上海交通大学发布了多模态多任务通用大模型“书生（INTERN）”，拥有30亿参数，是目前开源模型社区性能最强的多模态大模型。该模型可以接收处理各种不同模态的输入，并采用统一的模型架构和参数处理各种不同的任务，实现多模态多任务的通用处理能力。该模型已经在通用视觉开源平台 OpenGVLab 开源。

2023年3月，商汤科技开源了多模态（指能够处理文本、图像、音视频等多种数据类型）多任务通用大模型“书生（INTERN）2.5”。书生2.5 具备图文跨模态开放任务处理能力，可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。

“书生 2.5" 可以通过文本来定义任务，从而灵活地定义不同场景的任务需求，并根据给定视觉图像和任务的提示性语句，给出相应的指令或作答，进而具备通用场景下的高级感知和复杂问题处理能力，比如图像描述、视觉问答、视觉推理和文字识别等。

" 书生 2.5" 可以辅助处理各种复杂任务。例如，在自动驾驶场景中，可以大幅提升场景感知理解能力，准确辅助车辆判断交通信号灯状态、道路标志牌等信息，为车辆决策规划提供有效信息输入。

" 书生 2.5" 可以根据文本快速检索出视觉内容，例如，可在相册中返回文本所指定的相关图像，或是在视频中检索出与文本描述最相关的帧，提高视频中时间定位任务的效率。此外还支持引入物体检测框，根据文本返回最相关的物体，实现开放世界视频或图像中物体检测及视觉定位。

「商量SenseChat」是千亿级参数的自然语言处理模型，使用大量数据训练，考虑了中文语境，能够更好地理解和处理中文文本。「商量SenseChat」在演示中展示了多轮对话和超长文本的理解能力。

商汤也展示了语言大模型支持的几项创新应用：

编程助手，可帮助开发者更高效地编写和调试代码。
健康咨询助手，为用户提供个性化的医疗建议。
PDF 文件阅读助手，能轻松从复杂文档中提取和概括信息。

4. SenseNova 大模型超市

商汤目前已构建了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型，持续演进能力并广泛支持各种应用。

计算器视觉：商汤科技研发了320亿参数量的全球最大的通用视觉模型，实现了高性能的目标检测、图像分割和多物体识别算法，这些技术在自动驾驶、工业质检、医疗影像等领域得到了广泛应用。

AI内容生成：实现了多个文生图大模型的训练，对文字生图的理解、出图画质与推理速度等任务具备出众的能力。尤其在中国传统文化的理解方面具备独特优势，例如可用古诗词作为提示词来生成对应图片等。画质方面，支持6K高清图的生成，且在光影处理方面更加细腻。

语音识别与合成：研发的语音识别模型在多种场景下实现了高准确率、低延迟的语音转文本能力，还研发了语音合成模型，能够根据用户需求生成具有不同语调、音色的语音，为数字人、智能车舱等产品提供了强大支持。

强化学习与决策智能：研发了一系列高效的决策智能模型。这些模型在机器人控制、游戏AI、自动驾驶决策系统等领域取得了显著的应用成果。

AI芯片与硬件加速：研发了数款高性能、低功耗的AI推理芯片及AI ISP芯片，在数据中心、边缘计算等场景下展现出强大的计算能力。

在这里插入图片描述

「日日新SenseNova」大模型超市还包括各种AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用：

“秒画SenseMirage”文生图创作平台，展现了光影真实、细节丰富、风格多变的强大的文生图能力，可支持6K高清图的生成；客户还可根据自身需求训练生成模型。
“如影SenseAvatar”AI数字人视频生成平台，仅需一段5分钟的真人视频素材，就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。
“琼宇SenseSpace”和“格物SenseThings”3D内容生成平台，可以高效低成本生成大规模三维场景和精细化的物件，为元宇宙、虚实融合应用打开新的想象空间。