百度文心大模型3.5杀疯了!拿下7个第一!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

今年国产大模型大爆发!截止目前,国内已经有相当多的大模型,网友调侃称百“模”大战!其中最具代表性的产品有:百度的文心一言、阿里的通义千问、科大讯飞的星火等,最具代表性的开源工作有:ChatGLM、MOSS、BaiChuan等。

目前大模型面向用户的主要交互方式集中在对话(Chat)上,输入内容以自然语言文本为主,有的还支持图片、文档等输入。大模型支持的功能更是丰富至极,比如知识问答、外语翻译、论文润色、编程、数据分析、智能机器人等,有的甚至已经引入多模态技术,支持图像生成、视频生成等功能。

那么现在有这么多大模型,有同学肯定会疑问:究竟哪家的大模型实力最强?!如果要选择一个作为日常科研和工作的工具,哪个更顺手?!

a1a96d8c910c0528b7305488e20fffc6.png

文心大模型3.5拿下三个绝对第一

全球领先的国际数据公司IDC最新发布的《AI大模型技术能力评估报告,2023》给出了答案。这也是IDC首次提出AI大模型技术能力评估框架,而且参加这次大模型评估的都是国内最具代表性的AI大模型厂商,有百度(文心)、阿里巴巴(通义千问)、科大讯飞(星火)、腾讯、智谱 AI、澜舟科技、360、商汤等14家。 

61000e8627a163e391c67c7d552f4ba4.png

其中,最吸睛就是百度的文心大模型3.5,强势拿下三个绝对第一: 

  • 整体上总分绝对第一

  • 算法模型绝对第一

  • 行业覆盖绝对第一

报告显示,在涉及的12项指标中(包括产品、服务和行业三大维度),百度文心大模型3.5拿下7个满分,综合评分排名第一!       

cae12626d247c570f2b49107f11227cf.png

IDC《AI大模型技术能力评估报告,2023》:百度7项满分、综合评分第一

其中在算法模型指标上,百度文心大模型3.5拿到了唯一的满分五分,这代表了大模型的基础能力,也直接体现了百度在大模型核心技术上的突出优势;而且在行业覆盖指标上,百度文心大模型3.5也拿到了唯一的满分五分,这意味着百度拥有中国最大产业应用规模;同时在通用能力、创新能力、平台能力、能源和生态合作指标上也都拿到了满分五分。

前段时间,百度正式发布了文心大模型3.5版本,与3.0版本相比,训练速度提升2倍,推理速度提升30倍,模型效果累计提升超过 50%,这些提升会实实在在的优化用户体验!而这些成果是离不开百度精心打造的“芯片-框架-模型-应用”四层技术栈的优势,尤其是框架层的飞桨深度学习平台和模型层的文心大模型的联合优化。

这里值得提一下,文心大模型3.5版本支持下的文心一言中文能力相当突出,在多个公开权威测评上,综合能力评测得分超过ChatGPT,部分中文能力甚至有超越 GPT-4 的性能表现。

另外在功能方面,百度文心大模型3.5版本特别新增了插件机制(很多同学眼馋很久了),插件机制会大大拓展大模型的能力边界,比如加入百度搜索和ChatFile(支持pdf/doc文档上传)插件,扩展了获取实时准确信息的能力和超长文本输入及生成文本摘要的能力。

4fd9357b6c785ae02ce8359c33db99b2.png

百度文心大模型全景图

文心大模型3.5版本背后的技术

文心大模型3.5版本究竟在哪方面技术得到了提升?这其实是我们行业从业人员非常关心的,也是参考学习的重点。

于是我调研了一波,发现文心大模型3.5版本在技术层面,主要实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等改进。

  • 基础模型升级

基础模型(Foundation Model)的升级,依托百度飞桨(PaddlePaddle)的自适应混合并行训练技术和混合精度计算,并采样多种策略优化数据源和数据分布,使得预训练大模型的训练效率和性能都得到了显著提升。

自适应混合并行训练技术包含不同角度的并行,可能有参数的并行,有数据的并行,有流程调度的并行,还有模型自身结构上的考虑等等,以及需要结合模型在训练整个过程的不同阶段,以及训练集群的状态去进行适应的调配,最终让大规模参数的超大型模型非常有效率的运行起来。

混合精度计算是指在不同阶段,以及面对训练当中不同训练要求的时候,采用不同精度计算,比如BF16、FP32和TF32的混合,可以在减少占用内存的同时实现加速训练的效果。

多种策略优化数据源和数据分布是来保证模型效果和安全性。其中安全性是当前AIGC中重要一环,因为大模型输出结果可能会受到多种因素的影响,就可能导致大模型产生误导性的结果,所以如何让模型能够稳定、正向的生成结果,是非常重要的。

  • 精调技术创新

精调(Fine-tuning)技术是引入多类型多阶段有监督精调。在强化学习方面,使用多层次多粒度奖励模型,奖励模型非常重要,其可以指导模型,训练出更可靠的模型(奖励模型是RLHF的关键,也是模型的关键)。

另外训练中有对于多损失函数混合优化,以及双飞轮结合的模型优化,这些技术创新大大提升了模型的效果。

  • 知识点增强

百度在已有的知识增强和检索增强基础上,进一步创新了知识点增强技术。通过用户的提示和需求输入之后,对此做理解,从中去抽取和扩展知识点,通过搜索引擎和知识图谱的帮助,把知识点变成指导大模型生成工作之后的指引,最后使得模型能够更好地利用精细的知识点来提升大模型对世界知识的掌握和运用能力。

  • 逻辑推理增强

在推理方面,创新了大规模逻辑数据构建技术、逻辑知识建模技术、粗粒度与细粒度语义知识组合技术以及符号神经网络技术,使得逻辑推理、数学计算和代码生成等能力都得到了很大的提升。

文心一言实测

上面介绍了文心大模型3.5版本的一些数据和技术,但对我们使用者而言,最新版本究竟有多强,还是要看具体使用体验如何,这个才是最实际的。

于是我实测了文心大模型3.5版本支持的文心一言。特别提一下,如果你之前有拿到文心一言测试资格的话,应该会明显发现,从3月份到现在,文心一言能力有非常大的提升,可以感觉到体验有非常大的变化。

这里我作为一名人工智能、计算机视觉方向的从业者,提问了一些日常会遇到的问题,来看看文心一言是否可以轻松应对。

  • 编程能力

测试一下文心一言的编程能力如何,能否减轻我们的coding工作量。

问题:用OpenCV写图像灰度化的代码

这段示例代码对小白极其友好,不仅有代码的中文注释,还有代码的整个处理流程,简直是手把手教学。

e3cc461297303d16fa38cb14907ea8c8.png

  • 翻译能力

这里测试了文心一言的翻译能力。因为每天会有海量论文上新,想要一一看遍,那工作量可太大了,所以快速看遍论文摘要,尽快了解论文的创新点和性能是很多同学日常在做的事情。

以论文摘要为例,从下面的两个图可以看出文心一言轻松准确的完成了英文的翻译。  

285dbc83dac102d1632efacb960abe84.png

ed0dfd0fff20f6f6ae0fa4bc7611accd.png

  • 面试辅助

最近正值求职季,我发现可以让文心一言出一些算法面试题。这样既可以给面试官提供灵感,甚至直接拿原题来用,以减轻工作量;还可以给正在求职的同学提供大量面试模拟题,以对相关知识点查漏补缺。

问题:你是一名拥有10年经验的计算机视觉算法研究员,请给面试者提出10道计算机视觉算法面试题

440ed80fa1cc57039787d2d38a001583.png

不仅可以生成算法面试题,还能生成相应的答案:

998119ba2576db8f50c1b264310b8fc5.png

  • 文字到图像生成

文字到图像生成这个方向目前相当火爆!不管是在学术界,还是在工业界都是研究的重点。这里测试了文心一言的文字到图像生成多模态能力。

问题:画一张正在融化的雪人

这张生成的雪人图片不仅有“正在融化”的感觉,而且融化后的水中还有雪人的倒影,这是相当具有真实感了!

7109cf2de90c9f589742b5f3a77e41cf.png

问题:画一张黑白风格的剑客照片,帅气的剑客站在沙漠之上,手中拿了两把剑

这张生成的剑客图片十分具有视觉冲击感,可能美中不足的是生成的两把剑是稍微有一点长了(手动狗头)。

d91c21c4ca315472e904be7ab06e6fa3.png

  • 内置插件

百度搜索插件——让文心一言具有生成实时准确信息的能力

本周三凌晨,Meta重磅发布了可免费商用的大模型Llama 2,让我们来看看文心一言是否知道这个消息。

可见具有百度搜索插件的文心一言,已经“知晓”了Llama 2的存在,并对其进行了介绍和分析。

a39c4c7d3b53d081e169d63a42117977.png

再问问今天上海的天气如何?

文心一言不仅告诉你了今天的上海天气,还把未来一周的上海天气都列出来了(相当贴心)。

60004ba23e6b003478ad616c1a2ed264.png

ChatFile 文档插件(支持pdf/doc格式)

用户在上传(pdf/doc格式)文档之后,可以通过自然语言文本跟文心一言进行对话,这样就可以对文档的内容进行解析,比如检索和总结等。

我上传了ICCV 2023顶会上的一篇最新论文《End-to-End Diffusion Latent Optimization Improves Classifier Guidance》的pdf,让文心一言总结了该论文的创新点。从下图可知,文心一言检索到了该论文所提出的框架(所写)叫做DOODL,目的是优化文本到图像扩散模型,并对更多信息进行了总结。

731925c1fe386d1d4aaa040304fed728.png

  • 日常类问题

现如今生活中充斥着非常多的网络梗,听到第一遍时很难理解具体意思,这时候可以问问文心一言,它会给详细的解释。

问题:你知道疯狂星期四,v我50是什么吗?

1d322787ef37b7f3611579c1aa32cbe6.png

问题:你知道"citywalk"是什么吗?

75f7c57b15ceea9a73eafad4081b9233.png

期待

当前文心大模型3.5版本支持下的文心一言已经具备相当优秀的性能和用户体验,达到了真正的“上手即用”,可以帮助我们提高科研和工作的生产力。

非常期待文心一言支持更多的功能、交互方式和插件,比如文本生成视频的多模态功能(听说该功能已经在百度内部进行内测了)。

另外文心一言还在内测阶段中,希望百度尽快放开公测!这么优质的工具,应该被大家看到和用到!

最后希望国产大模型发展越来越好!给每个人带来便利!

 
  

 
  
 
  
整理不易,请点赞和在看

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/131862855