鹏城实验室开源技术总师余跃:新一代人工智能开源生态的探索与实践

人工智能自诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。现如今,人工智能技术已经深入到我们生活的方方面面,为我们生活带来了诸多便捷,它有很多优点:提高效率、提高预测能力、加强质量控制、提高创新能力、提供便利

2022年7月21日,由中国开源软件推进联盟主办,赛迪传媒、《软件和集成电路》杂志社联合承办,CSDN 独家直播的“第十七届开源中国开源世界高峰论坛”上,国防科技大学副研究员、鹏城实验室开源技术总师余跃带来了《新一代人工智能开源生态的探索与实践》演讲。

余跃表示,“开源与技术发展的脉络紧密相关,人工智能是比较经典的Gartner曲线,现在处于Gartner曲线前期,也就是在蓄势期阶段。在黄金时期开源能快速形成生态,形成核心竞争力。但我们认为现在人工智能多项技术其实还处于蓄势期,所以应该把握好在开源黄金期快速建立生态能力。”

以下为余跃演讲实录:

各位开源高峰论坛的朋友大家好,很高兴代表Openl启智社区跟大家分享我们在新一代人工智能开源生态的探索和实践,我是此次报告的汇报人余跃。

开源已成为科技创新的主要发展模式,从计算机时代到互联网时代,特别是现在人工智能时代,几乎所有的基础软件,例如框架、算法、核心的模型都以开源开放的方式对世界产生各种各样的服务。

开源与技术发展的脉络紧密相关,例如人工智能是比较经典的Gartner曲线,现在处于Gartner曲线前期,也就是在蓄势期阶段。在黄金时期,开源能快速形成生态、核心竞争力,但我们认为现在人工智能时代多项技术其实还处于蓄势期,所以应该把握好在开源黄金期快速建立生态能力。

人工智能开源面临的挑战

人工智能开源生态建立,有以下几个挑战。

一是人工智能软硬件可行性操作复杂。比如现在做AI模型需要专业的加速卡,以及还可能需要英伟达的GPU、华为昇腾的NPU、寒武纪的MLU等等,不同的芯片之间有各种各样的整形机,不同的整形机需要不同的驱动,异构芯片也会导致做AI创新的时候门槛增多。算力和数据的融合同时也面临着巨大的困难,在AI场景下,除了训练之外还有推理的场景,甚至在不同应用上对于推理的效率以及对于模型部署的效率也有不同的需求。所以整个AI软硬件的可行性操作是一个关键问题。

二是对AI开源需要有效的组织。因为AI发展需要各种各样的数据和算法,甚至需要大量的创新人群参与。而我们目前看到的一种是像现在开放平台一样的对外开放服务,特别是大模型基础上来之后,把大模型变成一个在线开放服务,以微服务的形式结合应用场景。还有一种是开放源码和开放数据,这是比较传统的开源资源的形式,以及参与到各地的开放治理,因为AI从业人群现在逐渐发展起来,各种各样的创新智力资源如何有效组织,也是一个比较关键的挑战。

三是生态发展主导能力挑战。我国在开源的大形势下,在国际上,虽然现在参与非常多,但想主导一些开源的具体项目,能以我为主或者开展具有掌控力的生态级项目还是比较缺少的,所以我们整体对于开源的主导力需要加强。

带着这样的一些挑战和思考,我们希望通过启智社区构建新一代人工智能的开源生态。其中最核心的就是面对三个关键问题——AI软硬件的可行性操作、开放资源有效组织以及生态长期发展闭环,我们准备搭建新一代人工智能的服务环境,里面包括先进的基础设施,形成统一的服务模式。希望用这样的服务平台,不断汇聚各种各样的开放资源,提供安全可靠的保障机制,通过有效的运营和社区组织来培育长效活跃的开发者生态。

总的来讲,需要通过五个方面解决这三个关键问题,下面我简单介绍一下启智社区依托的骨干力量,也是现在国家的科技战略力量——鹏城实验室。

鹏城实验室

在实验室的三横三纵布局模式下,以网络、通信以及智能为纵轴,以软件与系统、电路与系统、数学与算法为三横布局整个研究。我们整体的任务落在网络智能的方向上,与软件与系统以及平台型的能力紧密相关。

当前最核心的就是打造了鹏城云脑的大科学装置,并且希望通过云态的智能平台支持大规模的开源开放共享的网络智能的有效激发和汇聚。

首先整个云脑是一个持续演进的技术路线,为上层应用提供强有力算力的支撑,现在云脑主要的算力来源就是鹏城云脑2号,以华为的NPU算力昇腾910为主要算力模式提供,未来可能还会演进到云脑2号、云脑3号。底层目前正在打造一个希望能连通各种智算中心,包括超算中心当中的智能算力,以及东数西算的核心枢纽节点。形成一个智能算力的网络结合云脑的计算装置,为开源创新提供强有力的基础设施。

我们打造了一个屏蔽底层各种异构芯片以及驱动层,包括计算框架层的开发平台,部署了一站式的流水线,包括协同开发、数据管理、模型调试、模型训练、在线推理以及模型部署的在线服务。对外可以看到项目、数据、模型库、镜像库,包括各种各样异构算力的运行环境;有组织和开发者个人模式,能为做开源创新的人群提供重要的服务。

在组织模式之上,打造了一个一体两翼的开源创新模式,在探索以联盟为主体的模式下构建开源社区。希望以云脑基础加上开放平台为主体,两翼打造以技术专家为主体的技术工作组和以企业为主体的应用推进组,中间形成标准和开源双驱动的模式,在各行各业的应用当中提炼标准,并通过开源形成对于标准的参考以及未来生态建设的入口,所以我们在技术工作组中专门成立了开源工作组,希望以产业联盟的形式,打造一个开源社区的组织模式。

我们建立了启智社区的完整治理模式,从社区的纲领、组织架构、章程、会员办法到知识产权的管理,形成一个完整的体系。

这是社区在2019年7月基于这些项目打造的上层的软件体系。从2019年开始,我们只有少数的几个项目,除了底层的硬件基础设施之外,还包括智能集群的运行环境,主要是做集群管理和任务调度以及相应的软件开发云。

2020年3月,在形成了十几个项目为主体的过程中,包含了更多的计算框架,比如Brain++天元旷视的计算框架,以及针对于AVS的编解码的计算框架,底层也出现了像开源芯片指令集架构的Openl海藻项目。

2021年11月,已经形成了近三十个项目的体系,垂直方向有更多项目,上层也出现了类似脉冲神经网络、下一代神经网络的计算模式开源项目,以及开源模型库,像京东贡献的开源供应链相关的项目。

2022年7月,我们又多了跨平台的开发框架,比如底层出现了安全的环境,对抗机器学习的类似ARES的项目,以及像TCL贡献的工业视觉的计算框架。在上层又出现了盘古、悟道这样的开源大模型,对于开源模型支持的并行训练的类似OpenBMB的具体支撑工具和模型转换的相关工具,以及端边云布局的工具,总共加起来有34个开源项目进入到孵化轨道,基本完成了国家对于新一代人工智能的技术体系扩展。

人工智能开源贡献

在运营方面,社区希望能打造以会员单位为基础来发展生态的能力,现在有一个整体运营中心,希望以后在全国各地构建各种各样的区域中心,形成对全国的生态支持能力。

在激励方面,我们也发起了一个启梦行动开源激励计划,三年能提供不少于一千万的奖励资金。通过定性、定量、中奖和普惠相结合的方式激励在人工智能方面培育生态。最终目的是希望能在社区形成长效稳定的运转机制

从2018年筹划到2019年开张,我们举办了很多活动。比如启智集结号从2020年底开始策划,到今年3月正式运行,总共五期相关活动。从22个高校近千名开发者当中发现了150余名优秀的开发者,这些开发者通过线上线下相结合的模式参与。例如首期活动是在鹏城实验室线下举行的,我们精选了30位优秀开发者到实验室进行集中,为期28天的攻关完成了28个模型交付,能入库华为昇思官方模型库。在五期活动中,总共产生了160个优秀的AI模型迁移和开发,完全移植在鹏城云脑平台之上,以计算框架为主体进入到官方验收库中,去年年底占了昇思官方模型库的60%以上,其中有130多个都是中高难度的模型。

还有是现在正在开展的,今年5-6月正式上线的日常激励计划,在开源社区举办了一系列活动,比如为开源打榜,发现开源Bug,提出好的功能建议,甚至对别人的评论给出有价值的回复等等,我们都会记录下来,并且计入日常活跃程度。

在为期一个月的活动中,整个社区平均每周活跃人数达到了上万人,连续四周入选上榜人数达到了692人,其中有70%是来自高校的学生,所以我们认为在教育行业也形成了非常好的影响力。

和企业的联合中,比如TCL的工业视觉质检模型、依瞳的集群管理等。启智社区为依瞳提供了非常好的实验环境,在合作过程中我们也积累了各种各样的应用场景和服务模式。希望为我国的AI生态繁荣贡献自己的力量。

从整个社区的影响力来看,如果2019年去搜Openl启智,可能只有17个结果,2020年已经达到10万个结果。2021年底时,已经有320万的相关搜索结果。定期的活动视频也得到了很好的宣传,部分视频已经达到了上万人的观看。

有幸的是,去年我们在科创中国榜单上,入选了优秀开源机构、优秀开源社区,在行业乃至整个中国开源行业当中,形成了一定的影响力。

最后,我希望跟大家分享一句话:“小德川流,大德敦化,此天地之所以为大也。”开源一定是这样的大德力量,通过不断地去传播开源力量,从一开始参与国际项目,到慢慢主导国际项目,再创立开源创新项目,吸引更多的人参与以及构筑开源平台,开启探索各种各样的开源治理模式,形成未来生态的长效运营,我们相信这一天一定会到来,并且也愿意为此贡献我们自己的力量。

谢谢大家。

点击2022(第十七届)开源中国开源世界高峰论坛-CSDN直播,查看更多精彩演讲内容!

猜你喜欢

转载自blog.csdn.net/csdnopensource/article/details/125933958