星策社区发起人谭中意:用开源方式推进企业智能化转型

“问渠那得清如许,为有源头活水来。”“开源”,就是将源码的源头,注入到网络的创新中,让所有人都能吸收,从而掀起新的浪潮和变革。它的核心,就是集合所有人的智慧,来完善一款软件,从而达到双赢的效果。这和“众筹”在创业过程中是一样的。更确切地说,开源的价值,在于打破资源垄断,也在于提升软件质量,更在于丰富开源文化本身的内涵。

2022 年 7 月 21 日,由中国开源软件推进联盟主办,赛迪传媒、《软件和集成电路》杂志社联合承办,CSDN 独家直播的“第十七届开源中国开源世界高峰论坛”上,星策社区发起人、中国开源软件推进联盟副秘书长谭中意带来了《用开源方式推进企业智能化转型》主题演讲。

“每个企业所处的行业不一样,所面临的竞争对手不一样。自身的情况,包括团队的构成、历史经验、技术能力等等,没有一个方法能照搬给所有的企业。但在企业智能化转型过程中,有很多共同点,比如一些方法、策略、通用的技术等等,可以用开源的方式来一起协作,共享企业化智能化转型中的经验,一起协作把这个事情做得更好。”谭中意如此说道。

此外,他还着重介绍了Open MLDB项目,“主要特性第一是解决机器学习线上线下一致性的问题,第二是具备毫秒级高效的时序数据库查询的功能,第三是高可用”。

以下为谭中意演讲实录:

大家好!首先热烈祝贺第十七届开源中国开源世界高峰论坛顺利举行,本次高峰论坛的主题是“开源创新 数字化转型 智能化重构”,我分享的题目是用开源方式推进企业智能化转型。我是谭中意,是星策开源社区的发起人,同时也是中国开源推进联盟的副秘书长,并且兼任开放原子开源基金会TOC副主席。

   今天我首先介绍开源是一种开放式协作,然后简单介绍一下星策社区包括社区成员、项目和活动,最后欢迎大家的加入。

利用开源共同协作

开源到底是什么?著名的开源活动家Ibrahim博士认为开源是一种开放式协作,他在给星策社区的贺词中说到,开源已经赢了,赢的原因是在一起协作工作被证明是促进创新的更好模式。Ibrahim博士是LF AI & Data基金会执行董事,同时也是星策开源社区的导师之一。

首先我们认为企业智能化转型很难,它已经不是要不要做的问题,而是必须要做而且一定要做好的事情。但怎么做?要做成什么样?是简单地用新的工具和平台吗?比如建数据中台、建AI报表,就可以称为数字化智能转型吗?或者说用一个APP?都不是这样。企业智能化转型涉及到企业战略、组织、产品、技术等全方位的改变,挑战是巨大的,而且经验是不能照搬的

每个企业所处的行业不一样,所面临的竞争对手不一样。自身的情况,包括团队的构成、历史经验、技术能力等等,没有一个方法能照搬给所有企业。但在企业智能化转型过程中,有很多共同点,比如一些方法、策略、通用的技术等等。我们看到这种情况,可以用开源的方式来一起协作,共享我们在企业化智能化转型中的经验,一起协作把这个事情做得更好,因此星策社区应运而生。

星策开源社区

星策开源社区是聚焦于企业智能化转型,由企事业单位、高等院校、科研单位、非营利性组织按照资源、平等、开源、协作基础上组成的非盈利性开源社区。社区成员共享共建企业智能方法论、优秀案例及支撑企业智能转型的开源技术;同时社区提供经验丰富的转型导师,不定期举行面向行业的智能化转型活动和聚焦企业智能化转型领域的技术活动等等。

社区单位目前星策开源社区总共有九家单位,分别是中国开源软件推进联盟、中国信通院、LF AI&DATA基金会、腾讯、微众银行、中兴通信、蒙牛集团、中国工商银行、第四范式。

星策社区目前有三位经验丰富的导师,第一位是Ibrahim博士,他是LF AI&DATA基金会执行董事,在开源领域以及AI领域都有相当多的经验。第二位是第四范式联合创始人、首席架构师胡时伟先生,胡先生在企业数字化转型、数字化战略顶层设计,以及大规模机器人领域拥有丰富的经验,他主持过全球知名银行、国际连锁餐饮集团等企业的数字化转型,他也是APEC数字经济委员会委员。最后一位就是我本人,曾在百度、腾讯有多年的平台化和开源的治理经验。

Open MLDB

下面简单介绍一下社区的开源项目。目前社区开源项目有三个。

第一个是Open MLDB,它是开源积极学习数据库,面向机器学习应用提供丰富、高效的数据。

第二个是DSS,是微众银行自研的一个易于使用的BI应用开发工具。

第三个项目是Adlik,是由中兴通讯研发的运行机器学习模型的工具,可以让模型高效地运行在多种部署环境下。

这三个开源项目目前是星策社区的主打开源项目,我们相信随着星策社区的运作,可以不断有新的项目加入。

由于时间关系,我简单介绍一下其中的一个项目——Open MLDB。它是一个开源的为机器学习设计和优化的特征平台,采用Apache V2的开源许可证,最早是基于第四范式的内部产品,这个内部产品已经在上百家客户那里成功落地并每天都在线上运行,2021年6月正式开源。主要特性第一是解决机器学习线上线下一致性的问题,第二是具备毫秒级高效的时序数据库查询的功能,第三是高可用更多特性,就不一一列举了。

我们先来看看线上线下一致性到底是什么问题。这是一个传统的机器学习的流程,首先我们的数据科学家在笔记本上进行工作,会使用Python、Spark SQL从海量数据里进行抽取,然后进行特征转换,最后构建出一个能够达到产品目标的模型出来。

获取目标之后交给线下的大规模集群进行训练模型,模型训练出来之后,开始由工程化的团队把它部署到线上。部署过程中不仅仅需要把训练过的模型部署上线,也同时需要把训练所使用的特征接上去,这时候它往往会使用传统的DataBase,之后用高效的开发语言,比如C++,进行特征抽取,来提供实时的特征,当用户请求进来时,可以结合模型、数据,提供准确的线上预估服务,从而实现AI模型的功能,比如用在封控领域、推荐领域、绿色场景。

现在的特征提取是数据科学家用Python、Spark SQL等方式来完成的,而同样的逻辑,工程化团队要用C++语言实现,两者要求逻辑要完全一致,否则容易出现数据不一致的问题。这个过程我们称为计算逻辑的一致校验。这个过程非常耗时,有科学家曾预估,训练一个模型可能只花三天,但上线这个模型花了半年还没完成,很多时间都花在了线上线下一致性校验过程中。

Open MLDB是怎么解决的?它把这个事情用非常巧妙的方式来解决,首先离线的数据,我们在做训练的时候,通过Spark和SQL进行训练,同时这两个所用的语句支持同时上线,可以用内置的引擎把它部署到线上,这样开发即上线,可以做到三步走:工程师先在线下通过SQL脚本进行开发,来完成模型训练;训练完之后用同样的SQL一键部署实现上线;上线之后实际的业务以及使用特征所需要的服务都是可以调用到接口,实际接入实时的请求数据流。对工程师来说,不需要再进行线上线下一次性校验的工作,因为我们通过提供一个统一的简单SQL脚本,让它来完成工作,而底层我们通过一个批处理SQL引擎和实时的SQL引擎,来自动完成线上线下一致性的工作。

利用统一的简单接口SQL,非常优雅地解决了线上线下一致性的问题这就是Open MLDB最主要的特性,有了这个特性之后,开发AI应用就变得简单,而且耗时也非常少。

星策开源社区也在举办一系列的活动,比如我们举办了国内首届DataOps+MLOps Meetup,也组织了国内首届DevDps+MLDps Meetup,还在不断举行Feature Store Meetup,目前已经举办过三次,另外我们也举办过一次企业智能化转型的Meetup。

在接下来的日子里,我们会持续不断丰富企业智能化转型的案例,举办企业转型的交流活动,计划年底举办一次社区年度峰会,同时在技术上我们会持续跟进MLOps技术赛道和BI+AI的开源技术,可能会出版一本MLOps的书籍。

星策社区的口号是一起开始,一起闪耀

希望更多的朋友能一起加入到这个社区中来,为中国企业智能化转型而共同协作。

谢谢大家。

点击2022(第十七届)开源中国开源世界高峰论坛-CSDN直播,查看更多精彩演讲内容!

猜你喜欢

转载自blog.csdn.net/csdnopensource/article/details/125921405