什么才是顶级数据团队?我们采访了领英、滴滴等6位数据团队负责人找答案

大数据文摘出品

随着大数据的范畴被逐渐拓宽,也有越来越多的从业者加入了数据团队,其建设对于企业来说也更具挑战。

为了解答这些疑惑,清华大学大数据研究中心联合大数据文摘,发起了一次深度调研,我们在过去的两个多月里,走访了来自全球不同行业的6家顶级数据团队,并且跟他们的负责人深入聊了聊“数据团队”这个话题

6位顶级数据团队负责人分别是(按照走访顺序):

本次访谈涵盖了国内外不同行业及发展阶段的公司或组织,力求从尽量多的角度还原现阶段数据团队的建设全景。

研究内容目前已经汇总入了一份《顶级数据团队建设全景报告》,如果你还没来得及看,那么今天,文摘菌就用这篇文章带大家回顾一下,他们是如何定义和建设自己的数据团队的。

以下为报告中对6位数据团队负责人深度访谈的精华内容。

滴滴:数据体系团队四大模块,助力业务可持续发展

据滴滴技术副总裁、数据科学与智能部负责人赖春波介绍道,滴滴的数据体系分为四大模块,大数据架构、数据平台、数据治理、数据科学。在职位划分中,下面三大模块多为工程师、产品经理、数据开发工程师,数据科学分为数据分析师和数据科学家,他们数量最多,以“嵌入式”的方式,分布在不同的业务部门中。其中,数据科学团队,需要在业务形态中实现广泛的运营智能、产品智能和决策智能,助力业务可持续发展。

赖春波介绍,由于滴滴有网约车、车主服务、两轮车、代驾、出租车等多个业务群,滴滴的数据科学家也就很自然地分散在不同的业务部门里。为了能更全面准确赋能业务,滴滴组建了数据科学委员会,增强跨业务数据科学家间的交流和协作,同时对复杂问题进行决策,迭代数据体系建设。

滴滴的数据科学委员会成员占比最多的是数据分析师,他们每季度开会一次,主要针对公司的规划服务和长期定位等进行商讨。

而这些例行会议并不只是技术交流。毕竟除了技术能力和批判性思考的能力外,一个好的数据分析师还需要足够的商业能力、战略视野、影响力、领导力和同理心等素养,每次会议也不可避免地涉及到相关领域的讨论。

“分析师需要把自己脑袋的东西放到别人脑袋,是靠嘴吃饭的。”赖春波笑称。

不过要想真正提升产品、运营和决策的智能化,只靠一张嘴是远远不够的。赖春波介绍,数据科学团队每周会产出四五十份的专题分析研究和每周几千次的实验和评估,这些都随时可能影响到公司决策。前者会呈金字塔式排列,最顶端的体系化和方向性研究是真正实现辅助战略的决策智能,投入的精力也更多;后者主要针对业务或产品的方案进行评估,相对更加自动化和流程化。

领英:三大KPI指标,量化数据团队工作

 

领英全球数据科学团队负责人许亚表示,两年前她接手领英数据团队后做的第一件事就是拟定了团队成功的三要素。虽然数据团队的价值有时候很难量化,但是有三个指标可以作为探讨的基础。在数据团队内部不同组可能会有不同的侧重,但对大部分组来说这三个因素都很重要。

  

数据易得性和工作效率

数据易得性,指的是当外界需要数据的时候,获得这些数据的难易程度;工作效率,指的是一个人的工作是否可以提升整个团队的工作效率。

许亚表示,数据科学家之前被人诟病过于追求新鲜感,喜欢挑战高难度问题,但做完MVP (Minimum Viable Product) 后没有维护迭代的习惯,永远都在追逐下一个新难题。数据团队拥有许多数据资源,比如原始数据,指标数据,数据模型,数据可视化。

当外界对这些资源有需要的时候,如何能够保证这些需求能够随时被满足?软件开发有一系列衡量数据获取难易程度的指标,比如SLA(Service-Level Agreement)的达标率就是一个很好的量化指标。

有些数据科学家做了一个很不错的分析,但是不太关心怎么把这个分析过程自动化,所以每次有人提需求的时候就需要有人再手动跑一次模型,其实都是重复劳动,不同的人在做相同的重复劳动。如果这个分析实现了自动化,大家都可以享用,其他人就不需要花太多时间精力在这个模型上,整个数据科学团队的集体工作效率都提高了。

以前许亚的团队也缺少这种分析自动化产品化的意识,所以她把这个设置为成功三要素之一,强调这种意识的重要性。

战略化思维

战略化思维,指的是数据分析结果对公司重要战略性决策是否有指导作用。

许亚的数据团队和公司很多高层会打交道,因为他们团队有一个很重要的职责就是通过数据来确保公司重要决策的大方向是准确的。比如他们需要了解用户在疫情期间是如何使用领英服务,如何通过领英的产品获取价值的。

许亚认为在疫情后,用户的行为多少会发生一些不可逆转的改变,数据可以帮助团队更好地去学习用户行为变化,从而在战略上指引公司对哪些领域进行重点投资。不管是产品开发还是市场战略的决定,都需要依靠数据。

直接商业影响力

直接商业影响力 (Direct Business Impact),指的是工作成果对公司商业目标的直接影响力。

每个部门的工作开展是和公司要实现的大目标息息相关的,领英有公司层面的四个核心指标,数据部门在计划工作的时候,需要考虑如何对公司的商业目标产生积极影响。

腾讯安全:“要做好内部建设,也要走出去”,安全团队建设的三个阶段

腾讯安全副总裁黎巍表示,腾讯自身的安全建设,在二十年的历程中,经历了三个阶段。

第一个阶段是启蒙阶段,成立初期的腾讯和其他公司一样,安全建设以防御和对抗黑客入侵为主。

当然,要建立自己的安全团队不是那么简单的事,制定安全规范、构建安全体系,这些都是必要的。随着后期腾讯业务不断扩展,团队发现很多安全问题具有共性,如果只是一味被动应对,不仅会陷入“持久战”,团队也很容易进入疲态。

所以10年前,腾讯安全开始主动做一些安全的运营和建设,也正是这个时期安全团队的建设进入了第二个阶段,即把安全体系化和产品化,进行主动地运营。这个阶段,安全团队就总体目标达成一致——保证核心资产数据不会被窃取和丢失。这也是二十多年的发展中腾讯安全一直在践行的理念。

第三个阶段,腾讯自身的安全生态已经做得比较系统了,但是放眼国内,还有不少企业在安全方面处于非常原始的阶段,这就触发了腾讯安全想要走出去,把20多年的安全经验和能力资源输出到整个产业中,帮助产业数字化转型。

黎巍坦言道,腾讯安全希望未来不只是为企业提供产品或解决方案,还能够为企业转型打造合适的安全战略观,更多维度的能帮助企业解决安全问题

联想:内外部数据治理结合,优化数据平台结构

 

和很多业务部门较多的集团型企业一样,业务规模庞大的联想也面临着数据分散在不同的业务系统中,难以整合的痛点。数据团队建设在初具规模之后的最重要任务,就是建立起一个更完善的企业级数据分析平台,把这些内部分散的数据以集中的方式进行整合管理并科学地利用起来。

联想注重业务与数据团队的紧密结合,内部的数据团队与不同业务部门分工合作。因此从2016年开始,联想就开始把联想几十年信息化中的大小数据系统整合起来,形成企业整体数据湖,并构建统一的数据模型。

联想数据智能业务集团产品及生态总经理田日辉给我们举了个销量预测的例子,说明联想数据智能团队内部是如何使用内部流程化工具为业务部门提供辅助的。

联想生产销售各种复杂的设备,因此销量预测是多层次的,总销量预测会分不同地区和不同产品线。在不断发展中,数据团队把预测模型放到平台上,通过几轮配型后,进行模型积累。平台本身提供很多分析和算法工具,使业务人员运用不同的数据级,使用自动化机器学习工具测试不同的算法,并给出最优结果,同时根据业务实践来判断哪个参数和配置最符合要求。

由于相关数据表极其庞大,可能会存在一些数据冲突,因此公司级大平台可以进行统一数据治理,让所有人的分析工作达到比较好的效果。

对于外部行业客户,联想内部的数据科学家在专业知识理解方面相对薄弱。在进入行业初期,团队与客户的行业专家一起做项目,客户对企业的数据积累情况与行业的机理模型更清楚,而团队对数据与算法比较清楚。渐渐,客户本身会具备数据使用能力,团队也会积累一些所谓的行业专家,进而把应用模型带给其他客户。由于很多案例和应用框架可以复用,团队也一直在尝试加强对行业的理解,建立一些行业专家人才队伍。

因此,田日辉对于意向进入数据科学领域的高校学生,也提出了一些行业知识的期待。

“掌握新技术有较好的基础,且自学能力与使用能力强。但是应该更多理解企业的运营模式,业务需求和机理模型,多参加一些真正与实战相结合的活动,或到企业里面参与一些实际的工作与项目。

中国移动:20年建设经验,数据团队建设“划重点”

 

中国移动的经营分析系统建设从2002年开始,技术上采用数据仓库。当时大数据这个概念还没有出现,考虑到初期投资成本较大,国内数据仓库系统的建设主要是电信运营商、银行、保险公司这些百强企业。2007年中国移动研究院首先开始跟进Hadoop的研究,2009年,中国移动开始在省级系统上热火朝天的开始新兴MPP技术、Hadoop技术的试点和大数据平台建设。

中国移动在2015年明确了大数据建设的组织机构,大规模推进集中化大数据平台的建设,并推进自研BC-Hadoop在现网的落地应用。2017年开始,集中化大数据平台开始小规模的推广大数据PaaS开放模式。这个开放平台被命名为“梧桐”平台,意在“梧桐花开,凤凰自来”,提供储算资源、大数据处理工具、全网汇聚数据和安全管理能力,向内部各单位开放赋能。

平台搭建好之后,数据团队需要进一步考虑的就是如何衡量大数据的价值。中国移动信息技术中心大数据平台部副总经理尚晶表示,这个问题是从经分时期就一直在被问的问题,但或许到现在也仍没有一个完美的答案,目前主要有以下几个考量角度:

1. 渗透行业领域的广度考核,比如金融行业、零售行业、交通行业、旅游行业、公共安全行业等行业,形成了哪些赋能应用。

2. 带来的经济价值或者间接经济价值,例如由于采用大数据,同等营销资源投入下,营销成功率的提升,大数据分析发现的收入漏损,大数据直接产生的政企行业合作收入。较难计算的是间接经济价值和拓展行业的机会成本,例如企业专线销售与打包的大数据服务,收入占比较难衡量。又如基于大数据分析,面向市场设计的产品,多少价值应该计入大数据带来。

尚晶也给我们举了个例子。普通的营销方案成功率可能就在1%,在流量市场这个比例甚至更低,但无论营销成功与否,营销成本还是需要花费的,比如外呼人员成本、短信端口信息成本、优惠券成本,这些都是成本消耗。如果采用大数据分析,可以得到一些更精准的目标群体,根据这些有针对性的有效目标群体做营销,成功率就会从1%上升到5%,提升了5倍,同等成本获取了更多的营收。公司给的营销费用要和成本费用一样,需要和收入一起纳入考核。

  

美团:四大发展阶段,数据团队承担着不同的角色

 

作为一家非常重业务的公司,美团业务经营核心诉求包括战略决策、经营策略、运营策略(从人工运营到机器运营),而这些都离不开数据的支撑。

但是,随着信息技术的发展和普及,产生数据的信息源越来越多,获得洞察所需要的信息也越加丰富,但是这些错综复杂甚至是无序不规范设计的信息系统的数据是不一致的、分散的,所以就需要有一个非常重要角色把这些数据进行重新的清洗、整合,形成统一商业视角下的数据“模型”。

访谈过程中,美团数据平台负责人李闻也从“互联网业务”整个生命周期的视角解读了数据和的价值和数据团队在这一周期过程中的发展阶段:

1.初创期:这是业务从无到有的阶段。此时企业经营的重点是找到让人信服的商业模式。对研发的诉求主要是后台和前端,让面向用户的产品能够运转起来。此时公司对数据的诉求主要是一些基础指标的表现,用以判断商业模式的合理性,往往让了解数据产生机制的后台和前端同学承担数据统计工作就可以了。当然,在基础比较好的团队里,可以通过敏捷的统计工具直接连接数据源,写SQL统计数据并做基本的数据展现。基础类的数据指标工具比如美团的“魔数”在此时发挥的作用最大,属于一个基础设施。

2.成长期:在这个阶段,商业模式已经被证明是可行的,进入扩张规模抢占市场阶段。业务规模快速膨胀,此时的数据量也随之大量增加,需求也在不断迭代。既要保障现有任务的稳定性,还要快速支持蜂拥而至的需求,需要打好数据基础,做好需求管理。该阶段是对数据技术压力最大的阶段,更多是如何高效应对需求且保障现有任务的稳定性和数据的准确性。

3.成熟期:在保障规模下追求“毛利”为正。此时,企业经营的基本思路已经成型,需要系统建设指标体系,利用数据科学严谨的指导经营,并利用用户画像等技术更精细地理解用户从而精准营销,提高运营ROI。此时需要做好数据的治理以及内容的体系化管理。比如美团数据中台就是在这个阶段演化出来的。

4.持续发展期:这属于通过数据来扩大利润的阶段,企业需要结合对业务的深刻理解和行业的发展趋势,采集和整合更多元的数据内容,结合本业务特点,发现高价值用户、挖掘更多商业机会、输出更多增值服务,丰富业务的利润结构。此时,还需要更深刻的理解用户,理解数据,通过数据产生更多洞察,提高经营效率。数据开发领域的终极发展目标,应该是懂数据开发(集成)技术,懂产品的业务逻辑,懂商业,懂分析,懂经营策略,懂运营策略,同时还能推动各相关角色配合行动的综合性人才。数据源越复杂,为保障交付数据的准确性,挑战就越大,数据开发的核心价值就越大。

没看够?点击阅读原文/扫描下方二维码可下载报告获取更多数据团队洞察。

最后,为了答谢每一位填写问卷的朋友,报告“完整高清版”将于2020年8月4日24:00前,通过问卷中填写的邮件免费发给所有问卷参与者。

猜你喜欢

转载自blog.csdn.net/BigDataDigest/article/details/107711721
今日推荐