重读《决战大数据》有感

满大街都能听到大数据, big data 的言论,去问问这些谈论的人,什么是大数据,能用来做什么,十有八九的回答,都会说这些数据量大,所以才叫大数据。
不仅仅是行业外的业余人员这么看大数据,业内专业IT人员,都这么叫,包括知名的招聘网站,所以看到这类招聘,直接忽略,不专业!
你知道“大数据”怎么备份吗,知道“大数据”怎么采集吗,知道模型为什么这么用呢?
不知道,你还一口一个大数据!连养数据的概念和意识都没有,扯什么大数据?

现实情况是,采集数据的人只负责采集,不问下游即数据应用怎么玩的;
应用数据做计算的人,只负责处理模型,反复验证模型的可用性和可靠性,不管上游数据怎么采集来的,有多少做了预处理,预处理方案是什么,脏数据怎么洗掉的?
上游采集系统的渠道,质量和全面性都直接决定了下游模型结果的质量,毫不犹豫的会影响最终决策的制定。

上游数据采集不全面,导致下游模型该用的特征没有历史数据做铺垫,数到用时方恨少!这就是采集方案的不到位。
试问,一个 ETL 怎么可能知道哪些数据要抽呢,还不是跟着模型的需求来?
而做模型的人,是否能一开始就想明白数据采集的覆盖面有多广,要多深?大多数是做不到的。
随着业务的深入,需要采集的数据量不仅增大,数据维度也变宽,建模人员也就不能一开始就面面俱到,规定哪些数据要采了。

一个转变,从数据化运营到运营数据,即从用数据到养数据的转变。

余晟对《决战大数据》的评论,有对原文的陈述,即引用原文的例子和概念,大量夹杂的是自己对大数据行业的理解和扩展。能从书中见到书外,功底深厚,学识不仅丰富,写作角度更显得引人入胜。
如果能对书中的概念,提出自己的看法,那是最好不过的。每一个认真看书的人,都会针对特别难懂的地方,提出自己的理解,以求别人来解惑,或者认证,认同。而这一点,余晟是没有写到的。可能他的领悟已经超出我对本书的理解范围了

如果你对业务不理解,不能很好的提出精准解决问题的问题,甚至当前面临的困境都不能准确描述出来,那么思考是懒惰的,是无效的。
在数据时代,用数据化思考问题,是一门崭新的领域。很多解决方案都是在问题里。你要做的就是用数据来填充和回答这些问题
而往往大多数的人,都还只在寻找答案的过程中。因为到达顶峰那一路上的问题,都需要你自己去回答! 有时候你可能连问都懒得问自己!

数据对于企业和用户来说,意味着什么?
企业价值就是利益最大化,在奉数据为瑰宝的电商平台,企业价值就是点击购买率。
用户价值就是提高用户体验,让用户买到自己急需的产品或者服务。

有时候企业价值与用户价值是有强烈冲突的。企业追求的利润最大化理念,会引导用户购买产品,推荐系统就是干这事的,而忽略了用户的意愿。
很多人在网络上逗着逗着,就迷失了自我,对于电商推荐的产品,碰到新奇事物就会下单购买,比如我,看到有趣的书,就照单收了。
你说这些书对我有什么急需的功效吗,好像有也好像没有,但是买来储存着以后看,说不定哪天还绝版了呢。
既扩展了用户价值,还提高了企业价值。
大数据的本质,就是用来分析用户,还原真实的屏幕数字背后的逻辑。
不用“大”来形容,数据的本质就是洞悉用户,与大小无关。

cookies是一个既好与坏的东西,他能帮我们省去重复填写个人资料的流程,但也容易被不法分子窃取个人资料,导致滥用。
扫描一遍cookies就获知了用户的基本信息,非常低成本的手段。
衍生一点,如果不懂计算机技术,怎么知道获取用户信息的手段呢?作为运营人员,怎么知道还有cookies这么好用的技术手段来帮他们实现用户鉴别的功能
这就是人在企业活动中,不知不觉形成的断层。如果不去摸索,不去跨专业的研究,人最终被固化在一个领域中,突破不了专业的壁垒,打通不了上下链的耦合,看不到业务链上的全景色,颇为遗憾!

而大数据的目的就是为了能够让人打通这一系列的业务关节,使得链条通畅,最终还原用户的真实需求。
还原用户的真实需求,关键一点是甄别当前用户的唯一性,即识别同一个人的使用场景。这是比较难的一部分。
现在的通信手段非常发达,有手机,pad, pc甚至 Mac.
我们如何确保收集到的数据能够按人汇总呢,即一个人的行为数据,不论他是使用如何方式在使用网络,都能被准确归总到一起,而不和其他网络用户混淆?
在IoT(Internet of Things) 万物联网的时代,每个设备公司都捏着一部分的用户数据,在这一点数据中找生存,异常艰难。
这里的每个设备公司,掌握的仅仅是“碎片化的个人”而已,窥探不到整个人。
将来的数据,必定是公司与公司之间共享,或者“一桶化”包办,比如支付宝,微信。

回归到企业价值上来,对企业价值负责的还是人,首领是CEO。那么CEO最关心哪些数据呢?
我们是技术人员,怎么能想明白CEO关心的是什么,不在其位不谋其政。
问题就在这里,你是当上CEO了之后,才有了CEO应该有的本事,还是在当之前就已经有了CEO的能力?

还是那句话,通往巅峰之路上的问题,每一个都算数,都需要我们自己去想明白,并解决掉!

作为一个数据分析师,顶级的数据分析师,需要向最高领导 CEO 汇报的数据师,你会交上一份什么样的商业分析报告?
如果你对当前企业面临的问题不是很敏感,对 CEO 的困惑担忧,不是特别重视,你的商业报告有什么用?

如果我们不是数据分析师,而是数据系统架构师,那么同样,面临 CTO 的例会,我们同样也要交上一份合理的分析报告。
只不过架构师,面临的问题不再纯粹是业务问题,还需要重点突出对业务所在系统架构的瓶颈做出分析判断,并提供解决措施。
若平时不对系统的瓶颈做关注与分析,不敏感数据对于用户的体验,这份报告也难以做的令人满意。

《决战大数据》这本书,理论上看起来都很完美,但是如果不能用现实的案例来验证,这本书就是一本“别人的书”。因为书里的思想,有可能是过期的,有可能是别人编撰的,成为不了你的思想。每个人的思想都是独一无二的,哪怕是“乌合之众”的一员,同样也带有自己的情感诉求,放到陌生的环境,依然有自己处理问题的方法方式。

在《别再死盯着ROI》这篇文章里,车品觉谈到了他当年的一个决定,根据复购率最高的30%的广告关键词进行跟踪,看看跟着这些广告词而来购物的用户,在三个月后,是不是还会再次进行登录并购物。

这个故事背后的实现,完全靠技术。技术人员在此场景中,完全是产品经理的枪,指哪打哪。做的好,都是产品经理的功劳,当然一部分的产品经理都是在背着风险,因为产品经理或者营运做不好,是直接和收入挂钩的,而技术,则永远是在背后做贡献。

技术员有着明确的敌人,就是技术难题;而产品,则有太多的敌人,有时候看不清敌人在哪;有时候明知道敌人就在哪里,却苦思冥想而不得战术要领。两者都是在费脑子,只不过这么看来,技术的脑子费得不如产品那么多,那么强度大。

如果技术要赶上产品或者运营的思路或者能做得更好,当然最好。但是术业有专攻,这样的人凤毛麟角,不是嘛。

《别再做“碰巧游戏》开篇就给了我们一个很好的方向:趋势。
大量的产品经理,高级开发在一个招聘网站开始活跃,说明某一家公司内部出现了一股趋势。抓住这股趋势就能干点事情。所谓的趋势,就是人气。人气往哪里跑,那里就肯定有市场。如果拿不到政府公布的新生婴儿出生率,那么单看网络上6岁以下妈妈群,妈妈团的数量,就能知道是不是围绕着儿童这一主题市场,做点事情。如果每年大量的毕业生找不到工作,失业率上升,是不是可以考虑培训机构。数字背后意味着市场都懂,关键是怎么去分析得到趋势所向。

互联网未来的人才之战,应该在于分析师,即”市场解码员“。而这些”市场解码员“的最终杀手锏应该是一张或者多张”仪表盘“。在大数据工程师眼中最没有技术含量的”仪表盘“,技术简单,实现方便,现成的js库一拉,什么都能给你解决的了。但是”仪表盘“上为什么有这表那表,这图那图,大数据工程师一般都不会去深究的,他们木讷的脸上只有这两个字:”需求“!

《全域大数据》,即数据的上帝视角。每个人的行为数据都掌握在一家公司收下,这家公司不火才奇怪。根据你的消费行为,直接量身打造属于你的消费圈,你所到的每个地方都能满足你的购物,旅游,保险需求,那你的口袋还能扎紧嘛?

而目前的现状是,这些数据都需要流通成本。无论是消费数据,医疗数据的买卖,每个公司得到的都只是片面的生活场景,而且能否鉴定是同一个消费者,都存在技术困难。那么使用成本就更高了。

《数据分类与数据价值》:毫无疑问,数据的价值来自于数据分类与数据融合。数据分类实现是, 提炼精简的前提;数据的融合,是产生价值的必要条件,任何孤立的数据,不利于很好的扩展数据的应用。

细节的实现上,经常会有主数据管理一说。我觉得主数据管理很虚,因为并不是特别量化的行为。我们用主数据,到底用来做什么呢?

得到一些灵感还是来自于这篇文章:
https://blog.csdn.net/bbqk9/article/details/6031944

文中指出元数据与主数据的不同,似乎一下就能帮你明白主数据的范畴。元数据是数据的数据,即定义数据的数据,比如HR系统中的雇员,定义雇员的表或者试图,这些数据库对象就是元数据。而雇员在每个部门的应用软件中,昵称,职位和编号,都会有不同,如何在每个系统中都准确无误的描述这个人,就要用到主数据。一旦某一个系统更改了有关这名雇员的信息,这份更正的雇员信息,需要同步到其他系统里面。

精确的维护主数据是产生数据价值的前提,是定制客户化营销策略的一种保障。主数据也是分类数据的一种,因此维护它具有极高的战略意义。

猜你喜欢

转载自blog.csdn.net/wujiandao/article/details/80468542