《商业数据分析》读书笔记(一)

前言

1.介绍:数据分析思考

数据机会的普遍存在

案例:法国飓风

案例:预测客户流失

数据科学,工程,和数据驱动决策制定

数据处理和“大数据”

从大数据1.0到大数据2.0

作为战略资产的数据和数据科学能力

数据分析思考

这本书

数据挖掘和数据科学,再访

化学不是关于试管的:数据科学VS数据科学家的工作

总结

前言

这本书适合:

与数据科学家共事的商务人士,主导数据科学导向的项目和数据科学相关的风投人士。

试图用数据科学解决商务问题的开发者

有抱负的数据科学家

这本书重点在于介绍商务数据科学背后的原则,而非算法细节。

读者不需要深厚的数学素养,但是内容依旧具有技术性。因为它不是一个全局概览性的树。

这本书横跨展望问题,到应用数据科学技巧,到部署结果提升决策制定水平的整个过程。

概念适合三大类:

1.关于数据科学如何植入到组织中的概念,包括吸引,构建,培养数据科学团队;数据科学如何转化为竞争优势的方法;与数据科学团队相处的战术概念

2.数据分析思维的大体方法。帮助人识别合适的数据和考虑合适的方法。概念包括数据挖掘过程以及不同复杂度的数据挖掘任务

3.真正从数据中挖掘知识的整体概念。

这本书不光被本系的MBA喜欢,其他理工学生也喜欢。还被其他几个学校作为教材。

第一章 介绍:数据分析思考

要有大大的梦想,小梦想不能驱动人心——歌德

过去十五年在商务基础设施方面有了广阔的投资,这改善了在企业各方面手机数据的能力实质上商业的各个方面现在都对数据收集敞开大门而且经常甚至配备了数据收集装备:运营,制造,供应链管理,消费者行为,营销表现,工作流程等等。与此同时,信息正在诸如市场趋向,行业新闻,和竞争者运动方面有更广泛的可用性。这种对数据广泛的可用性让人对从信息中抽取有用信息的理论更感兴趣,那就是——数据科学领域。

**

商业的各个层级都有数据,而且可用性日趋增大,数据科学就是从数据中抽取有用信息。

**

数据机会普遍存在

随着大量数据可用,几乎各行各业的公司都在应用数据提高竞争优势。过去,公司会雇佣统计学家,建模师和分析师手动探索数据集,但是数据的体量和多样性已经远远手动分析的能力。同时,计算机已经更强大,网络无处不在,可以连接数据集和更广更深分析的算法已经开发出来。种种现象的汇聚让数据科学原则和数据挖掘技术的商业应用大大扩展。

营销领域现主要用于目标营销,线上广告,交叉销售推广。客户关系管理,管理消耗和最大化期望客户价值。

金融领域用于信用评分和交易

运营领域欺诈侦测和劳工管理

主要零售商沃尔玛和亚马逊在从营销到供应链管理方方面面应用数据科学。

本书首要目标是帮助你从数据角度看待商业问题和理解从数据中抽取有用信息的基本原则。当然,这并不是说,阅读这本书以后就会拥有商务或数据科学意识,师傅领进门,修行在个人。

两个例子

法国飓风

沃尔玛首席信息官在飓风来临前一个星期通过历史数据分析在接下来一周的货物需求量,来管理库存。挖掘出什么信息?不仅是显而易见的瓶装水会大卖,而且草莓和啤酒也会大卖。如果不进行数据挖掘,就得不到这个信息,到时候会断货。导致销售损失。

**

商业数据分析,目标是解决商务问题。卖更多东西。

对于任何人,处在任何位置,都需要做决策,决策背后能否用数据支持呢?

**

预测客户流失

这些数据分析表现如何?考虑第二个,一个更典型的商业行动方案,如何通过数据视角看待它。这个问题会作为一个动态例子来阐明这本书提出的主要问题并且提供一个参考通用模型。

数据无处不在。

数据科学的核心作用是预测,发现背后的规律,用这种规律来预测将来发生的事情

这就引出来一个问题,我想知道什么,或是别人特别想知道什么,这个东西可不可以被预测。

mege公司面临用户流失问题,假设你就是分析员。

他们打算给客户提供一项激励以保留现有客户,你的任务就是在细节上决定把这些激励给哪些客户(要知道,营销预算有限,保留老客户比吸引新客户更省钱,而且也不能给所有人这项激励,必须充分运用这些预算)

仔细思考你需要什么数据以及如何利用他们?

描述客户的特征向量,包括最终是否流失,带来的利润等等历史数据。

电信和金融领域的客户保留中大量应用数据挖掘

数据科学,工程,和数据驱动决策制定

数据科学在通过(自动)分析理解现象中包括原则,流程和技巧。这本书中,我们将数据科学的根本目标设定为改善决策制定,因为它通常在商业中带来直接利益。

数据驱动决策并不完全依赖于经验和直觉或是抽象的数据分析,而是两者的结合。

数据驱动决策已经被科学家确证了可以显著提高决策水平。

沃尔玛的对手瞄准(TARGET)从历史数据中分析预测谁会怀孕,以便进行精准营销。

从历史数据中带着发现一些有用的东西的希望去挖掘,而非简单测验一个假设。

对于客户管理中的数据科学(以下简称DS)应用,关键目的是保留客户。预测哪些客户会流失,预测每个客户的可能消费是多少,决定要在他身上投入多少。无论是否有DS的参与,营销活动都必须进行,显然,DS让营销更有效了。

同样的逻辑可以应用于许多领域,在直接营销,线上广告,信用评分,金融交易,服务台管理,欺诈侦测,艘多排序,产品推荐等等领域都有DS的大量集中应用。

数据驱动决策(data driving decision making,DDD)支持决策制定,并且商业决策由计算机系统自动制定的情况越来越多。

自动决策在不同行业有不同的应用率。在电信和金融领域内最早被采纳,很大程度上是因为它们较早具备数据网络和大范围计算的应用,这允许他们对大数据聚合和建模以及应用决策咨询模型。

**

自动决策以后就像机器一样越来越被人信赖和依赖,因为人的决策过程,说到底就是数学,既然是数学,就有可能被程序执行。这是比机电设备更高一级别的自动化。

但是人的直觉,人的无意识或是潜意识,也就是现在还无法用逻辑解释的创造灵感,目前来看还无法用算法代替。

因此,自我实现,在算法时代,更凸显了重要性。不能把人当做工具。应该把人当做具有创造性和主观能动性的人。不要试图完全掌控别人,要给予别人充分的自主性。企业不是军队。

**

上世纪90年代金融电信行业就部署了大数据决策系统。接着是零售业,然后是网络营销,如亚马逊和网飞,因为越来越多的人在网上消费,这要求系统有作出瞬间线上商业决策的能力。

数据科学的核心在于发现规律和预测。

基础设施铺设——》数据科学的个性化应用

信息社会,数据越来越多,数据科学能力成为战略能力。

培养数据科学思维:从数据分析的角度看待问题。

这是在只觉得基础上,增加这一种能力,能让人成为更为完善,更为整合的人。

注意:也千万不要忽视直觉力,这是我们作为人最珍贵的能力。

数据科学对我来说是一种有力的工具。它可以用来解决我关心的问题。


 

直觉,是走向和谐完满的唯一途径。

自我实现,是我唯一神圣使命。

大数据的个性化应用,是现在的主流。


 

数据处理和大数据

有必要离题一下。数据处理不是DS,数据工程(DE)和数据处理(DP)对支持DS很重要,但是他们更广泛。DS需要DE/DP出来的数据,但他们不是DS本身。DS是从数据中抽取知识,实现DDD。

热门的Hadoop /HBase/MongoDB都是属于数据处理和数据工程领域。

DS的本质,是从数据中获取知识。

从大数据1.0到大数据2.0

作者将数据科技类比成互联网科技。当你有了基本的通讯网络之后,你会想干更多的事情。

你就从web1.0跨越到了为web2.0,当你有了更多的数据之后,你就会对数据有更多思考,考虑现在能不能做以前从未做过的事情,或者能不能比以前做得更好?这就开始了跨越。

亚马逊在网络和数据技术应用方面都走在了最前线。

意思就是有了更深入或是更细分的应用?

数据和数据科技能力作为一种战略资产

持有这种观点,可以让决策者进行清楚明确的思考。注重在这方面的投资。

数据和数据科学能力缺一不可。建造拔尖的数据科学团队不是平凡的事业,但是可以在决策领域产生巨大的改变。

西奈银行是一个经典案例。上世纪80年代数据科技给它带来巨变。给失约概率建模将这个行业从个人失信可能性评估改变到战略性的大规模评估,这随之带来了大量的经济效益。虽然现在看起来很奇怪,但是在那是,信用卡有同样定价,因为:1)公司没有足够的信息系统处理大规模不同定价, 2)银行管理层认为顾客不接受区别定价

**

真让我有些吃惊,也有些受到启发。现在存在的东西,只适合它创造的时候,并不适合现在。万事万物都在不断的发展变化着,对待事情就像对待人一样,不能有成见,保持开放的胸怀和头脑。

邓小平和李光耀都具有这种魄力。无论自己犯了多么大的错误,损失了多少东西,一旦自己发现方向错了或走错了路,就会毫不犹豫的

上个世纪八九十年代,银行的信用卡定价系统从统一变革到了个性化!

因为当时没有足够强大的的信息系统对每个客户进行个个性化信用评估,甚至银行认为人们根本不会接受区别定价?!

事情应该怎么做?这是独立理性思考的范畴。而事情的现状是什么样则不一定合理。所谓的变革,就是从发现这种不合理开始。

“存在即合理”是一句没用的废话。这只不过是理论家们为了自圆其说发明的狗屁不通的屁话。目的就是让人们看不懂,想不通。

银行本质上就是借贷。

当然需要考量借贷人的信用?傻子才不这么想!

但是,从技术角度做不到。

现在有许多行业其实也到了启动这项变革的节点。是什么呢?有数据的地方就有知识和预见。有预见能力就可以更好的决策。

这个西奈银行的案例很有趣,值得反复研习。

**

大约1990年,richard faribanks and morris nigel 认为信息技术已经足够强大到计算个性化信用(个性化应用已经成为了一种趋势,正在被实践)。他们跑遍各大银行没有得到高管的支持,最后在一家区域性银行——西奈银行得到了支持。他们要对每个客户的赢利性和失约性进行建模。

开始西奈前了几年的数据筹集过程,导致了可观的损失,但是他们把这些损失看作是对数据科学的投资。因此,在股东抱怨重重的时候坚持下来。

开始信用评级之应用到了银行内客户数据,后来又引入了社会统计数据,更多的数据让交易表现获得了惊人的成长。

亚马逊收集数据,给客户进行个性化推荐让营业额显著增长。

脸书上有海量的个人和他们的喜好数据。但是这些数据能否被充分应用还是个问题。小扎不是接受国会质询了吗?

**

大量的行业应用案例,确实说明了数据和数据科学大有用武之地。

**

作者的观点是数据科技的个性化应用。

这本书

这本书偏重于理念。但也不是不注重技术。技术承载了种种理念。

这本书奉献很多注意力在从大数据中抽取有用的(何为有用?非凡的,能指导实际行动的)模型或模式,或说规律(也就是道)

比如,在客户流失案例中,是发现模式,行为模式,帮助我们预测哪些人不会与我们再续约。

数据分析思维

分析类似客户流失问题的案例提高了我们用数据分析解决问题的能力。推广扩大这种视角是这本书的目的之一。当我们面临一个业务问题时,应该能够评估是否和如何用数据来解决改善这个问题。我们讨论了一系列促进仔细思考的基本概念和原则。我们开发了一个框架让分析成为一个系统。

DDD在商业活动中扮演越来越重要的角色。所以,不管你是否要直接参与到DDD中,都应该对它有所了解,这样才能有能力与其互动,或者发掘它的威胁。

当你的咨询师说要挖掘一个数据集时,你能够进行基本的判断,该不该这么做;

从较小的方面说,一个雇员要能和数据科学团队互动,也需要知道基本的原则和概念。这种不理解对数据团队伤害很大。种种不理解会浪费数据科学团队的时间,甚至作出错误决策。

**

作为一个商业数据科学工作者,就有义务向别人(任何人)解释为什么你做的事情重要。。。它有什么实际作用。数据科学人员必须具有说服力,才能让别人心甘情愿协助工作。

作者提出了一个重要且清晰的观点:从数据中提取有用信息,什么是有用?非凡的——有些东西即使不做数据分析也可以得到,那就不是有用的;可执行的——发现了知识,但是根本与商业问题联系不起来,没法指导商业决策或商业行为,这也叫无用。

**

以下是本书中的基本理念,它们以及更多的理念会在后续章节中详细说明。

基本理念:

从数据中抽取有用知识可以系统的有逻辑的按照定义好的步骤完成。跨行业数据挖掘标准流程,缩写是CRISP-DM(2000年),是这个过程的一个成典。

**

简言之,数据挖掘有章可循。

2015年,IBM发行了新版本。缩写ASUM-DM。

**

基本理念:

信息技术可以发现信息丰富的描述性属性。

拿客户流失案例说,一个客户对应多个属性,如使用,服务历史,和其他。那么哪个属性给我们提供了它要停止续约的信息,提供了多少信息。有时候,这个过程涉及到粗略的找到与“流失”相关的变量。分析师或许会进行一些假设检验,并且还有一些工具帮助我们推进这个实验。或者,分析师可以将信息技术应用到自动发现重要属性——本质上是做大规模自动筛选。更进一步,这个理念可以一再应用到进行多属性模型构建。

**

简言之,自动化特征工程。甚至,自动化模型构建。作者应该是要告诉我们,应该有用程序自动化一些东西这个理念,并且应用这个理念。学会应用自动化工具甚至创造自动化工具。

**

基本理念:

如果你使劲儿审视一个数据集,你会发现一些东西,但会失去泛化能力。过拟合是个重要概念,尤其在实际问题中。它渗透到了数据科学处理,算法和评估的各个部分。

基本理念:

规划数据挖掘解法和评估结果包含仔细思考它将要被应用到的环境。

如果我们的目标是抽取潜在有用知识,我们如何具体定义有用?它关键取决于应用。以流失管理为例,我们如何应用从历史数据中抽取出来的模式?应不应该把客户价值加入到离开可能性的考量中?宽泛一点说,这个模式相对于一些其他选择能带来更好的决策吗?如果随机决策效果怎么样?

**

这个理念是最重要的,就是切合具体商务问题情景。思考DS能不能解决问题。能解决什么问题。又没有更好的其他方式解决问题。。。。这些问题需要我们思考,使劲而思考。

**

化学不是关于试管的:数据科学VS 数据科学家的工作

再继续进行之前,我得在简要说一下数据科学的工程一面。就如同一个化学家一定是一个称职的实验室技师一样,一个数据科学家或数据科学工作者一定是能够应用软件工具的。

说了这一点,这本书关注通用原则与理念。技术发展迅速,但是这些理念过去二十年和未来几十年不会变化太大。

总结

猜你喜欢

转载自blog.csdn.net/zs15321583801/article/details/85991125