《全数据时代的炼金师》读书笔记(一)

读书笔记——《全数据时代的炼金师》顾家峰著 ,1~3章

  • 第一章   大数据的冲击
  • 一   数据的起源于发展
  1. 数据的3条特征
    1. 收集和分析数据是为了解决问题
    2. 调查与统计是基础
    3. 数据分析与挖掘的目的是价值发现

  

  1. 从古至今,数据的核心价值是不变的——最终目标就是要从数据中发现价值,找出事物发展的规律(即说明事物之间的关系)。
  2. 霍尔瑞斯机——首次使用穿孔卡技术的数据处理机器。
  3. 数据挖掘(Data mining)的核心就是通过现象看本质,通过分类、统计、算法、建模、专家判断等方法从大数据中找出规律或有价值的信息。

 

  • 二   科技的力量
  1. 二进制的发现,归功于17世纪著名哲学家、数学家莱布尼兹,于1679年写了题为《二进算术》论文,对二进制进行了充分的讨论,并建立了二进制的表示和运算。“从虚无创造万有,用一就够了”

Ps:至于莱布尼兹是否是受到了《易经》的启发而发现二进制,李约瑟曾评价:“《易经》的八卦中无意识巧合碰上的东西,被莱布尼兹有意识地发现了。”

  1.  “关系数据库之父”——埃德加·考特
  2. 在泛大数据化的当下,会产生一种大数据误区,认为大数据能解决一切问题,从大数据中能挖出想要的任何信息和规律。但其实,无论大数据还是调查数据,包含的信息都是有限的。在进行数据挖掘时,要实事求是地分析和获取数据代表的意思,而不能主观地把一些规律强加给数据。
  • 三   大变革的时代

1,“大数据时代的预言家”——维克托·迈尔-舍恩伯格认为,大数据时代来临之际,人类会出现一些新的思维方式逐步替代旧思维方式,关注更多的不再是随机样本,而是全体数据;更注重的不是精确性,而是混杂性;眼光停留的不应是因果关系,而是相关关系。

  2,著名统计学家C.R.劳有句名言:“在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。”

  1. 大数据正走向“平民化”。

这能比较好的解决博弈论(game theory)中由于信息不对称导致的”囚徒困境”。

 

Ps:囚徒困境(Prisoner'sDilemma)是博弈论非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。

 

  • 第二章  调查与数据
  • 一   人口的学问
  1. 瑞典在1749年开始了人口普查,成为世界上第一个定期开展人口调查的国家。
  2. 从某种意义上讲,发展问题归根到底还是人口问题,与一个社会的人口规模、结构、质量有直接的关系,而要掌握这些关键性的信息,就需要开展包括人口普查在内的各种人口调查活动,获得关于人口的第一手数据。
  3. “胡焕庸线”——胡焕庸线(Hu Line,或Heihe-Tengchong Line,或Aihui-Tengchong Line),即中国地理学家胡焕庸(1901-1998)在1935年提出的划分我国人口密度的对比线,最初称“瑷珲—腾冲一线”,后因地名变迁,先后改称“爱辉—腾冲一线”、“黑河—腾冲一线”。 以平原、水网、丘陵、喀斯特和丹霞地貌为主要地理结构,自古以农耕为经济基础;线西北方人口密度极低,是草原、沙漠和雪域高原的世界,自古游牧民族的天下。因而划出两个迥然不同自然和人文地域。“胡焕庸线”在某种程度上也成为城镇化水平的分割线。这条线的东南各省区市,绝大多数城镇化水平高于全国平均水平;而这条线的西北各省区,绝大多数低于全国平均水平。(-----百度百科)

胡焕庸线的发现,不仅仅体现了人口调查数据的作用,还体现了数据挖掘的作用。

 

  • 二   学术与调查
  1. 美国著名教育社会学家伯顿·克拉克在研究高等教育时发现,高等教育的发展实质上受到3股力量的主导:国家权力+学术权威+市场。在此基础上,他提出了“三角协调(triangle of coordination)模型“
  2. 从古至今,提出问题是开展研究、收集数据的一个重要途经。
  3. “实证主义“——实证研究不再是思辨地认识世界,而是通过实证地方法直接测量和认识世界。。。。。调查数据成为了社会科学实证研究的重要依据。

 

Ps:奥古斯特·孔德《论实证精神》

  1. 马克思的调查问卷——“光荣调查“——兼有数据收集和教育的双重使命。
  2. 毛泽东在农村开展调查研究时提出“没有调查,就没有发言权“的著名论断。

 

  • 三   商业与调查
  1. 市场数据成为了公司决策的重要依据
  2. 调查数据的兴起,意味着公司的决策模式在发生变化,从过去主观直觉式的决策,转变成依据客观调查数据的科学决策模式。
  3. 我们要客服盲目乐观的情绪,需要客观的分析相关数据,客观地评估经济和社会的发展现状及未来趋势,保持清醒的头脑,把握发展的方向。
  4. 互联网式产生大数据的重要来源之一。
  5. 当今世界的权威已经从个人专家转变成了调查数据。当今社会已经不再单纯听信于某位专家的建议,而是研究调查数据及其报告,甚至依据这些数据和报告来质疑权威专家的意见。“用数据说话“

 

 

  • 第三章   大数据与炼金术
  • 一   公共大数据

1,“小数据“和”大数据“之间其实是相通的,有互相启发和互相印证的作用。

2,大数据也不能被神化,GFT(Google flu trends)预测越来越不准的重要原因应是大数据傲慢(Big Data Hubris)和算法变化(algorithm dynamics)

       作者的观点是由于大数据模型无法捕捉瞬息变化的社会关系,导致预测失效,其失效的原理如同成语“刻舟求剑“那样,当环境发生变化时,依然沿用过去的模型挖掘规律,往往时失效的。”阴阳消息,五行转移“,用动态大数据分析动态的社会变迁,方能在变化无常的社会关系中把握住发展的规律。

       Ps:本人认为,google发布了自己的调查数据之后,不仅仅给GFT带来了无上荣誉,也埋下了巨大隐患。人们发现自己的隐私被泄露可能会不自觉地想办法抵抗,当知道自己的什么行为可能导致GFT捕捉到自己的真实信息时,他可能就会故意释放错误信号,以保护自己所谓的可怜的隐私。

3,警惕“大数据傲慢”,不应该因为过分推崇大数据而忽略其他类型数据的作用。

  1. 大数据时代,强调的是数据的开放性和共享性,让数据尽可能地组成数据池,甚至是数据海,这样,就能发挥出巨量数据聚集在一起的能量和威力。
  2. 《魔鬼经济学》作者史蒂芬·列维特说:“现在,游戏的名字叫数据。“
  3. 数据的开放和共享,是大数据时代的基本特征,也是大数据之所以能够发挥威力的重要基础。

 

  • 二   大数据与大范式
  1. 人体是一个巨大的数据源,无时无刻不产生和释放着各种各样的大数据。中国古人通过手机、观察和分析天、地、人的相关数据分析人体的病理特征,在此基础上提出对治方案。所以,大数据源头至少应该追溯到中医。古人通过把脉断病,这种分析方法,与现代的大数据分析方法在原理上是一致的。

Ps:从人的认知学习过程上来看,无论是中医还是西医,无论是科学还是玄学,都是人对于感知到的事物并结合历史经验的一种总结,所以从这种角度上看,两者并无本质差别。

  1. 最好的大数据利用方式应该是这样:在揭示普遍规律的同时,兼顾个体的个性差异。
  2. “十亿价格项目“——核心是通过一个软件在互联网上24小时不间断地收集商品价格信息。
  3. 大数据本身并不具有价值取向,使用目的不同,大数据技术带来的社会后果也不同。
  4. 爱德华·斯诺登揭露的美国政府“棱镜“互联网信息筛选项目举世震惊。所以,当大数据技术被用来服务于特定目的时,技术本身的功能可能就成为次要议题,而特定目的的合法性成为了关键问题。
  5. 在2008年10月与麦肯锡总监James Manyika先生的对话中,曾经讲过下面一段话。 “我总是说,在未来10年里,最有意思的工作将是统计学家。人们都认为我在开玩笑。但是,过去谁能想到电脑工程师会成为上世纪90年代最有趣的工作?在未来10年里,获取数据——以便能理解它、处理它、从中提取价值、使其形象化、传送它——的能力将成为一种极其重要的技能,不仅在专业层面上是这样,而且在教育层面(包括对中小学生、高中生和大学生的教育)也是如此。由于如今我们已真正拥有实质上免费的和无所不在的数据,因此,与此互补的稀缺要素是理解这些数据并从中提取价值的能力。”
  6. 大数据显然是“灿烂的曙光“而非”辉煌的落日“。

 

  • 三   大数据探微
  1. 大数据给数据科学的三个颠覆性观念转变:
    1. 是全部数据,而不是随机抽样;
    2. 是大体方向,而不是精确制导;
    3. 是相关关系,而不是因果关系。

 

  1. 自然科学长期都在寻找因果关系,但在社会科学中,因果关系相对比较难发现,因为社会系统更加复杂,变化多端。
  2. 沃尔玛——“啤酒的与尿布的故事”——通过数据分析,发现了一个有趣的现象,当年轻的父亲在商场替孩子买尿布时,往往会同时给自己买点爱喝的啤酒。

这个例子的提示:

    1. 数据是现象的一种描述
    2. 数据并非规律,而是某种规律的外部呈现
    3. 数据挖掘的结果需要经得起实践的检验——“实践是检验真理的唯一标准”
  1. 大数据挖掘一般都是从关联性入手,进一步深入探究现象背后的规律。
  2. 组织管理学家查德·达夫特认为,一个社会组织的维度可以分为两类:结构性和关联性。结构性维度描述了一个组织的内部特征,关联性维度描述了影响和改变组织维度的环境,这是从系统论的角度分析组织。事实上,数据也有同样的维度。
  3. 数据的特点是直观而形象,容易辨认和识别。当数据呈现出来一定的关联性时,表明事物之间的关联具有一定量上的显著度,因此,便于从量的层面分析和了解事物之间的关联性。

有了量的基础,再进行深入研究,就可以从质的层面把握关联事物之间的规律,这是大数据挖掘的本质所在。

  1. 大数据挖掘具有普遍意义,具有普遍性,具有普遍的社会价值。
  2. 大数据本身具有一定的抽象性,但是,通过可视化技术就可以相对比较容易获得数据之间的关联特征,启发人们思考现象背后的原因。
  3. 大数据的基本特征就是复杂、善变且易逝。若想要从纷繁复杂的大数据中找出规律,就需要有简单而易操作的工具。

“在强调平等权力的互联网上,大家都是乡巴佬。”

猜你喜欢

转载自blog.csdn.net/xiao_yi_xiao/article/details/88849721