4星|《人人都在说谎》:社会科学方面有趣的数据分析方法与结论

人人都在说谎:赤裸裸的数据真相

​​

书中作者讲了社会科学方面的许多有趣的分析方法与结论。有许多常规调查方法难以得到的数据,现在由于技术的进步可以得到了。比如美国人的种族主义倾向,在媒体和调查中都不太严重,实际上根据谷歌趋势可以看出来许多州是比较严重的。有学者各州的种族主义倾向跟该州对特朗普的支持率正相关。

书中一个重要的数据来源是谷歌搜索,此外还有用于研究的报税数据,把大部分纸书电子化的谷歌Ngrams项目,精确到小时的犯罪率,记录梦境的APP等。

书中的结论涉及到选举、教育、医疗、犯罪、同性恋等。

书中两个重要的知识点:断点回归,维度的诅咒。

书中一些有趣的结论:

1:有共同的好友圈其实是一个强预测器,预示着一段爱情长不了;

2:社会经济地位越高,意味着进入NBA的可能性就越大。

3:决定一个人成年后成为哪支球队“死忠粉”最关键的时间节点,是在他8岁左右的那一年;

4:14~24岁的美国人会依据现任总统的受欢迎度形成自己的政治观点;

5:暴力电影放映结束之后的几个小时内,与酒精有关的犯罪活动数量一落千丈;

6:两位经济学家发现对医生的金钱奖励对降低死亡率无显著效果;

7:分配到条件更加严苛的监狱的囚犯,在离开监狱后还有可能犯下更多罪行

8:美国排名第一的史岱文森高中给学生带来的影响有多大呢?无!没有!零!

9:那么,新的大数据来源能否成功预测股票的走势呢?答案很简单:不能。

有一个印刷方面的小问题:精装版的书皮掉色,拿在手里看了一会儿就发现红色的书皮有些地方磨白了,手指变红了。

总体评价4星,非常好。

以下是书中一些内容的摘抄:

1:谷歌数据的功能在于,人们会向这个巨大的搜索引擎倾吐他们不会告诉任何人的事情。P4

2:换句话说,谷歌搜索帮我们绘制了一幅美国种族主义新的分布图——这幅分布图看起来可能与你所想的大相径庭(见图0-1)。美国南方的共和党人也许更有可能承认自身的种族主义倾向,而很多来自美国北方的民主党人也持相似的态度。P8

3:我们的研究表明,在一条包含两位候选人姓氏的搜索中,选民更有可能将其支持的候选人姓氏放在前面。之前的三次总统选举中,候选人在搜索中姓氏排在前面的概率越大,其得票率也就越高。更有趣的是,候选人姓氏的搜索顺序居然可以预见某一特定州将会支持谁。P11

4:西尔弗发现,与特朗普在共和党内初选时的支持率相关度最高的因素居然是我在4年前的一项发现。"特朗普拥趸最多的地区就是“黑鬼”一词的谷歌搜索量最多的地区。P13

5:经济学家及其他社会科学家一直在搜寻新的数据源,毫不客气地说,我确信谷歌搜索数据绝对是有史以来搜集到的人类心理数据集中最出色的一个!P14

6:结果令人惊讶。事实证明,先后搜索“背部疼痛”和“皮肤发黄”这两个词条的用户最终都被确诊为胰腺癌患者,而只搜索“背部疼痛”的用户则不太可能得这个病;同样,搜索“消化不良”和“腹痛”这两个词条的用户都被确诊为胰腺癌患者,而只搜索“消化不良”则意味着此人不太可能罹患此病。P30

7:冬天,在温暖的夏威夷檀香山,抑郁的相关搜索频率比在寒冷的伊利诺伊州芝加哥低了40%。这个效果有多么显著呢?乐观地说,药效最佳的抗抑郁药物也仅能使抑郁症的发生率降低约20%。依据谷歌的数据判断,从芝加哥搬到檀香山对治疗“冬季抑郁”的功效可比药物治疗高出整整一倍啊。P33

8:该调查表明,有共同的好友圈其实是一个强预测器,预示着一段爱情长不了!也许每晚都和伴侣及一小撮固定的朋友闲逛真算不上一件好事,各自独立的社交圈也许才有助于巩固两性关系。P34

9:截至目前,我们已经搜集了三份不同的证据:出生地、得分王母亲的婚姻状况和球员的名字。三份证据都不够完美,但都印证了相同的结果——社会经济地位越高,意味着进入NBA的可能性就越大。也就是说,传统的观念是错误的。P39

10:总的来说,是什么让我们梦到食物呢?主要的预测指标就是我们消费这些食物的频率。最常出现在梦中的物质是水。排在前20的食物包括鸡肉、面包、三明治和米饭——显然都与弗洛伊德的性压抑说无关。P49

11:我发现,与消遣相关的综合性搜索可以追踪失业率,并能成为预测失业率的完美模板的一部分。P60

12:最有说服力的是,质疑丈夫性取向的搜索在最不容忍的地区更为普遍。提出该问题的女性比例最高的州是南卡罗来纳州和路易斯安那州。事实上,在这个问题出现最频繁的25个州中,有21个州对同性婚姻的支持低于全国平均水平。P116

13:家长问他们的女儿是否漂亮的次数是问儿子是否英俊的一倍半,而问他们的女儿丑不丑的次数更是问儿子丑不丑的三倍!(他们为什么会认为谷歌可以衡量一个孩子的美丑呢?这很难说。)P132

14:那么,数据到底告诉丁我们什么哪?根据根次科和夏皮罗的研究,在美国,访问同一新闻网站的两个人持相反政治观点的概率约为45%。换句话说,相比完全隔离,互联网更接近使双方实现完美交集。自由派和保守派每时每刻都会在互联网上“相遇”。P138

15:扎克伯格知道,不论人们在群里如何抱怨,他们其实是喜欢消息推送的。他有数据证明这一点。人们浏览脸谱网的平均时间比“消息推送”功能上线之前要多,而且他们在脸谱网上的操作也更多了——多得异乎寻常。8月,用户在服务器上的网页浏览量达到了120亿,而到了10月,也就是消息推送功能上线运行时,浏览量达到了220亿。P150

16:问题出在哪里呢?当被问及在未来几天内计划看什么电影时,许多用户会填写一此曲高和寡、立意高远的电影,比如第二次世界大战的黑白纪录片或一些严肃的外国电影。然而,几天之后,他们就想看一些他们平时喜欢看的电影低俗落剧片或者浪漫爱情片。人们一直在对自己撒谎。P153

17:发展心理学中有一个正在迅速发展的领域,该领域挖掘出大量的成人数据库,并将它们与关键的童年事件联系起来,它可以帮助我们解决这一问题和相关的疑问。我们可以将这种越来越多地运用大数据来回答心理学问题的领域称为“大心理学”(Big Psych)。P162

18:我们再一次看到,决定一个人成年后成为哪支球队“死忠粉”最关键的时间节点,是在他8岁左右的那一年。总体而言,男孩在5~10岁时最容易喜欢一支球队。球迷决定要支持哪支球队时,球队在他8岁时夺冠要比在他19岁或20岁时夺冠重要8倍,因为到那时,他要么已经终其一生都喜爱那支球队,要么就一点儿都不喜欢了。P164

19:人的一生中有一段重要时期,即14~24岁,很多美国人会依据现任总统的受欢迎度形成自己的政治观点。若现任总统是位人气颇高的共和党人或不得人心的民主党人,很多年轻人便会深受影响,成为共和党人;反之,若现任总统是位不受欢迎的共和党人或深得民心的民主党人,那这个易受影响的群体又会倒向民主党阵营。总的来看,在这一关键时期形成的这些观点会持续一辈子。P166

20:那么,美国收人流动性高的地区怎么样呢,是什么让一些地区能在更好地平衡竞争环境的同时,也让一个穷人家的孩子过上美好的生活呢?答案是,在教育上花费更多的地区为贫困儿童提供了更好的机会。信教人士多、犯罪杜低的地方做得更好,黑人多的地区则不尽如人意。有趣的是,这不仅对黑人孩子有影响,而且对生活在那里的白人孩子也有作用。P171

21:即使富人无法避免死亡,但数据还是告诉我们,他们现在至少可以延缓死亡的到来。总的来说,美国收入排名前1%的女性的寿命比收入最低的1%的女性长10年。对男性来说,这一寿命差距是15年。P172

22:除非当地有比较大的大学城,否则地处郊区的县要比地处城市的县糟糕得多。像许多婴儿潮时期出生的人一样,我的父母把家从拥挤的街道搬到了绿荫大道(从曼哈顿搬到新洋西州的博根县).以便更好地培育他们的三个孩子。这可能是个错误,至少从培养孩子出名这方面来说是错的。P180

23:酒精是导致犯罪行为的主要原因。前述两位经济学家曾经调研过相当多的电影院,了解到在美国几乎没有剧院供应酒类饮品。事实也的确如此,研究表明在暴力电影放映结束之后的几个小时内,与酒精有关的犯罪活动数量一落千丈。P192

24:现在,西尔弗找到20名球员,这些球员与彼时33岁的奥尔蒂斯状态最为接近,他们在24,25,26,27,28,29,30,31,32,33这些岁数时的表现和他相似。换句话说,西尔弗找到了奥尔蒂斯的二重身,P196

25:许多大型互联网公司已经在运用二重身搜寻进一步改善它们的产品和用户体验。亚马逊便使用类似二重身搜寻的东西推荐你可能喜欢的书。它们能看到与你相似的人选择了什么,并以此为依据为你推荐图书。P199

26:这是大数据的第四大功能:它让随机试验变得更加便捷,不论何时何地,只要你在线,它就能找到真正的因果效应。在大数据时代,整个世界就是一个实验室。P208

27:如今,脸谱网每天进行1000次A/B测试6,这意味着脸谱网的一小部分工程师在某一天内完成的随机控制测试比整个制药行业一年内完成的还要多。P209

28:《欲罢不能》引用了“设计伦理学家”特里斯坦·哈里斯(Tristan Harris)的话来解释为什么人们在互联网上难以抵御某些网站:“屏幕另一端有上千人正在瓦解你的自律”。这些人用的就是A/B测试。P218

29:他们研究了超级碗期间播放的啤酒和软饮广告,同时也利用了符合条件的各个城市的广告曝光率。他们发现投资回报率为2.5:1。尽管超级碗广告费用不菲,但我们的结果和他们的研究都表明,超级碗广告在提高需求方面有奇效,所以公司的操作实际上极为物超所值。P224

30:两位经济学家发现金钱奖励对降低死亡率无显著效果。这个自然试验表明,如果给医生更多的经济奖励,让他们可以安排一些治疗,那有些医生就会安排更多治疗,这对病人的健康来说效果不大,而且似乎也不会延长他们的寿命。P229

31:事实上,这类(利用一刀切分数线的)自然试验的作用是非常强大的,经济学家还专门为其命名:断点回归。任何时候都有一个精确的数字(一个断点)把人们分成两个不同的群体,经济学家可以对极为接近截止点的人的结果进行比较或回归分析。P234

32:经济学家发现,分配到条件更加严苛的监狱的囚犯,在离开监狱后还有可能犯下更多罪行。严苛的监狱条件并没有阻止他们犯罪,而是使他们变得更加冷酷无情,回到现实社会中变得更具暴力倾向。P235

33:研究的结果令人震惊,几位学者已经将这些结果撰文明确呈现出来,文章标题为:“精英幻觉”。史岱文森高中带来的影响有多大呢?无!没有!零!纯属胡扯!分数线两边的学生最后的大学预修课程分数和学术能力评估测试分数都难分高下,所就读的大学也都是排名相当的名牌大学。P235

34:那么,新的大数据来源能否成功预测股票的走势呢?答案很简单:不能。P245

35:维度的诅咒是大数据的一个主要问题,因为新的数据集经常会给我们带来比传统数据源更多的变量——每一个搜索词、每一种推文等。许多声称在利用大数据源预测市场的人只不过是被施了魔咒,他们所做的只是找到相当于391号硬币的东西。P247

36:事实上,这一直是遗传学和智商研究的一般模式。科学家先是报告称,他们已经发现了预测智商的基因变体;然后,他们又得到新的数据,发现自己原来的说法是错误的。P250

37:总而言之,根据这些研究人员的研究,一个人如何还贷的详细计划和过去曾履行过的承诺是他会偿还贷款的证据。做出承诺、博得同情是一个人不会还款最为明显的迹象。P261

 

 

全文完


2018左其盛好书榜,没见过更好的榜单

2018左其盛差评榜,罕见的差书榜

2018读过评过的400多本书

本号810篇书评的索引与书单

想跟小编讨论请移步知识星球

更多良心书评参见我的公众号:左其盛经管新书点评​​​​

猜你喜欢

转载自www.cnblogs.com/zuoqs/p/10224347.html