第一章程序员的统计思维

本书名言：数据是廉价的（至少相对而言如此），但知识却异常宝贵。

1.三门相互关联的学科

概率论
主要研究随机事件。人们对某些事件发生的可能性高低一般都有直
观的认识，所以未经特殊训练就会使用“可能”、 “不可能” 之类的
词汇。
统计学
统计学旨在根据数据样本推测总情况。大部分统计分析都基于概
率，所以这两方面的内容通常兼而有之。
计算
量化分析的最佳工具。计算机是处理统计量的常用工具。此外，计
算实验还有助于理解概率论和统计学中的概念。

2.例子：关于是第一个孩子是否出生的晚

在这类讨论中，人们会用各种数据来证明自己的说法，常见的例子如下。
“我有两个朋友最近都刚生了第一个孩子，两个宝宝的出生
时间都比预产期晚了差不多两周。”
“我的第一个孩子晚了两周才出生，我想我的第二个孩子会
提前两周。”
“我觉得这没道理，因为我姐姐是我妈妈的第一个孩子，她
就提前出生了，我的几个表姐也一样。”
诸如此类的传闻称为经验之谈（anecdotal evidence）

这些经验之谈无法作为判断这个例子是否正确的依据

原因如下：

观察的数量太少
选择偏差
确认偏差
不准确

统计学手段：

收集数据
描述性统计
探索性数据分析
假设检验
估计

到这里采用了横断面研究（cross-sectional study），意思就是它的
数据是一群人在某个时间点的情况。

（另一种常见方法是纵贯研究
（longitudinal study），就是在一段时间内反复观察同一群人。）

术语

经验之谈（anecdotal evidence）
个人随意收集的证据，而不是通过精心设计并经过研究得到的。
直观效应（apparent effect）
表示发生了某种有意思的事情的度量或汇总统计量。
人为（artifact）
由于偏差、测量错误或其他错误导致的直观效应。
队列（cohort）
一组被调查者。
横断面研究（cross-sectional study）
收集群体在特定时间点的数据的研究。
字段（field）
数据库中组成记录的变量名称。
纵贯研究（longitudinal study）
跟踪群体，随着时间推移对同一组人反复采集数据的研究。
过采样（oversampling）
为了避免样本量过少，而增加某个子群体代表的数量。
总体（population）
要研究的一组事物，通常是一群人，但这个术语也可用于动物、蔬
菜和矿产。
原始数据（raw data）
未经或只经过很少的检查、计算或解读而采集和重编码的值。
重编码（recode）
通过对原始数据进行计算或是其他逻辑处理得到的值。
记录（record）
数据库中关于一个人或其他对象的信息的集合。
代表性（representative）
如果人群中的每个成员都有同等的机会进入样本，那么这个样本就
具有代表性。
被调查者（respondent）
参与调查的人。
样本（sample）
总体的一个子集，用于收集数据。
统计显著（statistically significant）
若一个直观效应不太可能是由随机因素引起的，就是统计显著的。
汇总统计量（summary statistic）
通过计算将一个数据集归结到一个数字（或者是少量的几个数字），
而这个数字能表示数据的某些特点。
表（table）
数据库中若干记录的集

农夫山泉是糖水

发布了3 篇原创文章 · 获赞 0 · 访问量 46

私信关注

统计思维读书笔记（第一章）

第一章程序员的统计思维

本书名言：数据是廉价的（至少相对而言如此），但知识却异常宝贵。

1.三门相互关联的学科

2.例子：关于是第一个孩子是否出生的晚

术语

猜你喜欢

统计思维读书笔记（第一章）

第一章 程序员的统计思维

本书名言：数据是廉价的（至少相对而言如此），但知识却异常宝贵。

1.三门相互关联的学科

2.例子：关于是第一个孩子是否出生的晚

术语

猜你喜欢

第一章程序员的统计思维