统计思维读书笔记(第一章)

第一章 程序员的统计思维

本书名言:数据是廉价的(至少相对而言如此),但知识却异常宝贵。

1.三门相互关联的学科

  • 概率论
    主要研究随机事件。 人们对某些事件发生的可能性高低一般都有直
    观的认识, 所以未经特殊训练就会使用“可能”、 “不可能” 之类的
    词汇。
  • 统计学
    统计学旨在根据数据样本推测总情况。 大部分统计分析都基于概
    率, 所以这两方面的内容通常兼而有之。
  • 计算
    量化分析的最佳工具。 计算机是处理统计量的常用工具。 此外, 计
    算实验还有助于理解概率论和统计学中的概念。

2.例子:关于是第一个孩子是否出生的晚

在这类讨论中, 人们会用各种数据来证明自己的说法, 常见的例子如下。
“我有两个朋友最近都刚生了第一个孩子, 两个宝宝的出生
时间都比预产期晚了差不多两周。”
“我的第一个孩子晚了两周才出生, 我想我的第二个孩子会
提前两周。”
“我觉得这没道理, 因为我姐姐是我妈妈的第一个孩子, 她
就提前出生了,我的几个表姐也一样。”
诸如此类的传闻称为经验之谈(anecdotal evidence)

这些经验之谈无法作为判断这个例子是否正确的依据

原因如下:

  • 观察的数量太少
  • 选择偏差
  • 确认偏差
  • 不准确

统计学手段:

  • 收集数据
  • 描述性统计
  • 探索性数据分析
  • 假设检验
  • 估计

到这里采用了横 断 面 研 究(cross-sectional study), 意 思 就 是 它 的
数据是一群人在某个时间点的情况。

( 另一种常见方法是纵贯研究
(longitudinal study), 就是在一段时间内反复观察同一群人 。)

术语

  • 经验之谈(anecdotal evidence)
    个人随意收集的证据, 而不是通过精心设计并经过研究得到的。
  • 直观效应(apparent effect)
    表示发生了某种有意思的事情的度量或汇总统计量。
  • 人为(artifact)
    由于偏差、 测量错误或其他错误导致的直观效应。
  • 队列(cohort)
    一组被调查者。
  • 横断面研究(cross-sectional study)
    收集群体在特定时间点的数据的研究。
  • 字段(field)
    数据库中组成记录的变量名称。
  • 纵贯研究(longitudinal study)
    跟踪群体, 随着时间推移对同一组人反复采集数据的研究。
  • 过采样(oversampling)
    为了避免样本量过少, 而增加某个子群体代表的数量。
  • 总体(population)
    要研究的一组事物, 通常是一群人, 但这个术语也可用于动物、 蔬
    菜和矿产。
  • 原始数据(raw data)
    未经或只经过很少的检查、 计算或解读而采集和重编码的值。
  • 重编码(recode)
    通过对原始数据进行计算或是其他逻辑处理得到的值。
  • 记录(record)
    数据库中关于一个人或其他对象的信息的集合。
  • 代表性(representative)
    如果人群中的每个成员都有同等的机会进入样本, 那么这个样本就
    具有代表性。
  • 被调查者(respondent)
    参与调查的人。
  • 样本(sample)
    总体的一个子集, 用于收集数据。
  • 统计显著(statistically significant)
    若一个直观效应不太可能是由随机因素引起的, 就是统计显著的。
  • 汇总统计量(summary statistic)
    通过计算将一个数据集归结到一个数字(或者是少量的几个数字),
    而这个数字能表示数据的某些特点。
  • 表(table)
    数据库中若干记录的集
发布了3 篇原创文章 · 获赞 0 · 访问量 46

猜你喜欢

转载自blog.csdn.net/x1355399155/article/details/105275230