Introductory: Seeing through Statistics - Part 1

---------------------Chapter 1. The benefits and risks of using statistics-----------------
1. Statistics的定义:
Statistics is a collection of procedures and principles for gaining and processing information in order to make decisions when faced with uncertainty.
统计指的是在不确定情况下,为作出决定而进行的获取和处理信息的一系列流程和原则。

2. 进行研究必须注意:

  • 找到代表性样本(representative sample): (a) 样本(sample) (b) 总体(population)
  • 样本量足够大:
    样本的大小取决于研究变量的变差(variability)大小。
  • 区分观察性研究(observational study)与实验(experiment):
    实验组的样本是随机分配的(randomly assigned),而观察性研究则不一定。

-----------------------------------Chapter 2. Reading the news---------------------------------
1. 关于统计研究报告合理性的七大关键要素:

  • 研究的来源:哪些机构支持
  • 研究者:访问者的专业性
  • 样本的选择:尽量保持随机性
  • 使用的问题或者度量(measurement):清楚界定问题的定义、用词精确
  • 调查的时间地点方式等
  • 被比较的组中存在的不同:考虑可能影响组之间不同结果的因素并进行解释
  • 差异度量所使用的量级/量纲:用具体数字给出答案而不是笼统的结论

-----------Chapter 3. Measurements, mistakes, and misunderstandings------------
1. 设计问题时需要注意的:

  • 蓄意偏误(deliberate bias):问题具有导向性
  • 无意偏误(unintentional bias):用词不具体
  • 折中偏误(desire to please):受访者低报或高报结果
  • 不知情受访者(asking the uninformed):虚报
  • 不必要的复杂化(unnecessary complexity):问题需尽量简单
  • 问题的顺序(ordering of questions)
  • 保密性和匿名(confidentiality and anonymity)

2. 开放性问题/封闭性问题:

  • 开放性问题:没有备选答案
  • 封闭性问题:有给出备选答案

3. 相关名词:

  • 分类变量(categorical variable) vs 数值型变量(measurement variable)
  • 连续变量(continuous variable) vs 离散变量(discrete variable)
  • 合理性(validity), 可靠性(reliability), 偏差(bias), 变差(variability):
    合理性:actually measures what is claims to measure
    可靠性:对同一样本重复多次之后结果仍相似

---------------------------Chapter 4. How to get a good sample--------------------------
1. 样本来源:

  • 抽样调查
  • 实验
  • 观察性研究
  • 元分析(meta-analysis)
  • 案例研究(case study):对一个或少数几个个体进行深入调查和研究

2. 相关名词:

  • 个体(unit): 单个个体或物体
  • 总体(population): 所有可以作为调查对象的个体组成
  • 样本(sample): 实际进行调查的个体所组成
  • 抽样框(sampling frame): 样本从抽样框中抽取,一般情况下包含总体
  • 普查(census): 对总体中的所有个体都进行调查

3. 抽样调查:

  • 抽样调查的准确度:误差范围(margin of error) = $1/\sqrt{n}$
  • 优点:快速、经济、准确

4. 简单随机抽样(simple random sampling):

  • 属于概率抽样(probability sampling)的一种,总体中每个个体被抽中的概率是相等的
    要素1:包含总体所有个体的抽样框
    要素2:随机数

5. 其他抽样方法:

  • 分层随机抽样(stratified random sampling): 先将总体中的个体进行分层,然后对每一层执行简单随机抽样
  • 整群抽样(cluster sampling): 将总体中的个体划分为群,随机抽取一个群,对该群中的所有个体进行调查
  • 系统抽样(systematic sampling): 随机选定起始点,等间隔抽取样本
  • 随机数字拨号(random digit dialing)
  • 多阶抽样(multistage sampling): 多种抽样方法的结合

6. 分层抽样适用于以下情况:

  • 可以得到每层的估计;
  • 若每一层中的变量相比于总体的变量有更强的一致性,那么分层抽样得到的结果会更准确;
  • 若层与层之间是按地理位置划分的,那么分层抽样的经济性更高;

7. 抽样可能遇到的问题:

  • 使用错误的抽样框
  • 找不到选中的个体
  • 无回答或者是志愿回答(volunteer response)

--------------------Chapter 5. Experiments and observational study----------------------
1. 相关名词:

  • 解释变量(explanatory variable), 响应变量(response variable), 处理(treatment)
  • 实验 vs 观察性研究
  • 混杂变量(confounding variable): 该变量对响应变量的效应不能从解释变量的效应中分离出来
    例:在孕期抽烟的女性生育的孩子的IQ一般比不抽烟的女性的孩子的IQ低,可能是因为抽烟的妇女同时营养不足,这一情况下,在研究抽烟对IQ的影响时,营养可能成为一个混杂变量
  • 变量间的交互效应(interactions between variables): 某个解释变量对响应变量的效应依赖于另一个解释变量

2. 实验设计:

  • 随机化:处理的顺序的随机化、处理的类型的随机化
  • 控制组(control group)、无效对照组(placebo)

猜你喜欢

转载自www.cnblogs.com/missluchi/p/9388579.html