统计数据会撒谎

统计数据会说谎

**
前言

蒙提霍尔问题
参赛者面前有三扇关闭着的门，其中一扇的后面是一辆汽车，选中后面有车的那扇门就可以赢得该汽车，而另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门，但未去开启它的时候，主持人会开启剩下两扇门中的一扇，露出其中一只山羊。主持人其后会问参赛者要不要更换选择，选另一扇仍然关着的门。是坚持原来的选择赢的可能性大，还是更换选择赢的可能性大？？？
解析----坚持原来的选择赢的概率是1/3，更换选择赢的概率是2/3
通过条件概率
先假定3个随机变量，设X是正确的门，Y是参赛者选择的门，Z是主持人打开的门。
我在这里只计算一种情况，有兴趣的读者可以自己去计算其他情况。
我们考虑计算参赛者选择了门3而主持人打开了门1的情况下，门3是正确答案的概率，显然，这是一个条件概率：
霍桑效应
是心理上的一种实验者效应，是指当被观察者知道自己成为被观察对象而改变行为倾向的反应
如霍桑研究一系列对工人改善条件下其工作效率的变化，尝试增强照明，发现其生产率在实验环境下提升了。

内容

内在有偏的数据
举例：如调查问卷显示中山大学平均收入是50万元，这个调查有意义吗？
1. 调查对象估计是人家愿意回答，而且回答的也高，存在刻意造成的误差，如年龄层，地点，调查时间等
2. 样本不够大，数据不具有代表性，统计会出现夸大或缩小趋势，数据精确要反思统计过程
  应对：
  1. 采用有代表的数据样本，随机样本，即每个样本都具有同等被选中的概率，分层随机抽样

2，精心挑选的平均数
平均数有算术平均数，中位数，众数，在正态分布的曲线上，三种数据落在相同点上，长尾曲线，三种数据相差很远，说道平均收入时，要问问是什么平均，包括哪些人

3，没有被批露的数据
比如说一些报道《自从使用了XX牌牙膏，我们的蛀牙减少了23%》，其中没有被披露的：
1.样本容量
2.实验过程
3. 事物整体范围的全矩和与平均数偏离水平的数据
4. 信息来源的显著性程度 5%的显著性意外着有95%的概率保证是正确的

毫无意义的工作
测量也有误差，智力测试只是智力水平的抽样，智商值也具有统计误差，误差值将衡量该数据的准确度和可信度，
可能误差和标准误差，可以定量衡量你的样本以多大的精度代表总体
任何抽样统计都有误差，并且不可忽略
只有差别有意义才能被称之为差别
令人惊奇的图
坐标轴不同
直线类图形可以显示趋势
改变一下横纵坐标的比例，就可改变图像
图形更具有客观性幻觉
6.一维图像的滥用
柱状图也具有欺骗性
使用钱袋的形式，虽然长宽高都是1:2，但给人1感觉是体积感，显示数值比例远远大于1:2

7 不完全匹配的资料
不匹配的数据可能隐藏陷阱
1. 相关关系的理解
  一种关系是偶然的
  是互为因果的
  是所有变量之间相互没有影响，但是存在显著关系的
  超过相关关系的数据范围而得出的结论
  一种趋势通常不是一对一的理想关系
  数据是真实的但是未必得出结果，也许是建立在假设之上

9、如何进行数据操控？
如整个学校男生录取率大于女生录取率，但是按照系来说，每个系的女生录取率高于男生
使用地图说明数据，会歪曲隐藏一些数据
未加解释的平均数，不必在意
变换基数产生数据幻觉
把一些看是可以加起来的东西加起来，会产生大量幻觉
百分数不能随意加

 10.如何反驳统计数据
    谁说的“”  样本是否有偏？
     数据发布机构是否权威？
     是否是原版？可信度
     采集对象（调研对象）
     数据是一手的还是二手的？（时效性）
     数据采集方式（网上）
     遗漏了什么？
     是否有人偷换概念了？
     资料是否有意义？
       连续性假设是否对所有变量都成立，无法消除的自选择性， 小范围的有效性

统计数据会说谎

猜你喜欢