**
统计数据会说谎
**
前言
- 蒙提霍尔问题
参赛者面前有三扇关闭着的门,其中一扇的后面是一辆汽车,选中后面有车的那扇门就可以赢得该汽车,而另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,主持人会开启剩下两扇门中的一扇,露出其中一只山羊。主持人其后会问参赛者要不要更换选择,选另一扇仍然关着的门。是坚持原来的选择赢的可能性大,还是更换选择赢的可能性大???
解析----坚持原来的选择赢的概率是1/3, 更换选择赢的概率是2/3
通过条件概率
先假定3个随机变量,设X是正确的门,Y是参赛者选择的门,Z是主持人打开的门。
我在这里只计算一种情况,有兴趣的读者可以自己去计算其他情况。
我们考虑计算参赛者选择了门3而主持人打开了门1的情况下,门3是正确答案的概率,显然,这是一个条件概率:
- 霍桑效应
是心理上的一种实验者效应, 是指当被观察者知道自己成为被观察对象而改变行为倾向的反应
如 霍桑研究一系列对工人改善条件下其工作效率的变化, 尝试增强照明,发现其生产率在实验环境下提升了。
内容
- 内在有偏的数据
举例: 如调查问卷显示中山大学平均收入是50万元,这个调查有意义吗?- 调查对象估计是人家愿意回答,而且回答的也高,存在刻意造成的误差,如年龄层,地点,调查时间等
- 样本不够大,数据不具有代表性,统计会出现夸大或缩小趋势,数据精确要反思统计过程
应对:- 采用有代表的数据样本,随机样本,即每个样本都具有同等被选中的概率,分层随机抽样
2,精心挑选的平均数
平均数有算术平均数,中位数,众数,在正态分布的曲线上,三种数据落在相同点上,长尾曲线,三种数据相差很远,说道平均收入时,要问问是什么平均,包括哪些人
3, 没有被批露的数据
比如说一些报道 《自从使用了XX牌牙膏,我们的蛀牙减少了23%》,其中没有被披露的:
1.样本容量
2.实验过程
3. 事物整体范围的全矩和与平均数偏离水平的数据
4. 信息来源的显著性程度 5%的显著性意外着有95%的概率保证是正确的
-
毫无意义的工作
测量也有误差,智力测试只是智力水平的抽样,智商值也具有统计误差,误差值将衡量该数据的准确度和可信度,
可能误差和标准误差,可以定量衡量你的样本以多大的精度代表总体
任何抽样统计都有误差,并且不可忽略
只有差别有意义才能被称之为差别 -
令人惊奇的图
坐标轴不同
直线类图形可以显示趋势
改变一下横纵坐标的比例,就可改变图像
图形更具有客观性幻觉
6.一维图像的滥用
柱状图也具有欺骗性
使用钱袋的形式,虽然长宽高都是1:2, 但给人1感觉是体积感,显示数值比例远远大于1:27 不完全匹配的资料
不匹配的数据可能隐藏陷阱- 相关关系的理解
一种关系是偶然的
是互为因果的
是所有变量之间相互没有影响,但是存在显著关系的
超过相关关系的数据范围而得出的结论
一种趋势通常不是一对一的理想关系
数据是真实的 但是未必得出结果,也许是建立在假设之上
- 相关关系的理解
9、如何进行数据操控?
如整个学校男生录取率大于女生录取率,但是按照系来说,每个系的女生录取率高于男生
使用地图说明数据, 会歪曲隐藏一些数据
未加解释的平均数,不必在意
变换基数产生数据幻觉
把一些看是可以加起来的东西加起来,会产生大量幻觉
百分数不能随意加
10.如何反驳统计数据
谁说的“” 样本是否有偏?
数据发布机构是否权威?
是否是原版?可信度
采集对象(调研对象)
数据是一手的还是二手的?(时效性)
数据采集方式(网上)
遗漏了什么?
是否有人偷换概念了?
资料是否有意义?
连续性假设是否对所有变量都成立,无法消除的自选择性, 小范围的有效性