统计学

统计基础知识

平均数 中位数中间(a+b)/2   众数aaa

极差max-min,差距大分的开 
中程数(max+min)/2


象形统计 图片显示数据
条形图 直观,对比,归类
线形图 看趋势(起点小心坑,非0)
饼图 看比例,占有率
茎叶图 共用十位,篮球比赛球员计分,看分布情况
箱线图  1 2 2 3 21   作用识别异常值。数据清洗中,作用很大
看中位数,中位数分隔,接着中位数分隔,成为4段。作图首尾箭头加3中位数盒子,4分区间
也叫盒须图  看极差,中位数,各区间比例,看趋势


集中趋势 
描述性 点代替数据   均值,中位数,众数,
推论 


样本和总体 抽取样本,随机   样本均值 vs 总体均值 


总体方差 均值也不完全准确, 遍历每个数减去均值的平方,然后求和,最后除以n  越小越集中
样本方差 最后除以n-1,为何n-1,大数据得出的,哈哈


标准差 方差开根号,单位统一
样本标准差


诸方差(方差公式变换),推导了D(X)=E(X2)-E(X)2
 
随机变量 抛硬币结果,明天是否下雨,骰子(离散,连续)


概率密度函数  如果在[0,1]上随机取点,求取在某一点处的概率,点的长度无限小,此概率一定为0。这时积分求面积


3种离散概率分布
二项分布  泊松分布 几何何分布
二项分布 遇到一个事情,如果该事情发生次数固定,而你感兴趣的是成功的次数,那么就可以用二项分布的公式快速计算出概率来。  二项代表事件有2种可能的结果,把一种称为成功,另外一种称为失败。
期望E(x)=np (表示某事情发生n次,预期成功多少次。)


几何分布 你需要知道尝试多次能取得第一次成功的概率,则需要几何分布。即为了在第x次尝试取得第1次成功,首先你要失败(x-1)次。


泊松分布 你想知道某个时间范围内,发生某件事情x次的概率是多大。这时候就可以用泊松分布轻松搞定。比如一天内中奖的次数,一个月内某机器损坏的次数等。成功抽出指定种类的物件的次数(不归还)


大数定律  赌博这件事情,不是越多越有经验,而是越多越可能回归到Expected Value,也就是会输
实验次数很大时,可以用事件发生的频率来代替事件的概率。   


正态分布(高斯) 身高,中间高,两边低 独立 随机 相加


中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布
中心极限定理的本质也就在这。哪怕原始分布像两个驼峰,样本均值的分布也接近正态分布,样本容量n越大,越接近。


置信区间 区间结果,比点准确


伯努利分布 假设你要生孩子,生男孩子概率p,生女孩纸概率1-p;伯努利实验:生一次孩子;伯努利分布:生一次孩子,生男孩子概率为p,生女孩纸概率1-p,这个就是伯努利分布;n重伯努利实验:将伯努利实验重复n次,就是生n次孩子。二项分布:n重伯努利试验「成功」次数的离散概率分布,这里的「成功」假设是生女孩纸(喜欢男孩子就把成功看出生男孩子)。


误差范围 π的近似值3.141的误差不超过0.001,0.001就是它的误差范围。


线性回归方程 最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。


相关关系和因果关系 
如果A和B相关,有至少五种可能性[1]:
A导致B
B导致A
C导致A和B
A和B互为因果
小样本引起的巧合
医院和死亡建立了一种相关关系,但这两者之间不存在因果关系


演绎推理和归纳推理
从一般性的前提出发,通过推导即“演绎”,得出具体陈述或个别结论的过程。
根据一类事物的部分对象具有某种性质,推出这类事物的所有对象都具有这种性质的推理


财富分布也是有乘法效应在里面,这就是所谓的“马太效应”


幂律分布(二八原则)的,所谓的平等、平均是根本不可能实现的,这个世界永远是20%的人掌握着80%的财富。原来,小时候老师和学校为你构建的一切都是乌托邦,这个世界的真实面貌只能靠你自己去摸索。


有钱人抱团有钱人,把资源牢牢掌握在手上,实现资源互换。而穷人,更加难以挤进上流的圈子。 

不光是互联网的大佬们,就是每座城市的商会,都是一个有钱人的聚集圈子。商会长组织,遇项目一起评估一起投钱,钱每年都没少挣!光会费每年都几万十几万不等。


统计学中的各种理论


赌徒因为这个谬误,他会认为出现一连串“输”的结果是非常不寻常的,所以接下来一定会更轻易遇到“赢”的结果。而后者则是在一连串独立事件中“成功”这一结果一直持续出现时,囿于这样的谬误,人们会认为接下来继续出现“成功”的概率更高。

我们当实验次数很大时,可以用事件发生的频率来代替事件的概率数据小,什么都说明不了

墨菲定律:事情如果有变坏的可能,不管这种可能性有多小,它总会发生,这句话是有前提条件的,即没有终止的时间。

蝴蝶效应是说,初始条件十分微小的变化经过不断放大,对其未来状态会造成极其巨大的差

墨菲定律是一种心理学效应,是由爱德华·墨菲(Edward A. Murphy)提出的。主要内容:一、任何事都没有表面看起来那么简单;二、所有的事都会比你预计的时间长;三、会出错的事总会出错;四、如果你担心某种情况发生,那么它就更有可能发生。五:如果你想要成功,成功就会到来

鳄鱼法则:其原意是假定一只鳄鱼咬住你的脚,如果你用手去试图挣脱你的脚,鳄鱼便会同时咬住你的脚与手。你愈挣扎,就被咬住得越多。所以,万一鳄鱼咬住你的脚,你唯一的办法就是牺牲一只脚。譬如在股市中

二八法则”同样适用于我们的生活,如一个人应该选择在几件事上追求卓越,而不必强求在每件事上都有好的表现;锁定少数能完成的人生目标,而不必追求所有的机会二八法则告诉我们,不要平均地分析、处理和看待问题,企业经营和管理中要抓住关键的少数;要找出那些能给企业带来80%利润、总量却仅占20%的关键客户,加强服务,达到事半功倍的效果;企业领导人要对工作认真分类分析,要把主要精力花在解决主要问题、抓主要项目上。 

马太效应告诉我们,要想在某个领域保持优势,就必须在此领域迅速做大。当你成为某个领域的领头羊的时候,即便投资回报率相同,你也能更轻易地获得比弱小的同行更大的收益。

人际关系中也有这种问题。你很善意地对待别人,人家反而觉得你有毛病。

这是一个想要成就大事业,就需要去挖掘风险,探索较高潜在机会,以及付出更多成本的时代。


初识统计学

网易云音乐是根据什么来进行每日推荐的?

NBA球员中,谁发挥的最稳定?

。。。。

统计学能帮助我们回答上面的这些问题,至少会加快我们解决这些问题的步伐。


描述统计学就是将一些复杂的数据减少为几个能够起到描述作用的数字。正如世界杯比赛中,我们将球员的一系列表现浓缩为一个得分。

描述统计学常用的4个指标分别为:平均值、四分位数、标准差及标准分。

平均数对异常数值不敏感。  和马云一起被平均


中位数:(不怕马云爸爸了)

假设有n个数

1)如果n是奇数,则中位数是位于中间的数值;

2)如果n是奇数,则中位数是位于中间的两个数的平均数。


四分位数

下界、下四位数、中位数、上四位数及上界五个数值。


四分位数的应用

(1)应用一:不同类别数据的比较

(2)应用二:识别出可能的异常值,并对异常值进行检查和处理;


标准差

而标准差正好可以反映数据的波动大小。标准差大比较好还是小比较好,就要视情况而定,。

比如NBA教练需要知道哪位球员的发挥更为稳定,那么肯定是标准差越小越好,但是如果标准差显示的是公司工资的波动大小,那肯定就是波动越大越好























猜你喜欢

转载自blog.csdn.net/sinat_23880167/article/details/80967919