统计学学习笔记1

   学习用到的代码都是python,基于python3.6.2,系统则是macOS High Sierra 10.13.1

   重点几个词汇:均值,中位数,众数,极差,方差.

   nums = [1,7,9,3,5]

   首先说均值

   

   上面就是均值的计算公式,在网上随便找的一张.就是把元素相加然后除以元素总数,就是熟悉的平均值

   拿nums来说,那么他的均值是ave = (1+7+9+3+5)/5 结果就是5

   然后说中位数

  顾名思义就是一串数字中间的数,比如nums,重新排列后就变成[1,3,5,7,9]那么中间的数则是5,所以这串数字的中位数就是5,          但如果数字总数不是奇数,是偶数的话,就会有所变化,比如nums里面增加一个4,[1,3,4,5,7,9]那么中位数就是中间的两个数相加除以2

   则这个新数字串的中位数是(4+5)/2=4.5

   说说众数

   众数就是出现频率最高的,比如nums就木有众数,再看这两个数字串[1,3,5,2,7,8,4,4,2,2],[1,6,5,3,4,4,3]

   从上面两个数字串,可以看出第一个数字串2的出现频率是最高的,所以它的众数是2

   而第二个数字串,3和4都是出现了两次,那么它的众数是3和4

   可以得到结论:众数就是出现频率大于1且出现频率最高的数,如果最高的有好几个,则全部取

   那么三个数有什么优缺点呢?  

   先说说均值,均值可以利用所有数据,并求出平均值。但聚合性不好,特别容易受最大值和最小值影响,比如[1,2,3,4,5,6,10000]这个数的均值就会远远脱离聚合数字的模块

   中位数,则不会受最大值最小值影响,但有时候取到偶数数字串的中位数会变成小数,这样导致数据不一致.

   众数在聚合方面就没的说了,一般都能代表一定的聚合,但问题是它可能压根就木有,也可能有好几个,不是特别稳定

   极差:

  一般是来判断离散程度的,计算方式也比较简单就是用最大值减去最小值,还是拿nums作比喻极差就是9-1=8

   但是这样判断离散程度不太准,比如这两个数据

   例1    (1) [1,4,4,4,4,4,7]  (2)[1,1,4,4,4,6,6]                                                   

   前面的极差为6要比后面的极差5大,但它基本聚合在4那里,后者的离散程度更大,但极差却要更小

   方差:

   方差则会运用到每个元素,判断离散程度则比极差要准确很多,计算公式

    

   拿例1来说,方差 = ((1-4)(1-4) + (4-4)(4-4) +0*0 +.......+(7-4)(7-4))/7

   基础很多都是高中,甚至初中的,就不做笔记了,有个箱型图简单记一下吧

   

    重点就在于找中位数,然后分成前半部分( 下四分数)和后半部分(上四分数),然后再找出中位数.

    拿nums来说重新排序后为[1,3,5,7,9]中位数为5 前半部分(下四分段)的的中位数为1+3/2=2 后半部分(上四分段)的中位数为7+9/2=8 

    然后可以得出四分位距: 8-2=6

    而异常值的判定则是下四分段的中位数 - 1.5*四分位距 或者上四分位段的中位数 + 1.5*四分位距

    那么对于nums有x| x< 2-1.5*6 或者 x > 8+1.5*6 得到的结果是 x | x < -7 或者 x > 17。很显然,num并没有异常值  

        

    上图就是nums的箱形图.

    

猜你喜欢

转载自blog.csdn.net/yokan_de_s/article/details/79980249