摘抄《深入浅出学统计》

这周把一本小书《深入浅出学统计》读完了，真的是形象生动，把其中一些内容摘抄下来。

统计帮助我们在信息有限的情况下，做出充满信心的决策。
统计就是用我们真正捞上来的鱼，描述我们没有捞上来的鱼的一些性质。

统计学的基本问题：
我们如何通过样本，充满自信地描述整体？

第一部分：学习如何采集样本，调查样本
第二部分：如何通过样本探索总体的各种特性（这时要用到统计推论）
* 置信区间、假设检验

我们可以通过统计进行充满信心的猜测，但永远无法通过统计得到确定无疑的结果。
我们并非无所不知，但这不意味着我们一无所知。

第二章：随机原始数据
随机样本效果显著的原因是，它表明我们抽取任何一个样本的可能性和抽取其他任何样本的可能性是一样的。

第四章：侦探工作
当我们动手调查任何一批数据时，总是观察四个主要特征
样本大小：会直接关系到我们对一个总体可以具有的置信水平
形状：
位置：如果数据是偏斜的，那么度量位置时，中位数更能体现数据情况。
分散性：用标准差描述，或者四分卫位距

第五章：怪异的错误
小心潜在变量

第六章：从样本到总体

第七章：中心极限定理
抽样分布：一个抽样分布就是一个样本统计量的分布。我们可以为任何统计量（标准差，中位数）等构建抽样分布。例如平均数构成的抽样分布，如果我们从一个整体中采集很多很多大小为n的样本，计算每个样本的 $\bar x$ ，然后画出 $\bar x$ 的直方图，我们就能观察 $\bar x$ 的抽样分布。抽样分布是统计推断的关键。
从长期看，随机样本平均数堆的外形趋于正态，他们以总体平均数为中心，但比总体更窄。

中心极限定理：中心极限定理是很多统计推断的依据。它指出：当样本大小n很大时， $\bar x$ 的抽样分布接近正态。
具体说，对于从单一总体（平均数为 $\mu$ ，标准差为 $\sigma$ ）中抽取的大小为n的多个大型随机样本， $\bar x$ 的分布近似于平均数为 $\mu$ 的正态分布，标准差等于 $\sigma/\sqrt(n)$

中心极限定理的基本条件：

抽样中的每一个样本都必须来自同一个总体分布
每一个测量值都是随机的
中心极限定理在n趋向于无穷大的时候成立，处于实用性的目的，在n>=30时，这个定理成立。

第八章：概率
计算概率时有不少需要注意的地方：

概率仅适用于长期，短期从来不会为我们带来确信结论
每一个概率都有一个对立面
根据定义，我们只能计算随机事件的概率

经验法则：
距离中心值1个标准差范围内的所有罐头中，有68%
距离中心值2个标准差的范围内的所有罐头中，有95%
距离中心值3个标准差的范围内的所有罐头中，有99.7%

抽样分布的奥妙在于：

它能告诉我们整体均值
算出总体的概率（随意抽样下的均值方差分布）

第九章：推断
用一个样本，构建出一个估计抽样分布
估计抽样分布的标准差为样本的标准差/sqrt(一个样本内的个体数量)

第14章：走向高级
如果打算深入学习统计学，请记住这一点：
一开始，细枝末节似乎让人手忙脚乱，但是本质上，一切统计问题都相似。
这些问题看起来就像这样：如果我们只能得到样本，如何对总体做出判断？
我们的解决办法则像这样：
利用手头的数据估计出某种抽样分布，然后截取它的概率，但有时候先把这个分布推移到一个新位置更有用。

XGBoost中的预测值与GBDT中的预测值的区别：

GBDT中的预测值是预测结果的加权求和，每个样本的预测结果是样本所在叶子的均值
XGBoost中的预测值是弱分类起的叶子权重直接求和得到

白儿墨

发布了38 篇原创文章 · 获赞 9 · 访问量 2430

私信关注

摘抄《深入浅出学统计》

猜你喜欢