统计学笔记(二)

前言：本篇博客包括了随机变量和图模型推理之间的所有内容。学好《统计学》需要《微积分》，《线性代数》，《矩阵论》和《实变函数与泛函数分析》作为基础，另外再增加《凸优化》。如果只是应用的话，这些知识吸收60%就足够了，但是要搞研究的话，不仅要吸收80%以上，另外还要研究《神经生物学从神经元到大脑》和物理学，从中吸收灵感，为研究下一代AI打下好的基础，用几何问题解决代数问题是不可避免的。下一代AI的突破点在nlp推理，人脑对于文字的神经元理解机制目前需要突破，最大限度地减少对海量数据的依赖。本文结构安排如下：

一、数学期望和不等式：这部分主要介绍期望，方差，协方差，协方差和皮尔逊相关系数的本质区别，高斯分布的矩母函数以及概率不等式，另外还增加了凹凸函数的不等式；

二、随机变量的收敛，单独作为一部分，重点是中心极限定理(和高斯分布相关)；

三、参数估计前的准备以及最大似然估计，包括：①模型，统计推断与学习的概念②CDF和统计泛函的估计③Bootstrap方法，接下来是最大似然估计，包括：①矩估计②极大似然估计以及相合性和同变性③渐进性④delta方法

后续安排：下一篇博客开始介绍图模型：从有向图到无向图的所有内容：贝叶斯，朴素贝叶斯，贝叶斯网格，有向动态图模型HMM，ME，MEMM，CRF(linear chain)，BiLSTM_CRF，pageRank算法，拉普拉斯矩阵，其中会穿插着介绍《统计学》的知识，所以篇幅会非常长。然后第四篇博客开始系统介绍深度学习，主要包括：①BP算法②RNN到LSTM的演化过程③卷积算子④深度学习的优化，算法本身的改进⑤语义表示和相似度，包括SIF，w2v,siamese lstm。⑥参数优化：SGD与遗传算法和模拟退火。紧接着第五篇博客会整合统计学派和联结主义学派，重点论述无向图推理,有向图推理，GN block。第六篇博客介绍知识图谱向量化(transD以及改进1篇)以及和深度学习的融合。以上工作全部完成后从第七篇博客开始，系列介绍与业务相关的Ai，包括kb_qa系列(共5篇)，模板匹配问答(1篇)，slot对话。

以上全部完成后，开始研究《神经生物学从神经元到大脑》和本体论，今后的全部精力用于研究专家系统和语义网。

nlp理论创新的研究既需要广度又需要深度，经历了前期的积累和摸索整合后，后期会形成稳定的研究课题。拒绝搞套路，拒绝刷题搞应试教育糊弄人，拒绝走捷径。走所谓的捷径就是走弯路。沉下心来，避免急功近利和浮躁。脱离应用级别的研究很不容易，希望码农们能转型顺利：站在巨人的肩膀上，强大的整合能力是成功的保证！

一、数学期望和不等式

1.1 期望

未完待续……

猜你喜欢