统计学笔记(二)

前言:本篇博客包括了随机变量和图模型推理之间的所有内容。学好《统计学》需要《微积分》,《线性代数》,《矩阵论》和《实变函数与泛函数分析》作为基础,另外再增加《凸优化》。如果只是应用的话,这些知识吸收60%就足够了,但是要搞研究的话,不仅要吸收80%以上,另外还要研究《神经生物学从神经元到大脑》和物理学,从中吸收灵感,为研究下一代AI打下好的基础,用几何问题解决代数问题是不可避免的。下一代AI的突破点在nlp推理,人脑对于文字的神经元理解机制目前需要突破,最大限度地减少对海量数据的依赖。本文结构安排如下:

一、数学期望和不等式:这部分主要介绍期望,方差,协方差,协方差和皮尔逊相关系数的本质区别,高斯分布的矩母函数以及概率不等式,另外还增加了凹凸函数的不等式;

二、随机变量的收敛,单独作为一部分,重点是中心极限定理(和高斯分布相关);

三、参数估计前的准备以及最大似然估计,包括:①模型,统计推断与学习的概念②CDF和统计泛函的估计③Bootstrap方法,接下来是最大似然估计,包括:①矩估计②极大似然估计以及相合性和同变性③渐进性④delta方法

后续安排:下一篇博客开始介绍图模型:从有向图到无向图的所有内容:贝叶斯,朴素贝叶斯,贝叶斯网格,有向动态图模型HMM,ME,MEMM,CRF(linear chain),BiLSTM_CRF,pageRank算法,拉普拉斯矩阵,其中会穿插着介绍《统计学》的知识,所以篇幅会非常长。然后第四篇博客开始系统介绍深度学习,主要包括:①BP算法②RNN到LSTM的演化过程③卷积算子④深度学习的优化,算法本身的改进⑤语义表示和相似度,包括SIF,w2v,siamese lstm。⑥参数优化:SGD与遗传算法和模拟退火。紧接着第五篇博客会整合统计学派和联结主义学派,重点论述无向图推理,有向图推理,GN block。第六篇博客介绍知识图谱向量化(transD以及改进1篇)以及和深度学习的融合。以上工作全部完成后从第七篇博客开始,系列介绍与业务相关的Ai,包括kb_qa系列(共5篇),模板匹配问答(1篇),slot对话。

以上全部完成后,开始研究《神经生物学从神经元到大脑》和本体论,今后的全部精力用于研究专家系统和语义网。

nlp理论创新的研究既需要广度又需要深度,经历了前期的积累和摸索整合后,后期会形成稳定的研究课题。拒绝搞套路,拒绝刷题搞应试教育糊弄人,拒绝走捷径。走所谓的捷径就是走弯路。沉下心来,避免急功近利和浮躁。脱离应用级别的研究很不容易,希望码农们能转型顺利:站在巨人的肩膀上,强大的整合能力是成功的保证!

一、数学期望和不等式

1.1 期望

未完待续……

猜你喜欢

转载自blog.csdn.net/randy_01/article/details/84633530