from https://blog.csdn.net/bumingqiu/article/details/73397812
https://blog.csdn.net/xiaoxiao_wen/article/details/54097917
dirichlet分布:https://en.wikipedia.org/wiki/Dirichlet_distribution
4.1证明如下两个式子
首先先要明确极大似然估计是频率派的主张,本质上看的是频率。
证明:
其中M表示的就是 Y = ck 发生的次数, N就是独立同分布随机抽取的样本数
所以得到概率:
极大似然估计,两边取对数:
上式等于0,得到:
即证明。(感觉有点点熟悉这是什么)
之后同理可以得到:
4. 2
证明:
先证明下一个公式
注: 其中Dirichlet分布与beta分布有所关联,beta分布式一种二项的分布,而dirichlet分布是一种多项的分布又称为多项beta分布,如下所示
而对称dirichlet分布是:
同理可得:
另一种推理方法:
该解法:
1.关于贝叶斯估计那一块,是从MAP角度推导的,并不是贝叶斯估计,看起来结果一样是因为共轭分布的关系.
2.关于均匀分布的参数λ解释太粗略.均匀分布其实是服从参数λ为1的Dirichlet分布,书里的意思应该是服从Dirichlet先验,只是当λ为1(即拉普拉斯平滑)时,等于服从均匀分布,把λ当做均匀分布的参数看起来有点因果倒置
因为是对称的dirichlet分布, 所以当α = 1 ,对称Dirichlet分布等效于开放标准(K -1)-单纯形上的均匀分布,即在其支持的所有点上均匀。这种特殊的分布称为平面Dirichlet分布。浓度参数的值大于1时,倾向于使用密集,均匀分布的变量,即,单个样本中的所有值彼此相似。低于1的浓度参数值倾向于稀疏分布,即,单个样本中的大多数值将接近于0,并且大部分质量将集中在少数几个值中。
又因为上图
对于下图的解释是,当λ=0时,即没有先验概率,就是极大似然估计,λ可以任取