在线算法竞争比:
https://www.cnblogs.com/zhangzefei/p/9738642.html
基于梯度的学习,最小化训练集上的经验分布和模型分布之间的差异:
https://blog.csdn.net/cjm083121/article/details/89322111
Online Learning:
https://blog.csdn.net/hzwaxx/article/details/83867630
bandits问题基于在线学习思想解决,由于观测的不充分,赌博机在线学习存在探索和利用两者之间的困境。一方面,为了准确地估计损失函数的结构,学习器需要尝试更多的新决策;而另一方面,为了最小化遗憾,学习器又倾向于选择能最小化损失函数的决策。
https://blog.csdn.net/pouqiyu5090/article/details/85007053
https://blog.csdn.net/pouqiyu5090/article/details/84898609