Bandit问题-基础、算法、理论、应用-分享

多臂老虎机问题至今已经被研究了近一个世纪，在目前推荐系统、搜索排序等实时online的系统应用广泛。虽然最初的研究相当曲折，但现在有一大群的人任在研究它，每年发表几百篇论文。Bandit算法也在工业中的实际应用中找到了自己的应用场景，特别是在在线推荐系统中，数据很容易获得，自动化是唯一的扩展方式。

pdf获取：https://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247487527&idx=1&sn=64a51b211ac938dead02d7c06d4862bf&chksm=97a0dbf3a0d752e537358da2f71c9fac8c677e869446e02ea4c4f89fbf645e5e6b9f93dd42a3&token=473761134&lang=zh_CN#rd

本书最初打算写一本全面综合的内容，但现在文献太多，许多主题都被排除了。最后，确定了一个更为合适的目标，即让读者拥有足够的专业知识来独立探索专业文献，并使现有的算法适应他们的应用。后一点很重要。理论上的问题都是一样的；每个应用场景都不同。寻求应用bandit算法的实践者需要理解理论中哪些假设是重要的，以及当假设改变时如何修改算法。希望这本书能提供这种理解。

这本书涵盖的内容有一定的深度。重点是对bandit问题算法的数学分析，但这不是一本传统的数学书，引理后面是证明、定理和更多引理。努力将设计算法的指导原则和分析的直觉包括在内。许多算法伴随着进一步实际经验的支持。

希望的读者熟悉基础分析、微积分和一些线性代数。这本书使用了计量理论概率理论的符号，但并不依赖任何深刻的结果。包含了一个专门的章节来介绍符号，并为需要的基本结果提供直观性。这一章对于度量理论的介绍来说是不寻常的，因为它强调了在标准技术论证之外使用σ-代数的原因。希望这能让读者相信测量理论是一个重要而直观的工具。有些章节使用了信息论和凸优化相关知识，为每一章专门写了一个简短的章节。

大多数章节都很短，应该在一个下午就能读懂。这本书的一些部分包含的内容并不真正是关于bandit的。已经学习过读者可以跳过，或者在必要时参考。后面的部分不会以任何实质性的方式建立在这些章节上。大多数章节以一系列笔记和练习结束。这些旨在加深直觉，突出各小节和文献之间的联系。

扫描二维码关注公众号，回复： 11333824 查看本文章