各种机器学习方法（学习范式）汇总

强化学习

入门资料

《深入浅出强化学习原理入门》. 郭宪等编著. 电子工业出版社

An Introduction to Reinforcement Learning, Sutton and Barto, 1998

Algorithms for Reinforcement Learning, Szepesvari, 2009

特点

没有监督数据、只有奖励信号
奖励信号不一定是实时的，而很可能是延后的，有时甚至延后很多
时间（序列）是一个重要因素
当前的行为影响后续接收到的数据

对偶学习

微软亚洲研究院秦涛博士等人在向 NIPS 2016 提交的论文中提出了一种全新的机器学习范式——对偶学习。

入门资料

微软亚洲研究院秦涛：对偶学习的对称之美 | 硬创公开课总结. https://zhuanlan.zhihu.com/p/27513847

对偶学习：一种新的机器学习范式，数据标注成本从2000万美元降到200万. 新智源. http://www.sohu.com/a/121198568_473283

Di He, Yingce Xia, Tao Qin, Liwei Wang, Nenghai Yu, Tie-Yan Liu, and Wei-Ying Ma, Dual Learning for Machine Translation, NIPS 2016. （https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation ）

解决的问题

降低对大规模标注数据的依赖性

深度学习的巨大成功得益于大规模的带标签的数据。但是存在两个局限性：1，人工标注获取标签的代价很高；2，在很多任务中没办法收集到大规模的标注数据，例如在医疗或小语种间的相互翻译。

核心思路

很多人工智能的应用涉及两个互为对偶的任务，例如机器翻译中从中文到英文翻译和从英文到中文的翻译互为对偶、语音处理中语音识别和语音合成互为对偶、图像理解中基于图像生成文本和基于文本生成图像互为对偶、问答系统中回答问题和生成问题互为对偶，以及在搜索引擎中给检索词查找相关的网页和给网页生成关键词互为对偶。这些互为对偶的人工智能任务可以形成一个闭环，使从没有标注的数据中进行学习成为可能。

将会对机器学习领域产生很大的影响

第一，很多深度学习的研究人员认为人工智能和深度学习的下一个突破是从未标注的数据进行学习。

第二，强化学习在复杂的实际应用中的成功还是比较有限。而对偶学习提供了一种为强化学习获取奖励信息的方式，并证实了强化学习在复杂应用（如翻译）中成功的可能。

迁移学习

入门资料

王晋东. 《迁移学习简明手册》. 2018

权威学者

香港科技大学杨强教授

解决的问题

有标注的数据不足
计算能力不足
个性化需求：进一步提高模型的泛化能力
特定应用的需求，比如，推荐系统的冷启动问题

联合学习

入门资料

《Google研究 | 联合学习：无需集中存储训练数据的协同机器学习》. 微信公众号：谷歌开发者

解决的问题

标准的机器学习方法需要将训练数据集中到一台机器上或一个数据中心内。为了处理此数据，改善服务，需要构建一套安全、强大的云基础架构。

通过联合学习，移动电话可以协同学习共享的预测模型，同时将所有训练数据保留在设备上，从而无需将数据存储在云中，即可进行机器学习。同时，通过将模型训练引入到设备上，超越了以往使用本地模型预测移动设备的模式。

工作原理

您的设备下载当前模型，通过学习手机中的数据改进模型，然后以小幅更新的形式汇总所做的变更。通过加密通信仅将此模型的更新发送至云，在云中，立即与其他用户更新进行平均，以改进共享模型。所有训练数据仍保留在您的设备上，云中未存储任何个别用户的更新。

优势

建立更智能的模型，缩短延迟时间，减小功耗，同时确保隐私性。除了为共享模型提供更新之外，还可以即时使用手机中经过改进的模型，根据您使用手机的方式，提供个性化的体验。