更快的模型迭代——探索增量学习技术

作者:禅与计算机程序设计艺术

1.简介

在AI领域,机器学习模型的更新往往伴随着成本的降低,而模型更新的速度也会影响最终结果的准确性、鲁棒性及实用性等指标。传统的方法如随机梯度下降法(SGD)等优化算法只能从头训练整个模型,计算量庞大耗时耗力且不利于快速迭代,因此需要找到一种能够快速收敛,快速更新模型的方式。增量学习(Incremental Learning),即仅在新样本上进行重新训练或微调已有模型的方式,可以显著减少训练时间,提高模型效果,是机器学习的热门研究方向之一。在当前环境下,很多公司都在追求将模型部署到生产环境中,所以希望尽早发现和解决业务问题,实现业务目标。因此,如何有效地应用增量学习技术,让模型在生产环境中快速、可靠地迭代演进,具有十分重要的意义。本文作者希望通过阅读并理解本文所涉及到的相关理论、方法、算法,以及相关工程实践,对广大的AI爱好者、研究者、开发者以及互联网企业都能提供帮助。

2.背景介绍

增量学习(Incremental learning)被定义为“在某些任务中,只使用部分数据,利用这一部分数据更新或者微调预先训练好的模型”,这样可以加速模型的收敛速度、降低计算资源消耗、提升模型效果。那么什么是部分数据?部分数据的定义又该如何界定呢?如下图所示: 一般来说,增量学习通常可以用于监督学习任务(Supervised Learning)、半监督学习任务(Semi-supervised Learning)以及无监督学习任务(Unsupervised Learning)。以下给出一个典型的增量学习框架: 图

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132332123