AutoML之图数据与表数据

当前AutoML平台离“万能”还有一段距离

AutoML 成为热门技术方向,同时也面临着一些难题,这些难题有很大一方面来自于 不同数据之间解决问题手段的可迁移性 / 可复制性,解决不同问题的手段相似性或者可迁移性 / 可复制性越高,自动化越容易,反之越难

目前 AutoML 产品的目标数据主要有两类,一类是图像数据,一类是表数据。

图像数据

深度学习取得的最大的成功来自于图像领域,相比于传统图像分析处理做法最核心的点在于“自动”学习层次化特征,以前的图像分析都是需要人工设计很多种从原始像素提取特征的方法,需要很多专家经验,深度学习很好地解决了这个问题,使得特征可学习,将人工特征设计转变成了人工神经网络结构设计,对于图像领域的自动机器学习,很自然的一个想法就是,是否能进一步将人工神经网络结构设计里面的“人工”去掉

谷歌、微软、第四范式等针对图像数据的 AutoML 产品的核心点是自动化图像领域的神经网络结构设计,他们针对的主要数据是图像数据。图像数据之间的相似性较大,原始输入都是像素,问题解决方案可迁移性可复用性也较大,使得 AutoML 在图像数据上相对更加容易落地。

表数据

与图像数据原始输入都是像素不同的是,表数据是抽象数据不同的表数据之间没有很强的相似性,不同表数据各列的含义千差万别,另外表数据还跟实际业务密切相关,其中有很多时序性、概念漂移、数据包含噪声等等不同于传统机器学习的特性需要解决,因此表数据问题上 AutoML 落地的难度也会大很多,仅仅是自动神经网络结构设计是远远不够的

目前谷歌、微软在这方面成果相对较少,MIT 的自动特征是在这类问题上一个很不错的尝试,他们主要解决的问题是数据分布在多个表中,如何自动化地将这多个表的数据转化成最终机器学习所需要的单个表数据,但是除了这个问题,实际表数据的 AutoML 落地还需要解决更多的难题。在国内,第四范式在这类问题上是最早有成熟产品落地的,比如模型自带自动化特征的线性分形分类器,自动特征组合工具 FeatureGo,自动时序树模型工具 HE-TreeNet 等等,今年也会有更多更强大的自动化机器学习产品发布。

除此之外,涂威威还补充道:对于自然语言处理中的知识自动提取等也需要自动化的机器学习技术,这是目前很多 AutoML 产品所不涉及的。

猜你喜欢

转载自blog.csdn.net/ningyanggege/article/details/89350488