结合Apache Ignite探索机器学习

此前的文章中,我们讨论过Apache Ignite机器学习网格。当时仅有测试版。在随后的版本2.4中,机器学习得以运用。新版本对部分内容进行了更新,支持基于分区的数据集以及遗传算法。Apache Ignite提供了多种可独立运行的机器学习示例,将入门学习变得简易。在本系列的后续文章里,我们将利用Ignite支持的机器学习算法对部分开源数据集进行分析。

简介

我们将在本部分对机器学习网格进行简单的回顾,图1展示了机器学习网格的结构。

figure1

图1:机器学习网格

首先,Apache Ignite所呈现的机器学习能力相当实用,可在Ignite内直接构建预测模型。基于此,用户在不采取高代价ETL(Extract-Transform-Load)过程或数据传输的情况下,获取高规模高性能的预测模型。

在Ignite出现之前,机器学习模型得训练和部署在不同的系统上。例如,用户需要将数据移出Ignite,接着使用其它工具对数据进行训练,这样模型才能部署到不同的系统中。此方法存在如下缺点:

  • 需要一个花费昂贵的ETL 进程,特别是针对大型数据集。
  • 在进行ETL时会对数据进行快照。之后,实时系统中的数据也许会发生改变,所以需要将已训练的数据存放至训练集中。

其次,现今多数系统需处理大量的数据,这些数据通常会超过单个服务器容量。分布式计算很好的解决了这个问题,但一些平台并非为数据存储和操作而设计,它们仅适合训练。所以,研发人员需要考虑如何在生产环境中解决由部署所引发的复杂问题。

Ignite所呈现的机器学习能力致力于解决如下问题:

  • 结合Ignite处理数据,能避免因不同系统之间转换而导致的ETL昂贵问题。
  • Ignite能够提供分布式计算,实现对数据的存储及操作。
  • Ignite更新了部分机器学习算法,此举对分布式计算进行了优化,并且可充分利用Ignite进行并置处理。
  • Ignite能作为流式数据的接收器,允许机器学习实时应用。

机器学习通常是一个迭代过程,上下文可能会在算法运行时发生改变。因此,为了避免工作损失和延迟,Ignite支持了基于分区的数据集,使其能够应对节点故障问题。

原文链接

扫描二维码关注公众号,回复: 1655498 查看本文章

猜你喜欢

转载自blog.csdn.net/weixin_40581617/article/details/80705089