mahout 简介

    Apache Mahout起源于2008年,当时它是Apache Lucene的子项目。使用Hadoop库,可以将其功能有效地扩展到Apache Hadoop云平台中。2010年4月Apache mahout最终成了Apache的顶级项目。
    Apache Mahout的主要目标是建立可伸缩的机器学习算法。这种可伸缩性是针对大规模的数据集而言的。Apache Mahout的算法运行在Apache Hadoop平台下,它通过MapReduce模式实现。但是,Apache Mahout并不严格要求算法的实现要基于Hadoop平台,单个节点或非Hadoop平台也可以。
    Apache Mahout核心库的非分存式算法也具有良好的性能。
    Apache Mahout 项目包含聚类、分类、推荐引擎、频繁项集的挖掘。
    聚类:将诸如文本、文档 之类的数据分成局部相关的组;
    分类:利用已经存在的分类法文档训练分类器,对未分类的文档 进行分类;
    推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事物
    频繁项集的挖掘:利用一个项集(查询记录或购物目录)去识别经常一起出现的项目。

猜你喜欢

转载自marsorp.iteye.com/blog/1536417
今日推荐