Apache Mahout起源于2008年,当时它是Apache Lucene的子项目。使用Hadoop库,可以将其功能有效地扩展到Apache Hadoop云平台中。2010年4月Apache mahout最终成了Apache的顶级项目。
Apache Mahout的主要目标是建立可伸缩的机器学习算法。这种可伸缩性是针对大规模的数据集而言的。Apache Mahout的算法运行在Apache Hadoop平台下,它通过MapReduce模式实现。但是,Apache Mahout并不严格要求算法的实现要基于Hadoop平台,单个节点或非Hadoop平台也可以。
Apache Mahout核心库的非分存式算法也具有良好的性能。
Apache Mahout 项目包含聚类、分类、推荐引擎、频繁项集的挖掘。
聚类:将诸如文本、文档 之类的数据分成局部相关的组;
分类:利用已经存在的分类法文档训练分类器,对未分类的文档 进行分类;
推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事物
频繁项集的挖掘:利用一个项集(查询记录或购物目录)去识别经常一起出现的项目。
mahout 简介
猜你喜欢
转载自marsorp.iteye.com/blog/1536417
今日推荐
周排行