1.Hadoop 与BI
2009年,Cloudera发表Analyzing Apache logs with Pig文章[7]。
2010年,Cloudera发表Hadoop与BI思考的文章,给出了When/How to integrate Hadoop with BI的5条建议[6]。
2011年8月,CACM发表了BI综述文章[1],总结了BI的组成部分和关键技术,面临大数据的挑战,提出了最新的BI架构,见图1。
Figure 1:BI Architecture
本文只针对MapReduce Engine部分做相关讨论,后续会对Complex Event Processsing Engine、Text Analytic Engine、Enterprise Search Engine(BI Search)做一些分析。
2.什么是Hadoop?
Hadoop开源软件支持在普通PC集群上进行可靠的,伸缩性的,分布式的计算处理,可以处理TB级甚至PB级的非结构化和结构化数据,将大工作量分解成集群中各个普通机上更小的数据块,以达到更快地处理的效果。Hadoop是相关技术的框架集合——HDFS、HBase、Cassandra、Hive、Pig、ZooKeeper、Mahout、Hcatalog、Hue,详见图2。
Figure 2:Cloudera Hadoop Ecosystem[2]
3. Two Distinct Hadoop Use cases
现在,Hadoop用于两个不同用例(Use Case)[3][4](见图3),其中涉及Hadoop技术见图4。
Data Processing: Hadoop ETL功能,包括预处理,过滤,转换,通过Pig/Hive/Oozie/Sqoop等工具实现。
Advanced Analytics:大规模的Events日志数据或Content分析处理, 包括Data Mining功能,例如call records, behavioral analysis, social network analysis, clickstream data,next-best action, customer experience optimization, social media analytics等 [5], 通过Mahout来实现。
Figure 3:Two Core Use Cases Common Across Many Industries
Figure 4:Data Processing and Advanced Analytics Tools[4]
4.Hadoop BI architecture
从Cloudera的观点(图5),Hadoop扮演了ETL和BI Analytics双重角色,其中ETL包括对结构化和非结构化的数据处理(是否用hadoop处理结构化的数据,视情况而定)。Hadoop BI Architecture可参考图6。
Figure 5:Where Does Hadoop Fit in the Enterprise DataStack?[2]
Figure 6:Business Intelligence After Adopting Apache Hadoop[2]
5 结论
本文讨论了BI with Hadoop的架构,Hadoop丰富了BI的ETL(Data Processing)和Data Mining(Advanced Analytics)功能。但是现在大数据处理平台也体现多样化,例如MongoDB,Cassandra等NoSQL平台,Aster/ Greenplum/Oracle等Vendor的MapReduce应用产品,私有云/共有云/混合云等等,将来的云BI 会怎样呢?架构又是如何呢?以后再做详细分析。
Reference:
[1] An Overview of Business Intelligence Technology
[2] How Apache Hadoop is Revolutionizing Business Intelligence and Data Analytics
[3] Hadoop Applied
[4] Hadoop, Big Data, and Enterprise Business Intelligence
[5] 10 Common Hadoop-able Problems
[6] Considerations for Hadoop and BI
[7] Analyzing Apache logs with Pig
Updated on 2012/03/14