hadoop大数据研发平台

一.开发平台:
•Hadoop是Apache软件基金会旗下的一个开源分布式计算平台
•以分布式文件系统(Hadoop Distributed File Syste, HDFS)和MapReduce为核心的Hadoop为用户提供了系统底层细节透明分布式基础架构
•HDFS的高容错、高伸缩的优点允许用户将Hadoop部署在低廉的硬件上
•MapReduce则允许用户在不了解分布式系统底层细节的情况下开发并行应用程序
二.优势:
•高可靠性 ---因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理
•高扩展性 --- 在集群间分配任务数据,可方便的扩展数以千计的节点
•高效性 ---在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
•高容错性 --- 自动保存多份副本数据,并且能够自动将失败的任务重新分配
三.应用及发展趋势:
•Yahoo :通过集群运行Hadoop,以支持广告系统和Web搜索
•FaceBook: (Hive贡献者)借助Hadoop来支持其数据分析和机器学习
•淘宝:国内使用Hadoop最深入的公司,整个淘宝和阿里都是数据驱动的
•华为:云计算平台
•优酷:日志分析、推荐等
•奇虎360:存储软件管家中的软件,日志分析和数据挖掘
•百度: 国内使用Hadoop最早的公司,存储、日志分析、推荐、机器学习等

猜你喜欢

转载自blog.51cto.com/13792382/2126250