Hadoop生态综述 - 代码天地

Hadoop生态综述

其他 2020-02-08 17:34:06 阅读次数: 0

1. 大数据处理流程

大数据处理的根本目的是从海量异质数据中挖掘知识，包含了数据源收集、数据存储管理、数据分析与挖掘以及数据展现与获取等几个序列进行的步骤，如图1:

图1 大数据处理流程的整体架构

1.1 数据源

原始数据来源各异，很多数据形式不规整，包含噪音，因此首先需要从原始数据中进行数据抽取，获取后续分析所需的信息。

1.2 数据存储与管理

抽取后的海量数据，需要将其存储进分布式文件系统或NoSQL数据库中：

Hadoop分布式存储与计算系统可以用于海量数据的后台离线批处理任务：通过HDFS分布式文件系统来对数据进行存储，使用MapReduce计算框架对数据进行处理，系统本身负责数据的高可用、容错性等复杂管理任务。
NoSQL数据库可以用于实时查询场景：社交网络数据的存储可以使用图数据库，实时响应要求更高的场合可以使用HBase等列式数据库。

1.3 数据挖掘与分析

大数据的存储层的NoSQL数据库提供了简单的读、写功能，但是要挖掘更深层次的知识，需要利用数据挖掘、机器学习等复杂技术。

1.4 数据可视化

数据可视化的主要目的是将挖掘出来的知识，以具体表现呈现给用户。

2. 人人通

猜你喜欢

转载自www.cnblogs.com/schumiyi/p/12284031.html

Hadoop生态综述

hadoop生态

Hadoop平台优化综述

Hadoop研究综述

安装Hadoop Hadoop生态的配置

hadoop生态圈

hadoop生态环境

hadoop生态集群的搭建

hadoop生态的大体介绍

Hadoop生态体系

安装Hadoop生态组件

Hadoop 生态学习

hadoop生态--Kafka

Hadoop生态Zookeeper安装

Hadoop生态组件的WebUI地址

Hadoop生态圈介绍

Hadoop生态圈初识

图画hadoop -- 生态圈

Hadoop生态系统

hadoop 生态圈介绍

Hadoop生态圈组件

Hadoop生态集群之HDFS

十四、hadoop生态圈

Hadoop | 概念与生态圈

Hadoop 生态系统

Hadoop/Spark生态圈

Hadoop生态hive（一）介绍

Hadoop生态Flume（一）介绍

Hadoop生态hive（二）安装

Hadoop生态圈-Hive

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)