好程序员分享自学大数据入门干货 - 代码天地

好程序员分享自学大数据入门干货

企业开发 2019-05-27 23:07:31 阅读次数: 0

　　首先，提及大数据一词的概念。大数据本质还在于数据，但是它有着新的特征亮点。包括：数据来源广，数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等等。

　　扩展讲大数据的4个基本特征，我们将进行下面额思考：

1.数据来源广？

　　广泛的数据来源从何而来，通过何种方式进行采集与汇总？相对应的我们出现Sqoop，

Cammel，Datax等工具。

2.数据采集之后，该如何存储?

扫描二维码关注公众号，回复： 6288098 查看本文章

　　采集之后，为了方便存储，我们对应的出现了GFS，HDFS，TFS等分布式文件存储系统。

　　并且，介于数据的增长速度非常之快，这也就要求我们，数据存储必须可以进行水平扩展。

3.数据存储之后，该如何通过运算快速转化成一致的格式，又该如何快速运算出自己想要的结果?

　　对此，MapReduce的分布式运算框架提出了解决方案。但是由于MapReduce需要java的编程代码较多，由此，又出现了Hive，Pig等将SQL转化成MapReduce的解析引擎;再有，因普通的MapReduce只能一批一批地批量处理数据，时间消耗过多，最终目的又要求我们输入的一条数据就能得到结果，于是又出现了Storm/JStorm这样的低时延的流式计算框架;但是如果同时需要批处理和流处理，按照如上就得搭两个集群，Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群，不易于管理，所以出现了Spark这样的一站式的计算框架，既可以进行批处理，又可以进行流处理(实质上是微批处理)。而后Lambda架构，Kappa架构的出现，又提供了一种业务处理的通用架构。

4.此外，为了提高工作效率，加快运速度，出现了一些辅助工具：

Ozzie，azkaban：定时任务调度的工具。

Hue，Zepplin：图形化任务执行管理，结果查看工具。

Scala语言：编写Spark程序的最佳语言，当然也可以选择用Python。

Python语言：编写一些脚本时会用到。

Allluxio，Kylin等：通过对存储的数据进行预处理，加快运算速度的工具。

猜你喜欢

转载自blog.51cto.com/14249543/2400846

好程序员分享自学大数据入门干货

好程序员大数据学习路线Hadoop学习干货分享

好程序员大数据培训分享怎样进行大数据入门学习

好程序员大数据分享：Hbase精解

好程序员分享大数据的架构体系

好程序员大数据学习路线分享MAPREDUCE

好程序员大数据学习路线之大数据自学路线二

好程序员大数据学习路线之大数据自学路线一

好程序员分享大数据知识点精讲大数据之Linux

好程序员大数据分享10个大数据专业术语

好程序员大数据高端班分享10个大数据专业术语

好程序员大数据教程分享大数据之流程控制

好程序员大数据学习路线分享大数据之基础语法

好程序员大数据教程分享实用的大数据之数组

好程序员大数据培训分享实用的大数据之数组

好程序员大数据培训分享大数据之基础语法

好程序员大数据干货 SQL优化方案精解十则

好程序员分享干货弹性分布式数据集RDD

好程序员大数据学习路线分享弹性分布式数据集RDD

好程序员大数据技术分享：Zookeeper集群管理与选举

好程序员大数据培训技术分享：Hadoop集群同步

好程序员分享女生适不适合学大数据

好程序员大数据高端班分享 Spark知识点集合

好程序员大数据教程分享之Hadoop优缺点

好程序员大数据分享 HDFS读写两步教程

好程序员大数据培训分享Shell中数组讲解

好程序员大数据分享HDFS读写两步教程

好程序员大数据分享MapReduce中job的提交流程

好程序员分享大数据三大必备技能

好程序员大数据技术分享Zookeeper集群管理与选举

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)