前言
发这篇博客的时候我本身还是一名大二的学生,本身就是计算机互联网的专业而且自己本身就对大数据非常感兴趣。不知怎么的就是想把自己的学习的东西还有些许感悟记录下来,方便其他人学习和一起交流,所有我会一直更新一个大数据的学习系列。也算是给自己学习到的东西巩固巩固了。
什么是大数据
数据现在太火了简直,新闻联播里都提过不知道多少回了,所以出现在人们生活和工作中的大数据这个词简直可以用泛滥来形容了。但是其实很多是假的大数据,或者是无意的或者是恶意的科技噱头。那什么是真正的”大数据“呢。
BIGDATA,大数据,之无法在一定时间范围内用常规软件工具进行捕捉、存储和处理的数据集合。一般来说我们可以简单地将数据量超过就1PB的数据集合叫做大数据。不过这只是用来帮助你初步定义概念的,可别到出显摆,哈哈,其实我觉得还是有些偏颇的。
大数据的特征
如果你随便在那个网站上搜索了关于大数据的东西,其实很容易看到大数据的特点:4个V。在这里我们也说一下吧。
Volume容量
Variety多样
Velocity速度
Value价值,这里指的是大数据的有很大的价值,当然还指价值密度低。
推荐阅读
在这里对一个学习大数据的人一般都会被推荐阅读三篇论文,就是Google的三篇论文。这个直接百度就可以了。当然读不读我觉得不是很重要,哈哈。
推荐电脑配置
在学习大数据的过程中肯定是需要搭建集群的,我们没有条件直接操作服务器,即使是云服务器也有很高的成本,肯定需要使用自己的虚拟机,这就对配置有一定的要求。
硬件要求:
- 内存(很重要,能不能带起来就看这个)8G起步
我建议安装鲁大师进行硬件的检测,当然也可以使用命令,但是鲁大师可以看到型号和具体信息,方便你购买相似参数的硬件进行扩展。 - 外存(也就是硬盘)我建议是1T,当然500G的话如果你不干别的也够了。
软件要求:
这个咱们边做边说。一个一个安装。
知识储备
- JAVA语言
虽然不要求JAVA到很高深的程度,但是基本语法和理念要知道。当然Python也可以做大数据编程,但是我就不知道了。sorry啦 - Linux基础操作
对于集群的控制都将是建立在linux操作之上的,所以linux操作一定要知道一些(可以边看边左边学)
学习路径
- Hadoop(包括很多)
HDFS MapReduce Yarn Zookeeper Hive Mysql Flume Hbase Sqoop - scala语言
- Spark
- Flink
结语
接下来我会尽量按时更新blog,下一章我们讲Hadoop的安装、配置和基础操作(不知道能不能讲到)。