Java软件开发者,如何学习大数据?(了解一下)大数据的前世今生

Java软件开发者,如何学习大数据?

最近有不少初学者来问到,学习大数据,学习spark,公司主要使用那些语言编写,每听到这一个问题,起码还是很不错的,证明你已经开始学习大数据了,并了解大数据Spark是可以使用多种语言来实现开发的,那就是Java、Scala、Python和R语言都可以使用,但R语言本人不常用。

大数据学习群:199427210


正常来讲学习大数据之前都要做到以下几点:
1.学习基础的编程语言(java,python)
2.掌握入门编程基础(linux操作,数据库操作、git操作)
3.学习大数据里面的各种框架(hadoop、hive、hbase、spark)
这是正常学习大数据必须要做到的三个步骤,如果有了java基础再去学习基本上已经成功了一半,起码不用为了基础语言的学习而恼火了。


真正的大数据的学习不能仅仅停留在理论的层面上,比如现在经常用到的spark框架目前支持两种语言的开发java或者Scala,现在python语言也能支持了。大数据的方向的切入是全方位的基础语言的学习只是很小

的一个方面,编程落实到最后到编程思想,有了指导思想学习起来就能方便很多。

有了java基础切入会感觉好很多,毕竟掌握了一门编程语言,计算机语言的感觉有了,切换场景学习而已,没有什么本质的区别。有了java基础自己找些资料,(我这里有学习资料,加裙自己获取:七 一 零 二 一 九 八 六 八 邀请码:笨笨,邀请码务必要填写,不然加不了)动手做点实际的小项目,就可以了,有些东西没有想象的那么难,就看付出多少功夫了

(了解一下)大数据的前世今生

1.大数据产生的背景:
基于海量的存储与处理面临挑战:
数据量大,数据种类多。
海量数据的高存储成本,大数据两下数据处理性能不足,流式数据处理缺失。
优先的扩展能力,单一数据源。
数据资产对外增值。
行业技术标准的日益形成:
数据处理技术分布式演进趋势:Hadoop成为开放的事实标准。
各种技术特点: 

SMP:单机、Scale UP。性能存在瓶颈,扩展性差。
SMP+MPP混合:集群、Share Everything。结构化、关系型。Flash cache+分布式块存储+IB。
MPP:集群、Share Nothing,结构化,关系型,通用的硬件。
Hadoop:集群,Share Nothing,开放、全球生态、结构化、半结构化、非结构化,高性能,实施。

大数据的前世今生:

大数据的提出:
1996年,SGI首次提出大数据。


描述大数据:
2001年,Gartner在评论中首先定义大数据的三个维度:数据容量、速度和种类。


大数据的实现:
业界把3V扩展到了11V,但主要包括Volume、Velocity、Variety、Value等。

大数据定义:
大数据:指无法在可承受的时间内用软硬件进行捕捉、管理和处理的数据集合,需要新处理模式才能使数据集合称为具有更强的决策力、洞察力和流程优化等能力的海量、多样化的信息资产。
数据类型:

结构化数据:
是指可以存储在数据库里,可以用二维表结果来逻辑表达实现的数据。


非结构化数据:
不方便用二维表结果来逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频信息等等。


半结构化数据:
介于结构化数据和非结构化数据之间的数据。HTML文档就属于半结构数据。

分析当代的数据集合,由25%的结构化数据和75%的非结构化和半结构数据构成。
大数据的价值:

在卫星测绘领域:
大数据具备海量数据存储服务能力,每天能存储1TB的数据,整个系统可以存储PB级别的数据。


在金融领域:
大数据可以帮助金融机构盘活客户少量数据资产,深挖存量数据价值。


在能源勘测领域:
大数据工具能有效降低能源公司的勘测成本,通过大数据分析,每口油井的勘探成本从800万美金降到300万美金。


在媒体娱乐领域:也有很多重要应用。


对应企业:在竞争能力、决策及时、成本控制有广泛的应用前景。


对于事业组织:在科学探索、知识服务、社会安全领域有强烈需求。

大数据的特征(4V):
量大(Volume):存储大,计算量大;
样多(Variety):来源多,格式多;
快速(Velocity): 生成速度快,处理速度要求快。
价值(Value):价值密度低,和数据总量的大小成反比。
大数据带来的挑战:

传统网络架构不适用大数据时代。
从垂直访问到水平访问。
传统网络架构对南北向的网络流量需求支持良好,但不适应大数据映月宫对东西流量的需求。为了满足对东西流量的传输需求,要对传统网络架构进行重构。


数据中心将面临巨大挑战。
同时访问子系统压力大。
传统数据中心,计算、存储等各个子系统相对独立。用于大数据处理的数据中心,需要更高的资源利用率、自动化,需要使用虚拟化、云计算等技术对这些子系统进行整合和拉通。在重构过程中,增加了技术上的复杂性,给规划、建设、运维带来的压力和新的挑战。


数据仓库架构不适用高速反应的要求。
非结构化数据无法处理。
传统数据仓库对各类结构化关系型数据库支持良好,但不适应非结构化数据和半结构数据在数据处理上的需求。无法高效、迅速处理非结构化和半结构化的数据。同时,在存储非结构和半结构化数据的原始数据上,数据仓库也面临挑战。

大数据与云计算之间的关系:
大数据是需求,云计算是解决之道。
云计算是平台,大数据是应用。
云计算之于大数据,云计算是底层平台,大数据是应用。云计算作为底层平台整合计算、存储和网络等资源,同时提供基础脚骨资源弹性伸缩的能力。大数据在云计算平台的支撑下,调度下层资源,进行数据源加载,计算和最终结果输出等动作。
如何面对大数据:
从传统的被动应对业务,到主动挖掘价值。
新的需求:管理方法,技术工具,基础架构,思维方式等。

学习遇到困难的,我分享一个大数据学习群,里面不仅有很多同学相互勉励学习,还有很多大家发的相关资料,想学习的,想从事大数据的可以加群:199427210大家一起学习。相信大家学习完会感谢自己的坚持

猜你喜欢

转载自my.oschina.net/u/3804900/blog/1824452