Java软件开发者，如何学习大数据？（了解一下）大数据的前世今生

Java软件开发者，如何学习大数据？

最近有不少初学者来问到，学习大数据，学习spark，公司主要使用那些语言编写，每听到这一个问题，起码还是很不错的，证明你已经开始学习大数据了，并了解大数据Spark是可以使用多种语言来实现开发的，那就是Java、Scala、Python和R语言都可以使用，但R语言本人不常用。

大数据学习群：199427210

正常来讲学习大数据之前都要做到以下几点：
1.学习基础的编程语言(java,python)
2.掌握入门编程基础（linux操作，数据库操作、git操作）
3.学习大数据里面的各种框架（hadoop、hive、hbase、spark）
这是正常学习大数据必须要做到的三个步骤，如果有了java基础再去学习基本上已经成功了一半，起码不用为了基础语言的学习而恼火了。

真正的大数据的学习不能仅仅停留在理论的层面上，比如现在经常用到的spark框架目前支持两种语言的开发java或者Scala，现在python语言也能支持了。大数据的方向的切入是全方位的基础语言的学习只是很小

的一个方面，编程落实到最后到编程思想，有了指导思想学习起来就能方便很多。

有了java基础切入会感觉好很多，毕竟掌握了一门编程语言，计算机语言的感觉有了，切换场景学习而已，没有什么本质的区别。有了java基础自己找些资料，（我这里有学习资料，加裙自己获取：七一零二一九八六八邀请码：笨笨，邀请码务必要填写，不然加不了）动手做点实际的小项目，就可以了，有些东西没有想象的那么难，就看付出多少功夫了

（了解一下）大数据的前世今生

1.大数据产生的背景：
基于海量的存储与处理面临挑战：
数据量大，数据种类多。
海量数据的高存储成本，大数据两下数据处理性能不足，流式数据处理缺失。
优先的扩展能力，单一数据源。
数据资产对外增值。
行业技术标准的日益形成：
数据处理技术分布式演进趋势：Hadoop成为开放的事实标准。
各种技术特点：

SMP：单机、Scale UP。性能存在瓶颈，扩展性差。
SMP+MPP混合：集群、Share Everything。结构化、关系型。Flash cache+分布式块存储+IB。
MPP：集群、Share Nothing，结构化，关系型，通用的硬件。
Hadoop：集群，Share Nothing，开放、全球生态、结构化、半结构化、非结构化，高性能，实施。

大数据的前世今生：

大数据的提出：
1996年，SGI首次提出大数据。

描述大数据：
2001年，Gartner在评论中首先定义大数据的三个维度：数据容量、速度和种类。

大数据的实现：
业界把3V扩展到了11V，但主要包括Volume、Velocity、Variety、Value等。

大数据定义：
大数据：指无法在可承受的时间内用软硬件进行捕捉、管理和处理的数据集合，需要新处理模式才能使数据集合称为具有更强的决策力、洞察力和流程优化等能力的海量、多样化的信息资产。
数据类型：

结构化数据：
是指可以存储在数据库里，可以用二维表结果来逻辑表达实现的数据。

非结构化数据：
不方便用二维表结果来逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频信息等等。

半结构化数据：
介于结构化数据和非结构化数据之间的数据。HTML文档就属于半结构数据。

分析当代的数据集合，由25%的结构化数据和75%的非结构化和半结构数据构成。
大数据的价值：

在卫星测绘领域：
大数据具备海量数据存储服务能力，每天能存储1TB的数据，整个系统可以存储PB级别的数据。

在金融领域：
大数据可以帮助金融机构盘活客户少量数据资产，深挖存量数据价值。

在能源勘测领域：
大数据工具能有效降低能源公司的勘测成本，通过大数据分析，每口油井的勘探成本从800万美金降到300万美金。

在媒体娱乐领域：也有很多重要应用。

对应企业：在竞争能力、决策及时、成本控制有广泛的应用前景。

对于事业组织：在科学探索、知识服务、社会安全领域有强烈需求。

大数据的特征（4V）：
量大（Volume）：存储大，计算量大；
样多（Variety）：来源多，格式多；
快速（Velocity）: 生成速度快，处理速度要求快。
价值（Value）：价值密度低，和数据总量的大小成反比。
大数据带来的挑战：

传统网络架构不适用大数据时代。
从垂直访问到水平访问。
传统网络架构对南北向的网络流量需求支持良好，但不适应大数据映月宫对东西流量的需求。为了满足对东西流量的传输需求，要对传统网络架构进行重构。

数据中心将面临巨大挑战。
同时访问子系统压力大。
传统数据中心，计算、存储等各个子系统相对独立。用于大数据处理的数据中心，需要更高的资源利用率、自动化，需要使用虚拟化、云计算等技术对这些子系统进行整合和拉通。在重构过程中，增加了技术上的复杂性，给规划、建设、运维带来的压力和新的挑战。

数据仓库架构不适用高速反应的要求。
非结构化数据无法处理。
传统数据仓库对各类结构化关系型数据库支持良好，但不适应非结构化数据和半结构数据在数据处理上的需求。无法高效、迅速处理非结构化和半结构化的数据。同时，在存储非结构和半结构化数据的原始数据上，数据仓库也面临挑战。

大数据与云计算之间的关系：
大数据是需求，云计算是解决之道。
云计算是平台，大数据是应用。
云计算之于大数据，云计算是底层平台，大数据是应用。云计算作为底层平台整合计算、存储和网络等资源，同时提供基础脚骨资源弹性伸缩的能力。大数据在云计算平台的支撑下，调度下层资源，进行数据源加载，计算和最终结果输出等动作。
如何面对大数据：
从传统的被动应对业务，到主动挖掘价值。
新的需求：管理方法，技术工具，基础架构，思维方式等。

学习遇到困难的，我分享一个大数据学习群，里面不仅有很多同学相互勉励学习，还有很多大家发的相关资料，想学习的，想从事大数据的可以加群：199427210大家一起学习。相信大家学习完会感谢自己的坚持

Java软件开发者，如何学习大数据？（了解一下）大数据的前世今生

猜你喜欢