大数据技术随笔

先来说说大数据和云计算

云计算

在美国与技术研究院中的定义是:指一种按使用量付费的模式,这种模式提供可用的,便携的,按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速的提供,只需要投入极少的管理工作,或与服务供应商进行很少的交互。
资源共享池里资源包括 网络,服务器,存储,应用软件,服务等。

大数据

指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
而IBM指出大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。

一般我们怎么来理解大数据呢?

一般先从单机和集群入手

单机 :我们平常所说的单个机器,包括 物理机、虚拟机、云主机等。在某些场景下也称为单个节点。
集群:多个单机所组成的多台机器,称之为集群,机器之间可以通过网络(公网或私网均可)相互通讯。
而大数据又是常规单机无法处理的大量数据,所以自然而然,我们就可以想到用集群方式来解决,多台机器自然能提供更多的计算能力,再加上合理的程序架构,在合理范围内,规模越大的机器也能处理规模更大的数据。
设计要合理:比如一个人100天盖好一个房子,但不是100个人一天就能盖好一个房子。
大数据的核心思想是集中力量一开做事,本质上必须能够并行处理数据。
大数据对数据操作也不外乎增删改查,它实际上也只是数据处理的一个方案。所以一般的架构流程如下 :
在这里插入图片描述
大数据处理本就是一个复杂的过程。所以他依赖于了一系列的应用的支撑
在这里插入图片描述
而yarn怎被用来完成资源调度
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43345864/article/details/84886644