大数据基础整理

什么是大数据，大数据有哪些特点？

大数据是指数据规模大，尤其是指由于数据形式多样性，非结构化特征明显，导致数据存储，处理和挖掘异常困难的那类数据集；特点：Volume(数据容量大，PB级以上的数据)Variety(数据类型繁多)Viscosity（价值密度低）Velocity（速度，大数据产生的速度快）Veracity（数据真实性差，大数据分析需要真实性数据）

2.大数据技术概述

大数据技术是指从数据采集，清洗，集成，分析与解释，进而从各种各样的巨量数据中快速获得有价值信息的全部技术。大数据研究的目的是发展大护具技术并应用到相关领域。

3.大数据处理过程

开始-数据采集与记录-数据抽取，清洗与标记-数据集成，转换与约简-数据分析与建模-数据解释-结束

4.大数据的关键技术

流处理，并行化，摘要索引，可视化

5.科学第一范式

科学实验主要描述自然现象，以观察和实验为依据的研究，可称之为经验范式。

6.科学第二范式

科学第二范式是以建模和归纳为基础的理论学科和分析范式，又称之为理论范式。

7.科学第三范式是以模拟复杂现象为基础的计算科学范式，又称之为模拟范式。

8.科学第四范式是以数据考察为基础，联合理论，实验和模拟一体的数据密集计算的范式。

9.格雷法则：科学计算数据爆炸试增长，解决方案为横向扩展的体系结构，将计算用于数据而不是数据用于计算，以20个询问规则开始设计，工作至工作；

10.横向拓展是在原有的分布式系统添加一个新机器，纵向拓展在原有的基础上添加CPU，内存等软硬件资源。

11.CAP理论

Consistency：一致性，所有节点在同一时间具有相同的数据

Availability：可用性，保证每个请求的成功或者失败都有响应

Partition Tolerance：分区容错性，系统中任意信息的丢失或失败不影响系统的继续运行。

CAP定理的主要内容是，一个分布式系统不可能同时满足一致性，可用性和分区容错性三个系统需求，最多只能同时满足两个系统需求。

12.BASE最终一致性，是ACID的反面。

基于BASE理论建立的分布式系统能够满足以下三个系统的核心要求：

高一致性：读取的数据都是基于快照的，而且错误的更新操作不会被执行；

高可用性：读取和更新都会返回数据；

高分区容错性：允许网络或节点出错。

13.函数式语言的概念：

函数型语言是一种典型的设计语言。函数型语言的特点是把问题求解的过程表示成块结构，对调用的调用者来说，每个块都有输入数据和经过加工处理后的输出数据。

14.函数式编程的优点：

逻辑可证，模块化，组件化，易于调试，易于测试，更高的生产率。

15.Map及Reduce的含义及功能

Map相对独立且并行运行，对存储系统中的文件按行处理，并产生键值对。Reduce以Map的输出作为输入，相同Key的记录汇聚到一个Reduce，Reduce对这组中间结果进行操作，将中间结果相同的键进行合并规约，并产生最终结果，即产生新的数据集。

16.计算流程

作业开始-作业提交（一个作业提交前要完成所有的配置，一旦提交就进入完全自动化的流程）-Map任务的分配与执行（两个步骤：1.选择作业，然后是在此作业中选择任务。基本思路就是一切为优先级高的作业服务。2.确定了从哪个作业提取任务后，具体的分配算法很简单，就是尽全力为此服务器分配任务。）-Map任务的执行（与HDFS类似，任务服务器是通过心跳消息向作业服务器汇报此时各个任务的执行状况，并向作业任务器申请新的任务。）-Reduce任务的分配与执行（Reduce的任务比Map任务简单，基本上是所有Map任务完成了，如果有空闲的任务服务器，就分配给一个任务。）-作业的完成。

17.流式数据是指产生的护具不是批量的传输过来的，而是像水一样流过来的，流式数据的处理也是连续处理，而不是批量处理。

流式数据的特征：实时性，易失性，突发性，无序性，无限性，准确性
流式数据的查询方式有两种：一种是固定查询，一种是窗口查询；

18.大数据的流式计算与批量计算的比较

对于先存储后计算，实时性要求不高，但对数据的准确性和安全性更为重要的应用场景，批量计算模式更为合适。

对于无须存储，可以直接计算的数据，实时性要求很严格，但数据的精确度要求稍微宽松的场景，更适合流式计算。

猜你喜欢