大数据期末总复习知识点总结

选择20个,填空10个,判断10个,简答6个,程序补全2个

第一章 概述

  1. 大数据概念 ;4v
  2. 大数据的影响,对思维方式的影响p11
  3. 大数据关键技术,四个阶段
  4. 大数据计算模式
  5. 大数据与云计算物联网的关系

第二章Hadoop

  1. hadoop简介
    看远分布式平台基于java开发的,核心HDFS,mapr
  2. hadoop的特性
  3. Hadoop的生态 ,各组件的实现的功能
  4. hadoop简单的命令使用:启动,停止。。。。

第三章HDFS

  1. 分布式文件系统的结构P43图,主要主从结构,多副本存储
  2. . HDFS的实现目标 P45
  3. 相关概念:块,名称节点,数据节点,第二名称节点各自干什莫的
  4. hdfs的体系结构:命名空间,通信协议
  5. 存储原理
  6. 读写过程
  7. 编程:shell命令的简单使用

第四章Hbase

  1. hbase与传统关系数据库的对比各自的优缺点
  2. 数据模型,相关概念,四维坐标定位数据
  3. 实现原理
  4. 运行机制
  5. 编程:shell命令的简单使用

第五章Nosql

  1. nosql not only sql
  2. nosql的特点
  3. 与关系数据库的比较
  4. 四大类型:特点,有缺点,典型软件
  5. 三大基石

第六章云数据库

  1. 概念,特性,典型产品

第七章MapReduce

  1. 设计理念:计算向数据靠拢
  2. map函数以及reduce输入输出格式
    map输入<k,v>输出list(<k,v>,<k,v>)
    reduce输入<k,kist(v,v,v)> 输出:<k,v>
  3. 工作流程:
    核心思想:分而治之
    执行阶段
    shuffle的过程 区分合并及归并
  4. wordCount实例 ,执行过程示意图会画
  5. 编程:读懂JAVAAPI的程序要求补全程序,最少10分

第九章Spark

  1. Spark的主要特点
  2. Scala语言是多范式编程语言,会使用SCALA的简单语句
  3. Spark与hadoop的对比
  4. Spark生态系统:大数据处理的三种类型,各组件的功能,
  5. 运行架构
  6. RDD的编程,执行过程示意图 最少10分
  7. 编程 ::shell命令的简单使用

第十章流计算

  1. 数据类型:静态数据,流数据
  2. 针对不同类型数据的处理:批量计算,实时计算,流计算
  3. 流计算的特征:火车站候车室实例
  4. 流计算与hadoop
  5. 流计算框架
  6. 流计算处理流程的三个阶段
  7. Storm简单理解与Storm的比较

第十一章图计算

  1. Pregel及其计算模型

第十二章可视化

  1. 可视化重要作用四个
  2. 典型工具

猜你喜欢

转载自blog.csdn.net/qq_43925089/article/details/106635790
今日推荐