大数据 复习指导

大数据的复习

  1. 大数据的思维方式 选择题   相关而非因果,效率而非精确
  2. 大数据的基本特征 四个 处理速度快  数据类型多   价值密度大  数据量大
  3. Hadoop  是基于Java语言开发的  基于谷歌提出 的
  4. 填空题   奠定了基础 起源  Apache Lucene项目的创始人 Doug Cutting开发  文本搜索库
  5. Hadoop的生态系统:HDFS MapReduce Yarn  HBse Hive PIg  十分 至少五个 并且要写出功能 课本page34
  6. Hadoop的运行模式 三种  单机模式  伪分布式模式  分布式模式
  7. 开发工具 eclipse
  8. 配置文件 四十六页 配置文件的名称 xml  文件  core-site.xml    hdfs-site.xml yarn-site.xml  mapred-site.xml 端口号9000
  9. 58页体系结构  :名称节点 客户端 和数据节点
  10. 59页hdfs的访问过程三点:

1.首先 用户的应用程序通过HDFS的客户端将文件名发送到名称节点

2.名称节点接收到文件名之后,在HDFS 目录中检索文件名对应的数据块,再根据数据块信息找到保存数据块的数据节点地址 ,将这些地址回送给客户端

3.客户端接收到这些数据节点地址之后 ,与这些数据节点并行的进行数据传输操作,同时将操作结果的相关日志提交到名称节点

11.64页默认的工作路径是什么 :user/<currentUser>

12.66页 cp 命令 mv命令  rm命令删除一个文件 70页上传下载命令  put  get  72页 chown命令 改变所有者 和课本例子是一样的

Hadoop fs –cp student.txt a.txt hadoop fs –cp a.txt /test/b.txt

Hadoop fs –cp student.txt a.txt /t1

Hadhoop fs –mv a.txt b.txt hadhoop fs –mv a.txt /test/c.txt

Hadhoop fs –mv c.txt d.txt /t1

Hadoop fs –rm a.txt   hadoop fs –rm –f a.txt

Hadoop fs –touchz z.txt

Hadoop fs –put a.sh / hadoop fs –put a.sh  /c.sh

Hadoop fa =get /user/jmxx/student.txt  ~/a.txt

Hadoop fs –chown student a.txt

 

Hadoop fs –put a.sh b.sh  /test 

hadoop fs –put –f *.txt  *.sh  /use/jmxx/test1

hadoop  fs –put  -t.c

 

 

 

 

13.hbase面向列表的分布式开源实现是谷歌table的

14.104页系统架构 由哪三部分组成分别是Region Server服务器群和HBase Master服务器构成

  1. shell命令110页 三个题每个两分
    1. 怎样建表 create  输入 hbash 进入交互命令行状态

Create `nsl :t1`,{NAME=>’F1’,VERSION=>5}创建表t1 命名空间为nsl 列族为f1. 版本数为5

Create ‘a’,’b’,’c’

Create ‘student’,’sno’,’sname’,’sex’,{NAME=>’sage,VERSION=>3}

    1. desc用于显示表的结构

desc‘student’用于显示表的结构

    1. put  向表中添加数据  都是字符串
      1. put ‘student’,’150001’,’snaem’,’lia\ming’

put ‘student ‘,’150001,’sname:nickname’,’pepp er‘

    1. get
      1. get ‘student’,’150001’
      2. get ‘student’,’150001’,’sage’
      3. get ‘student’.’150001’,’sname:nickname’
    2. get ‘student’,’15001’,{COLUMN=>’sage’,VERSION=>3}
    3. 货物student行键15001 列族sage多个版本的值 并且指定时间戳的范围

get ‘student’,’15001’,{COLUMN=>’sage’,VERSION=>3,TIMERANGE=>[1517875955236,15157875958588]}

5.list用于列出HBASE中的表,

List ‘abc.*’  list ‘ns:abc.*’

6.drop删除表

Drop ‘t1’

  1. 数据仓库 141页 数据在hdfs中四中基本类型

内部表    外部表  分区 和桶

  1. Hive是一个基于Hadoop的数据仓库工具 能够提供简单的类SQL 编程功能
  2. 152页 创建数据的操作 打开数据库 创建表不考
    1. 创建数据库 create datebase test
    2. 打开数据库
      1. show  表的名称
      2. USE datebase_name;  将某个数据库设置为用户当前的数据库
      3.  

 

  1. 159页 查询
  2. 164页查询的例子 装入不考  只靠查询  语句  考三个  链接 外连接 join  分组 过滤166页
    1. Select a.sno,a.sname,b.cno,b.grade from student a join sc b on s.sno=b.sno;
    2. Select a.sno,a.sname,b.cno,b.grade from student a join sc b on s.sno=b.sno and b.grade>80;
    3. Select a.sno,a.sname,b.cno,b.grade from student a join sc b on s.sno=b.sno where b.grade>80;

分组:select sno,count (*),avg (sage) from sc group by sno;

分组过滤: select sno ,count (*),avg (grade) from sc group by sno having couont (*)>1;

  1. MapReduce 会Wordcount ,实例  去重复的  行不让重复  
  2. 179页shufle过程   map端和reduce端
  3. 序列化   看一看  有点印象  输入  188页 文件输入  文本输入  输出  文件文本输出 默认为文本输出
  4. MapReduce编程 靠两个 最后一个不考  就考原题 mian函数头文件不用写 ,自连接不考
  5. 220页 Spark Scale语言编写的内存计算框架 支持Sale Java 和Python语言的的API 接口 选择题
  6. 221页  spark 主要的使用场景:
    1. 迭代式算法 交互式数据分析 流应用
  7. 222页Spark生态系统四部分组成 
    1. 资源管理层    
    2. 数据存储层
    3. Spark核心层
    4. Spark组件层  
      1. Spark SQL 
      2. Spark Streaming
      3. Mlib
      4. GRaphX
  8. 225页 部署模式  哪几种四种
    1. 1.local本地模式
    2. 2. standalone模式
    3. 3. mesos模式
    4. 4.Yarn模式
  9. 第八章考两个 一个两分 

1.254页map将原rdd中的每一个元素都加上2来产生一个新的RDD

  Scala  >val rdda=sc.parallelize(1 to 4,3)

Scala > val rddb=rdda.map (x=x+2)

Scala >rdda.collect

Reso:Array [Int]=Array(1,2,3,4) 

Scale> rddb.collect

Res1;Array [Int]=Array(3,4,5,6)

2.flatmap 

Scala> val rdda =sc.parallelize(List(List(1,2),List(3,4),List(5,6,7))

Scala>val rddb=rdda.,map (x=>x)

Scala>val rddc=rdda.faltMap(x=>x)

Scala>rddb.collect

Res3:Arry[List[Int]]=Arry(List(1,2),List(3,4),List(5,6,7))

Scala>rddc.collect

Res4:Array [Int]=Array (1,2,3,4,5,6,7)

 

 mapvalues 

scala > val rdd =sc.parallelize(List(“a",1) (“b",2) (“c",3),(“d”,4))

scala>rdd,mapValues(x=>x+1).collect

res5:Array [(String,Int)]=Array((a,2),(b,3),(c,4)(d,5))

 distinct 259页

scala >val a=sc.parellelize(List(1,2,3,5,3,9,32),2)

scala>a.distinct.collect

res1:Array [String]=Array (1,2,3,5,9)

scala >val b=sc.parallelize(List (1,2,3,4,5,6,7,8,9,10))

scala>b.distinct(3).partitions.lenth

res2:Int=3

 

 

14 15看看   collect264页collect用于将一个RDD转换成数组

Def collect() : Array [T]

 

 

猜你喜欢

转载自blog.csdn.net/qq_41826183/article/details/85090528