快学Big Data -- 目录(三)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xfg0218/article/details/82316813

Hadoop 总结...............................................................................................................................- 297 -
概述.....................................................................................................................................- 298 -
CDH......................................................................................................................................- 298 -
安装 Hadoop2.6.4 非 Zookeeper 集群版.........................................................................- 298 -
1-1)、安装...............................................................................................................- 299 -
1-2)、修改配置文件...............................................................................................- 299 -
A)、修改 core-site.xml....................................................................................- 299 -
B)、修改 hadoop-env.sh.................................................................................- 299 -
C)、修改 hdfs-site.xml....................................................................................- 299 -
D)、修改 slaves...............................................................................................- 300 -
E)、修改 mapred-env.sh.................................................................................- 300 -
F)、修改 yarn-site.xml.................................................................................... - 301 -
G)、修改 yarn-env.sh......................................................................................- 301 -
H)、创建文件夹..............................................................................................- 301 -
1-3)、传送到其他的机器上...................................................................................- 301 -
1-4)、Hadoop 启动命令.........................................................................................- 301 -
1-5)、集群启动.......................................................................................................- 302 -
1-6)、查看进程.......................................................................................................- 302 -
1-7)、启动脚本.......................................................................................................- 303 -
安装 Hadoop2.6.4 Zookeeper 集群版............................................................................- 303 -
1-1)、安装...............................................................................................................- 303 -
1-2)、修改配置文件...............................................................................................- 303 -
A)、修改 core-site.xml....................................................................................- 303 -
B)、修改 hadoop-env.sh.................................................................................- 304 -
C)、修改 hdfs-site.xml....................................................................................- 304 -
D)、修改 slaves...............................................................................................- 306 -
E)、修改 mapred-env.sh.................................................................................- 306 -
F)、修改 yarn-site.xml.................................................................................... - 306 -
G)、修改 yarn-env.sh......................................................................................- 307 -
H)、创建文件夹..............................................................................................- 307 -
1-3)、传送到其他的机器上...................................................................................- 307 -
1-4)、Hadoop 启动命令.........................................................................................- 308 -
1-5)、集群启动.......................................................................................................- 309 -
1-6)、查看进程.......................................................................................................- 310 -
1-7)、启动脚本.......................................................................................................- 310 -
- 17 -
MapReduce 整体的流程详解............................................................................................- 312 -
Hadoop HDFS 系统详解.................................................................................................- 313 -
概述.............................................................................................................................- 313 -
用户上传文件思路.................................................................................................... - 313 -
图例.....................................................................................................................- 314 -
用户读取数据的流程................................................................................................ - 315 -
图例.....................................................................................................................- 315 -
元数据的 Checkpoint 过程.......................................................................................- 316 -
1-1)、概念.......................................................................................................- 316 -
1-2)、查看元数据的信息...............................................................................- 316 -
1-3)、图例.......................................................................................................- 318 -
1-4)、checkPoint 的附带作用........................................................................- 318 -
DataNode 工作机制..................................................................................................- 319 -
1-1)、dataNode 工作机制.............................................................................- 319 -
1-2)、namenode 故障判断........................................................................... - 319 -
Hadoop & hadoop fs 常用命令.................................................................................- 319 -
1-1)、hadoop 常用参数列表...................................................................... - 319 -
1-2)、 Hadoop fs 的参数列表...................................................................- 320 -
1-3)、创建文件夹...........................................................................................- 321 -
1-4)、上传文件...............................................................................................- 321 -
1-5)、查看文件...............................................................................................- 322 -
1-6)、下载 HDFS 上的文件............................................................................- 322 -
1-7)、重命名文件...........................................................................................- 322 -
1-8)、删除 HDFS 上指定的文件....................................................................- 322 -
1-9)、删除指定的文件夹...............................................................................- 323 -
1-10)、命令详细.............................................................................................- 323 -
1-11)、查看文件的前 N 行............................................................................- 328 -
1-12)、查看 HDFS 上文件的总大小..............................................................- 328 -
1-13)、查看 HDFS 文件上的前几行的数据..................................................- 328 -
1-14)、两个集群之间复制数据.....................................................................- 328 -
1-15)、查找日志.............................................................................................- 328 -
1-16)、杀掉进程.............................................................................................- 328 -
1-17)、hdfs dfsadmin 常用命令....................................................................- 329 -
1-18)、查看 blocks 的信息.............................................................................- 330 -
1-19)、显示文件的尾部.................................................................................- 331 -
1-20)、显示文件系统,文件系统大小,已用空间,可用空间和已使用百分比
.............................................................................................................................- 331 -
1-21)、archive 压缩文件................................................................................- 332 -
1-22)、数据平衡.............................................................................................- 332 -
1-23)、查看 Hadoop 的版本..........................................................................- 333 -
图实例.........................................................................................................................- 333 -
1-1)、Datanode 信息......................................................................................- 333 -
1-2)、Nodes 信息............................................................................................- 333 -
1-3)、SecondaryNameNode 信息................................................................. - 334 -
- 18 -
HDFS 误删除恢复方法.......................................................................................................- 334 -
1-1) 、通过垃圾箱恢复.........................................................................................- 335 -
A) 、准备数据................................................................................................- 335 -
B)、对文件进行删除......................................................................................- 335 -
C)、恢复删除的数据......................................................................................- 335 -
D)、查看配置..................................................................................................- 336 -
1-2)、通过快照恢复...............................................................................................- 336 -
A)、创建目录和文件......................................................................................- 336 -
B)、创建快照..................................................................................................- 336 -
C)、删除文件..................................................................................................- 336 -
D)、恢复文件..................................................................................................- 337 -
JAVA 操作 HDFS..................................................................................................................- 337 -
1-1) 、环境的准备.................................................................................................- 337 -
1-2) 、代码实现.....................................................................................................- 337 -
A)、文件的增删改查......................................................................................- 337 -
B)、通过流的方式访问 Hdfs..........................................................................- 341 -
Hadoop MapReduce 实例..............................................................................................- 343 -
1-1)、Linux 实例.....................................................................................................- 343 -
A)、Map 端代码..............................................................................................- 344 -
B)、Reduce 端代码........................................................................................- 345 -
C)、Client 端代码...........................................................................................- 346 -
D)、上传到 Linux............................................................................................- 347 -
E)、运行 wordcount........................................................................................- 347 -
F)、查看信息.................................................................................................. - 348 -
1-2)、windows 上开发(是单机版程序)................................................................- 348 -
A)、Map 端代码..............................................................................................- 349 -
B)、Reduce 端代码........................................................................................- 350 -
C)、Client 端代码...........................................................................................- 351 -
D)、查看运行过程..........................................................................................- 352 -
1-3)、windows 下向 Linux 集群提交代码.............................................................- 352 -
1-1)、客户端修改为.......................................................................................- 352 -
1-2)、在加上 root 的权限..............................................................................- 354 -
1-3)、查看运行过程.......................................................................................- 354 -
Hadoop 其他总结..............................................................................................................- 355 -
1-1)、Shuffer 概念................................................................................................. - 355 -
1-2)、文件的切片...................................................................................................- 355 -
Hadoop 优化总结..............................................................................................................- 355 -
1-1)、hadoop 优化思路.........................................................................................- 355 -
A)、硬件方面..................................................................................................- 355 -
B)、Linux 方面优化........................................................................................- 356 -
1-2)、集群典型的节点分配...................................................................................- 356 -
Hadopo 集群测试工具......................................................................................................- 357 -
1-1)、软件下载.......................................................................................................- 357 -
1-2)、使用方法.......................................................................................................- 357 -
- 19 -
A)、进入到 PageRank 的目录........................................................................- 357 -
B)、执行脚本..................................................................................................- 357 -
C)、查看生成的数据......................................................................................- 358 -
基于 HDP2.6.0.3-8 的 Hadoop TestDFSIO、mrbench 和 nnbench 是三个广泛被使用的测试- 359 -
1-1)、Hadoop Test 的测试.....................................................................................- 359 -
A)、进入的目录..............................................................................................- 359 -
B)、查看参数..................................................................................................- 359 -
1-2)、TestDFSIO write 的性能测试........................................................................- 359 -
A)、查看参数..................................................................................................- 360 -
B)、运行实例..................................................................................................- 360 -
C)、查看数据..................................................................................................- 360 -
D)、查看执行的结果......................................................................................- 360 -
1-3)、TestDFSIO Read 的性能测试.........................................................................- 360 -
A)、运行命令..................................................................................................- 361 -
B)、查看运行的情况......................................................................................- 361 -
1-4)、清空测试数据...............................................................................................- 361 -
1-5)、查看 hadoop 文件系统................................................................................ - 362 -
1-6)、nnbench 测试 [NameNode benchmark (nnbench)]...................................- 362 -
A)、查看 nnbench 选项..................................................................................- 362 -
B)、运行命令..................................................................................................- 362 -
C)、查看结果..................................................................................................- 362 -
1-7)、mrbench 测试[MapReduce benchmark (mrbench)]....................................- 363 -
A)、查看帮助..................................................................................................- 363 -
B)、下面的例子会运行一个小作业 2 次......................................................- 363 -
Hive 总结................................................................................................................................... - 364 -
概述.....................................................................................................................................- 365 -
外部表与内部表的区别.................................................................................................... - 365 -
特性.....................................................................................................................................- 365 -
1-1)、 可扩展.........................................................................................................- 365 -
1-2)、延展性...........................................................................................................- 365 -
1-3)、容错...............................................................................................................- 366 -
安装 Hive............................................................................................................................ - 366 -
1-1)、安装...............................................................................................................- 366 -
1-2)、修改快捷方式...............................................................................................- 366 -
1-3)、解决 JAR 冲突的问题...................................................................................- 366 -
1-4)、本地储存元数据...........................................................................................- 366 -
A) 、复制配置文件........................................................................................- 366 -
B)、运行 Hive..................................................................................................- 366 -
C)、查看默认的保存路径..............................................................................- 368 -
1-5)、MySql 储存元数据........................................................................................- 369 -
A)、前提是需要安装 Hadoop 集群与 Mysql................................................- 369 -
B)、在/etc/profile 中配置路径...................................................................... - 369 -
C)、修改配置文件..........................................................................................- 369 -
D)、运行 Hive..................................................................................................- 370 -
- 20 -
E)、在 MySql 上查看元数据的信息.............................................................- 372 -
F)、导入 mysql 包...........................................................................................- 373 -
Hive 的初级应用................................................................................................................- 373 -
1-1)、插入普通的数据...........................................................................................- 373 -
1-2)、 SQL 执行方式..............................................................................................- 374 -
A)、查看帮助..................................................................................................- 374 -
B)、hive -e 命令的使用..............................................................................- 374 -
C)、静音模式..................................................................................................- 375 -
D)、附加文件的形式......................................................................................- 375 -
E)、env 命名空间可作为向 Hive 传递变量的一个可选的方式..................- 375 -
1-3)、外部表数据(使用 hdfs 上传数据)..........................................................- 376 -
A)、查看表的字段信息..................................................................................- 376 -
B)、查看执行结果..........................................................................................- 376 -
1-4)、内部表数据(使用 hive 的命令导入与导出数据)......................................- 377 -
A)、查看表的结构..........................................................................................- 377 -
B)、准备数据..................................................................................................- 377 -
C)、本地和 HDFS 把数据导入到 Hive 中......................................................- 377 -
D)、把数据导出的本地..................................................................................- 378 -
E)、把数据导出到 HDFS.................................................................................- 379 -
F)、导出到另外一张表中.............................................................................. - 380 -
1-5)、HIVE 加载 SQL 文件的形式执行脚本.........................................................- 380 -
A) 、写配置文件............................................................................................- 380 -
B)、写 SQL 文件..............................................................................................- 380 -
C)、测试结果..................................................................................................- 381 -
1-6)、查看创建表的属性信息...............................................................................- 382 -
1-7)、Hive 命令外部传参....................................................................................- 383 -
A)、传一个参数实例......................................................................................- 383 -
B)、带多个参数的实例..................................................................................- 383 -
1-8)、Insert into 与 Insert overwrite 的区别.....................................................- 384 -
A)、查看元数据..............................................................................................- 384 -
B)、overwrite 插入数据................................................................................- 384 -
C)、into 插入数据..........................................................................................- 385 -
D)、两者的区别..............................................................................................- 386 -
1-9)、在当前 Hive 模式下查看 HDFS 中文件的信息...........................................- 386 -
Hive 高级应用................................................................................................................... - 386 -
1-1)、表分区...........................................................................................................- 386 -
A)、准备数据..................................................................................................- 386 -
B)、创建表分区..............................................................................................- 386 -
C)、上传数据..................................................................................................- 387 -
D)、查看数据..................................................................................................- 388 -
E)、查看 HDFS 结果........................................................................................- 389 -
F)、查看分区.................................................................................................. - 390 -
1-2)、创建外部表...................................................................................................- 390 -
1-3)、数据的压缩...................................................................................................- 391 -
- 21 -
1-4)、复制表...........................................................................................................- 391 -
1-5)、创建分桶表...................................................................................................- 392 -
A)、创建分桶表..............................................................................................- 392 -
B)、插入数据..................................................................................................- 393 -
C)、查看数据..................................................................................................- 393 -
1-6)、创建表常用命令...........................................................................................- 394 -
A)、CREATE TABLE...........................................................................................- 394 -
B)、EXTERNAL................................................................................................. - 394 -
C)、STORED..................................................................................................... - 395 -
D)、CLUSTERED BY..........................................................................................- 395 -
1-7)、DDL 其他操作.............................................................................................. - 395 -
A)、增加/删除分区........................................................................................ - 395 -
B)、重新命名..................................................................................................- 396 -
C)、增加/更新列.............................................................................................- 396 -
1-8)、DML 其他操作............................................................................................. - 396 -
A)、Load 的使用............................................................................................- 396 -
B)、INSERT 的使用.........................................................................................- 397 -
C)、SELECT 的使用.........................................................................................- 397 -
1-9)、查看函数命令...............................................................................................- 398 -
保存 select 查询结果的几种方式.....................................................................................- 405 -
1-1)、将查询结果保存到一张新的 hive 表中......................................................- 405 -
1-2)、将查询结果保存到一张已经存在的 hive 表中..........................................- 406 -
1-3)、将查询结果保存到指定的文件目录(可以是本地,也可以是 hdfs)..- 406 -
JOIN 的使用........................................................................................................................- 407 -
1-1)、数据的准备...................................................................................................- 407 -
1-2)、数据的查询...................................................................................................- 407 -
Hive 常用函数的使用.......................................................................................................- 409 -
1-1)、Split 的使用..................................................................................................- 409 -
1-2)、Get_json_object 的使用...............................................................................- 410 -
1-3)、更多函数的使用...........................................................................................- 410 -
Hive 查找需要的配置信息...............................................................................................- 410 -
A)、查找带有关键字 warehouse 的属性信息......................................................- 410 -
B)、查找带有关键字 thread 的属性信息.............................................................- 411 -
Hive 参数优化说明...........................................................................................................- 411 -
Hive 性能优化................................................................................................................... - 412 -
1-1)、有小表链接大表时.......................................................................................- 412 -
1-2) 、对分桶的表.................................................................................................- 413 -
Hive Shell 参数的使用.......................................................................................................- 413 -
1-1)、Hive 的参数..................................................................................................- 413 -
1-2)、添加以下的参数...........................................................................................- 413 -
Hive 列存储简介............................................................................................................... - 414 -
创建表.........................................................................................................................- 414 -
1-1)、orc 详解........................................................................................................- 414 -
A)、创建表并插入数据..................................................................................- 414 -
- 22 -
B)、查看数据.................................................................................................... - 414 -
C)、查看 hadoop 上的数据.............................................................................- 414 -
1-2)、parquet 详解................................................................................................ - 415 -
A)、创建表并插入数据..................................................................................- 415 -
B)、创建 parquet 格式的数据表.................................................................. - 415 -
C)、查看 hadoop 上的数据...........................................................................- 416 -
Hive 行转列........................................................................................................................ - 416 -
1-1) 、需求.............................................................................................................- 416 -
1-2) 、实现思路.....................................................................................................- 416 -
A)、创建表......................................................................................................- 416 -
B)、加载数据..................................................................................................- 417 -
C)、explode 实现行转列...............................................................................- 417 -
Hive Web 图形界面安装.................................................................................................- 417 -
1-1)、下载 hive 的源码..........................................................................................- 417 -
1-2)、修改配置文件...............................................................................................- 417 -
1-3)、添加 JAR........................................................................................................ - 418 -
1-4)、启动命令.......................................................................................................- 418 -
1-5)、查看 web 界面..............................................................................................- 418 -
Hive 与 Tez 结合.................................................................................................................- 418 -
1-1)、安装编译 Tez 需要的软件............................................................................- 418 -
A)、安装 protobuf xz...................................................................................... - 419 -
B)、安装 Tez....................................................................................................- 419 -
C)、安装 mvn..................................................................................................- 419 -
1-2)、对 Tez 进行打包............................................................................................- 419 -
1-3)、把 JAR 包上传到 HDFS 中.............................................................................- 420 -
1-4)、修改 Hive 下的 hive-site.xml........................................................................- 420 -
1-5)、解压出编译后的文件...................................................................................- 420 -
1-6)、在 hive-env.sh 中添加如下配置...................................................................- 420 -
1-7)、配置相关的 JAR............................................................................................ - 421 -
1-8)、tez-0.5.4 的 bin/hive-config.sh 中加入 lzo...................................................- 421 -
1-9)、在 tez-0.5.4 的 bin/hive-config.sh 中加入以下配置...................................- 421 -
1-10)、查看效果.....................................................................................................- 421 -
Beeline 链接 Hive..............................................................................................................- 422 -
1-1)、修改 hive-site.xml......................................................................................... - 422 -
1-2)、启动 hiveserver2...........................................................................................- 423 -
1-3)、查看运行的端口...........................................................................................- 423 -
1-4)、使用 beeline 嵌入链接客户端.....................................................................- 423 -
1-5)、使用 beeline 远程链接客户端.....................................................................- 424 -
DBeaver 4.0 链接 Hive 工具.......................................................................................... - 424 -
1-1)、软件下载.......................................................................................................- 424 -
1-2)、链接 Hive.......................................................................................................- 424 -
1-3)、查看 Hive 信息..............................................................................................- 427 -
Hive 常见错误................................................................................................................... - 427 -
1-1)、字符问题.......................................................................................................- 427 -
- 23 -
1-2)、找不到 spark 的 JAR 错误............................................................................ - 428 -
1-3)、查看表结构时出现中文乱码.......................................................................- 428 -
Hive 数据导出与导入方案................................................................................................- 428 -
1-1)、Hive 导入到 Hbase.......................................................................................- 428 -
1-2)、Hive 导入到 Mysql.......................................................................................- 429 -
A)、使用 sqoop 导数据..................................................................................- 429 -
1-3)、Hive 导入到 Redis........................................................................................- 429 -
A) 、编写 Hive 读取数据语句.......................................................................- 429 -
B)、查看导出 HDFS 中的结果....................................................................... - 430 -
C)、查看 redis 结果........................................................................................- 430 -
D)、查看输出的 Log 日志..............................................................................- 430 -
1-4)、Hive 导入到 ES..............................................................................................- 431 -
A)、下载相对应的 JAR...................................................................................- 431 -
B)、创建 hive-es 外部表................................................................................ - 431 -
C)、插入数据..................................................................................................- 431 -
Flume 总结.................................................................................................................................- 432 -
概述.....................................................................................................................................- 433 -
运行机制.............................................................................................................................- 433 -
架构设计要点.....................................................................................................................- 435 -
Flume 安装..........................................................................................................................- 435 -
1-1)、安装...............................................................................................................- 436 -
1-2)、修改配置文件...............................................................................................- 436 -
1-3)、添加快捷方式...............................................................................................- 436 -
1-4)、常见的命令...................................................................................................- 436 -
1-5)、启动程序.......................................................................................................- 437 -
A)、前段启动..................................................................................................- 437 -
B)、后端启动..................................................................................................- 437 -
Flume 运行实例................................................................................................................ - 438 -
1-1)、本地控制台案例...........................................................................................- 438 -
A)、配置..........................................................................................................- 438 -
B)、启动 flume-ng.......................................................................................... - 438 -
C)、使用 telnet 测试..................................................................................... - 440 -
1-2)、本地单机 HDFS 测试案例............................................................................- 441 -
A)、配置..........................................................................................................- 441 -
B)、测试..........................................................................................................- 442 -
1-3)、采集文件目录...............................................................................................- 443 -
A)、配置..........................................................................................................- 443 -
B)、启动..........................................................................................................- 444 -
C)、查看效果..................................................................................................- 445 -
1-4)、两个机器连接...............................................................................................- 446 -
A)、hadoop1 配置.......................................................................................... - 446 -
B)、hadoop2 配置...........................................................................................- 447 -
C)、测试..........................................................................................................- 447 -
1-5)、多机测试实例(高可用配置)...................................................................- 448 -
- 24 -
A)、配置..........................................................................................................- 449 -
B)、启动..........................................................................................................- 452 -
C)、测试..........................................................................................................- 454 -
1-6)、配置详解.......................................................................................................- 456 -
A)、Exec 方式保存到 Kafka............................................................................- 456 -
B)、Netcat 模式............................................................................................. - 456 -
Azkaban 总结.............................................................................................................................- 457 -
概述.....................................................................................................................................- 458 -
其他调度器对比................................................................................................................ - 459 -
为什么需要工作流调度系统............................................................................................- 459 -
实现的方式.........................................................................................................................- 459 -
Azkaban 安装......................................................................................................................- 459 -
1-1)、安装...............................................................................................................- 460 -
1-2)、创建数据库...................................................................................................- 460 -
1-3)、创建 SSL 配置................................................................................................- 461 -
1-4)、配置时区.......................................................................................................- 462 -
1-5)、修改文件.......................................................................................................- 464 -
A)、修改 azkaban-web-2.5.0 文件.................................................................- 464 -
B)、azkaban-web-2.5.0 文件.........................................................................- 465 -
C)、azkaban-executor-2.5.0 文件...................................................................- 465 -
1-6)启动...................................................................................................................- 466 -
A)、启动 executor 服务器..............................................................................- 466 -
B)、启动 Web 服务器.....................................................................................- 466 -
C)、后端启动..................................................................................................- 467 -
D)、错误处理..................................................................................................- 467 -
E)、访问.......................................................................................................... - 467 -
Azkaban 实例.....................................................................................................................- 468 -
1-1)、创建 job 描述文件........................................................................................- 468 -
1-2)、Command 类型多 job 工作流 flow..............................................................- 472 -
A)、创建文件夹..............................................................................................- 472 -
B)、在 win 上写脚本......................................................................................- 472 -
C)、打成一个压缩包......................................................................................- 473 -
D)、查看执行结果.............................................................................................- 473 -
1-3)、HDFS 操作任务............................................................................................. - 473 -
A)、配置文件 fs.job.......................................................................................- 473 -
B)、打包成 zip 文件....................................................................................... - 473 -
C)、查看结果..................................................................................................- 473 -
1-4)、MapReduce 任务...........................................................................................- 474 -
A)、上传文件..................................................................................................- 474 -
B)、写配置文件 mapReduce.job................................................................... - 474 -
C)、打包成 zip 文件....................................................................................... - 474 -
D)、查看结果..................................................................................................- 474 -
1-5)、Azkaban 与 Hive............................................................................................- 475 -
A)、执行显示数据库......................................................................................- 475 -
- 25 -
B)、复杂的 hive 操作.....................................................................................- 476 -
Sqoop 总结................................................................................................................................. - 480 -
概述.....................................................................................................................................- 481 -
工作机制.............................................................................................................................- 481 -
sqoop 安装..........................................................................................................................- 482 -
1-1)、下载并解压...................................................................................................- 482 -
1-2)、修改配置文件...............................................................................................- 482 -
1-3)、加入 mysql 的 jdbc 驱动包.......................................................................... - 482 -
1-4 ) 、启动...............................................................................................................- 482 -
Sqoop 的数据导入.............................................................................................................- 483 -
表数据.........................................................................................................................- 483 -
导入到 HDFS 默认目录..............................................................................................- 483 -
1-1 )、 导入数据...............................................................................................- 483 -
1-2)、查看数据...............................................................................................- 484 -
导入到 HDFS 指定目录..............................................................................................- 485 -
1-1)、导入数据...............................................................................................- 485 -
1-2)、查看数据...............................................................................................- 485 -
导入关系表到 HIVE....................................................................................................- 486 -
1-1)、导入数据...............................................................................................- 487 -
1-2)、查看数据...............................................................................................- 488 -
按照条件导入数据.................................................................................................... - 488 -
1-1)、Where 条件查询..................................................................................- 488 -
1-1)、Select 查询.........................................................................................- 489 -
增量导入.....................................................................................................................- 491 -
1-1)、导入数据...............................................................................................- 491 -
1-2)、查看数据...............................................................................................- 491 -
1-3)、按照时间增将导入数据.......................................................................- 492 -
Sqoop 的数据导出.............................................................................................................- 492 -
1-1)、导出数据.......................................................................................................- 493 -
1-2)、查看数据.......................................................................................................- 493 -
Sqoop 常用 Mysql 操作语句............................................................................................- 495 -
1-1)、查看 mysql 有多少个数据库....................................................................... - 495 -
1-2)、查看某一个数据库下的表...........................................................................- 495 -
1-3)、将 mysql 表中的表结构复制到 Hive 表中..................................................- 495 -
1-4)、将 mysql 中的数据导入到 hive 中.............................................................. - 495 -
1-5)、将 hive 中的表数据导入到 mysql 中.......................................................... - 495 -
Sqoop 作业.........................................................................................................................- 496 -
1-1)、创建作业.......................................................................................................- 496 -
1-2)、验证作业.......................................................................................................- 496 -
A)、 job --list 验证......................................................................................- 496 -
B)、show jobName 验证............................................................................ - 496 -
1-3)、执行作业.......................................................................................................- 498 -
1-4)、查看数据.......................................................................................................- 498 -
Hbase 总结..................................................................................................................................- 499 -
- 26 -
概述.....................................................................................................................................- 500 -
Hbase 特点......................................................................................................................... - 501 -
行的特点.............................................................................................................................- 501 -
表结构逻辑图.....................................................................................................................- 501 -
Row Key 的设计.................................................................................................................- 502 -
hbase 的预分区设计以及热点问题................................................................................. - 503 -
列族.....................................................................................................................................- 504 -
时间戳.................................................................................................................................- 504 -
Hbase 集群搭建................................................................................................................. - 505 -
1-1)、环境搭建.......................................................................................................- 505 -
A)、准备 zookeeper 环境...............................................................................- 505 -
B)、安装 Hbase...............................................................................................- 505 -
C)、修改配置文件..........................................................................................- 506 -
1-2)、拷贝 hbase 到其他节点...............................................................................- 507 -
1-3)、同步时间.......................................................................................................- 507 -
1-4)、启动所有的 Hbase 进程...............................................................................- 507 -
1-5)、查看进程.......................................................................................................- 508 -
1-6)、查看信息.......................................................................................................- 508 -
1-7)、其他启动 HMaster 的方式...........................................................................- 513 -
基本的 SHELL 命令(ruby 语言)....................................................................................- 513 -
查看帮助信息............................................................................................................ - 513 -
A)、简单语句操作..................................................................................................- 516 -
1-1)、创建表...................................................................................................- 516 -
1-2)、添加数据...............................................................................................- 517 -
1-3)、查看表中的数据...................................................................................- 517 -
1-4)、获取列族中的数据...............................................................................- 517 -
1-5)、关闭表...................................................................................................- 518 -
1-7)、删除表...................................................................................................- 518 -
1-8)、查看表的前五个 ROWKEY 的数据...................................................... - 518 -
1-9)、按照个数查询数据的总个数(现在是按照 1000000 统计一次).....- 518 -
1-10)、清空一个表.........................................................................................- 519 -
1-11)、按照过滤条件查找数据.................................................................... - 519 -
B)、复杂语句操作..................................................................................................- 520 -
1-1)、创建表...................................................................................................- 520 -
1-2)、插入数据...............................................................................................- 520 -
1-3)、获取指定行为 row1 的数据................................................................ - 520 -
1-4)、查看整个表的数据...............................................................................- 521 -
1-5)、删除某一个列族中的某一个条件的数据...........................................- 522 -
1-6)、精确删除某一列族中的某一个数据...................................................- 523 -
1-7)、清空表中的数据...................................................................................- 523 -
1-8)、暂停时用某个表...................................................................................- 523 -
1-9)、为某一个表增加列族...........................................................................- 524 -
1-10)、启动某个表.........................................................................................- 524 -
1-11)、删除表.................................................................................................- 524 -
- 27 -
C)、查看 zookeeper 保存的表的信息...................................................................- 524 -
D)、查看 HDFS 上的 Hbase 保存的数据...............................................................- 525 -
E)、把 Hbase 的信息导出到 HDFS 中................................................................... - 526 -
F)、查看集群的状态.............................................................................................. - 526 -
G)、查看当前 Hbase 的版本..................................................................................- 526 -
H)、查看当前登录的用户信息..............................................................................- 526 -
I)、disable 相匹配的表...........................................................................................- 526 -
J)、删除所有的表...................................................................................................- 526 -
K)、开启所有的表..................................................................................................- 527 -
L)、常用 Hbase 命令总结...................................................................................... - 527 -
M)、修改表的名字.................................................................................................- 527 -
Hbase 插入大量数据脚本................................................................................................- 527 -
1-1)、手动创建 Hbase 表.......................................................................................- 527 -
1-2)、编写 Hbase 的 put 数据的脚本...................................................................- 527 -
1-3)、编写 hbase 的 scan 脚本..............................................................................- 528 -
HBase 集群数据迁移方案.................................................................................................- 528 -
1-1)、静态迁移方案...............................................................................................- 528 -
A) 、在 hbase 停止的状态下进行数据的迁移。........................................- 528 -
B)、采用 Hadoop distcp 方式,将以上目录的内容,迁移到另一个集群。- 528 -
C)、在新集群中执行修复数据......................................................................- 528 -
1-2)、动态迁移方案...............................................................................................- 529 -
A)、Replication 备份方案...............................................................................- 529 -
B)、CopyTable 方案........................................................................................ - 529 -
C)、Export and Import 方案...........................................................................- 529 -
1-3)、手动方式.......................................................................................................- 530 -
A) 、从源 HBase 集群中复制出 HBase 数据表表到本地目录...................- 530 -
B)、scp 到新的集群中....................................................................................- 530 -
C)、目标 HBase 导入......................................................................................- 530 -
D)、修复.META.表.......................................................................................... - 530 -
E)、重新分配数据到各 RegionServer........................................................... - 530 -
F)、优缺点.......................................................................................................- 530 -
HBase Snapshot 进行快照备份.........................................................................................- 531 -
1-1)、修改配置.......................................................................................................- 531 -
1-2)、好看数据.......................................................................................................- 531 -
1-3)、snapshot 操作..............................................................................................- 531 -
1-4)、列出当前所有得快照...................................................................................- 531 -
1-5)、基于快照,clone 一个新表.........................................................................- 532 -
1-6)、删除快照信息...............................................................................................- 532 -
1-7)、基于快照恢复表...........................................................................................- 532 -
1-8)、快照复制到其他的集群中...........................................................................- 532 -
Hbase 代码开发................................................................................................................. - 532 -
1-1)、基本增删改查 java 实现.............................................................................. - 532 -
1-2)、过滤器查询...................................................................................................- 543 -
1-3)Hbase 的过滤器分类........................................................................................- 544 -
- 28 -
A)、比较过滤器..............................................................................................- 544 -
B)、专用过滤器..............................................................................................- 544 -
hbase 内部原理..................................................................................................................- 549 -
1-1)、系统架构.......................................................................................................- 549 -
A)、Client.........................................................................................................- 549 -
B)、Zookeeper.................................................................................................- 549 -
C)、Master 职责..............................................................................................- 549 -
D)、Region Server 职责..................................................................................- 550 -
1-2)、物理存储.......................................................................................................- 550 -
A)、整体结构..................................................................................................- 550 -
B)、Srore File & HFile 结构.............................................................................- 551 -
C)、Memstore 与 Storefile..............................................................................- 552 -
D)、HLog(WAL log)..........................................................................................- 552 -
寻址机制.............................................................................................................................- 553 -
1-1)、寻址示意图...................................................................................................- 553 -
1-2)、-ROOT-和.META.表结构................................................................................- 553 -
1-3)、寻址流程.......................................................................................................- 554 -
1-4)、读写过程.......................................................................................................- 555 -
A)、读请求过程:..........................................................................................- 555 -
B)、写请求过程:..........................................................................................- 555 -
Region 管理........................................................................................................................ - 556 -
1-1)、Region 分配...................................................................................................- 556 -
1-2)、Region server 上线........................................................................................- 556 -
1-3)、Region server 下线........................................................................................- 556 -
1-4)、Master 工作机制.......................................................................................... - 556 -
A)、master 上线..............................................................................................- 556 -
B)、master 下线..............................................................................................- 557 -
Hbase 高级应用................................................................................................................. - 557 -
1-1)、建表高级属性...............................................................................................- 557 -
A)、BloomFilter 默认是 NONE 是否使用布隆过虑及使用何种方式.........- 557 -
B)、Version 的版本........................................................................................- 558 -
C)、Compression 命令...................................................................................- 558 -
D)、Alter 命令................................................................................................- 558 -
E)、TTL 命令...................................................................................................- 559 -
F)、Describe 命令.......................................................................................... - 559 -
G)、Disable_all 命令......................................................................................- 559 -
H)、Drop_all 命令..........................................................................................- 559 -
F)、Hbase 表分区.......................................................................................... - 560 -
1-2)、hbase 应用案例看行键设计........................................................................- 562 -
A)、列族数量的设定......................................................................................- 562 -
B)、行键的设计..............................................................................................- 562 -
1-3)、Hbase 和 Mapreduce 结合...........................................................................- 562 -
1-4)、从 Hbase 中读取数据、分析,写入 Hdfs..................................................- 563 -
1-5)、从 Hdfs 中读取数据写入 Hbase.................................................................. - 565 -
- 29 -
1-6)、Coprocessor -- 协处理器............................................................................. - 567 -
A)、Observer 协处理器..................................................................................- 567 -
1-4)、Observer 应用场景示例.......................................................................- 568 -
1-7、二级索引...........................................................................................................- 569 -
A)、row key 索引...........................................................................................- 569 -
B)、 按索引查询种类建立组合索引............................................................- 569 -
C)、利用 Observer 自动维护索引表示例.....................................................- 570 -
1-8)、编写自定义 RegionServer............................................................................ - 571 -
A)、编写代码..................................................................................................- 571 -
B)、上传 HDFS.................................................................................................- 572 -
C)、修改注册器..............................................................................................- 572 -
D)、检查是否注册成功..................................................................................- 573 -
YCSB 测试 HBase 的性能.................................................................................................- 573 -
1-1)、软件下载.......................................................................................................- 573 -
1-2)、使用请查看...................................................................................................- 573 -
1-3)、测试步骤.......................................................................................................- 574 -
A)、清除前查看内存......................................................................................- 574 -
B)、执行清除..................................................................................................- 574 -
C)、清除后查看............................................................................................. - 574 -
D)、创建 hbase 表........................................................................................ - 574 -
E)、编写脚本..................................................................................................- 574 -
F)、查看结果..................................................................................................- 574 -
Hbase 常见错误问题........................................................................................................ - 575 -
1-1)、Hbase 日志频繁 flush...................................................................................- 575 -
A)、查看日志..................................................................................................- 575 -
B)、调整如下参数..........................................................................................- 576 -
C)、调参说明..................................................................................................- 576 -
Phoenix 映射 Hbase 数据表..............................................................................................- 576 -
1-1)、创建内部表...................................................................................................- 576 -
A)、创建 Hbase 表..........................................................................................- 577 -
B)、Hbase 表插入数据...................................................................................- 577 -
C)、查看数据..................................................................................................- 577 -
D)、创建 Phoenix 表.......................................................................................- 577 -
E)、查看 phoenix 数据...................................................................................- 577 -
F)、获取更多帮助.......................................................................................... - 578 -
1-2)、创建视图.......................................................................................................- 578 -
A)、创建 Hbase 表..........................................................................................- 578 -
B)、插入数据..................................................................................................- 578 -
C)、phoenix 映射 Hbase 中的表....................................................................- 578 -
D)、查询 phoenix 中的数据...........................................................................- 578 -
Hbase 数据质量检查....................................................................................................... - 579 -
1-1)、检查 HBase 集群是否损坏........................................................................- 579 -
- 30 -
1-2)、使用 Hbase 的-details 选项将报告更多细节........................................- 579 -
1-3)、检测某个表的健康情况..............................................................................- 580 -
Hbase 导数据的几种方式......................................................................................................... - 580 -
1-1)、hive-hbase-handler 导数据.................................................................................. - 581 -
A)、反编译 JAR 包.................................................................................................. - 581 -
B)、修改配置文件..................................................................................................- 581 -
C)、创建 Hive 的表结构.........................................................................................- 581 -
D)、插入数据..........................................................................................................- 581 -
E)、查看 Hive 中的数据.........................................................................................- 581 -
F)、映射 Hbase 的表.............................................................................................. - 582 -
A)、常见内表..................................................................................................- 582 -
B)、创建外表..................................................................................................- 582 -
G)、查看 HBase 中表结构......................................................................................- 582 -
H)、插入到映射 Hbase 表中的数据..................................................................... - 582 -
I)、查看映射表的数据...........................................................................................- 583 -
J)、查看 Hbase 表中的数据...................................................................................- 583 -
K)、映射 Hbase 已经存在的表..............................................................................- 583 -
L)、查看 Hive 表中的结构..................................................................................... - 584 -
M)、查看数据.........................................................................................................- 584 -
N)、总结..................................................................................................................- 584 -
O)、官网说明..........................................................................................................- 584 -
P)、增量更新与增量更新的说明..........................................................................- 584 -
Q)、Hive 读取 Hbase 数据的说明........................................................................- 584 -
1-2)、Bulkload 方式导数据............................................................................................- 585 -
A)、按照需要的数据的字段把数据导出到 HDFS 中...........................................- 585 -
B)、利用 importtsv 命令生成 Hfile 文件...............................................................- 586 -
C)、查看 Hbase 中的表..........................................................................................- 586 -
D)、把 Hfile 文件导入到 Hbase 中........................................................................- 586 -
E)、总结...................................................................................................................- 586 -
1-3)、Phoneix 导入 Hbase 数据.....................................................................................- 587 -
A)、安装 Phoneix....................................................................................................- 587 -
B)、启动 Phoneix....................................................................................................- 587 -
C)、修改超时时间..................................................................................................- 588 -
D)、Phoneix 常用命令............................................................................................- 589 -
1-1)、查看全部的表的信息...........................................................................- 589 -
1-2)、查看一个表的结构...............................................................................- 589 -
1-3)、删除表...................................................................................................- 589 -
1-4)、查询语句...............................................................................................- 590 -
1-5)、Phoenix 支持的类型.............................................................................- 590 -
1-6)、常用的函数...........................................................................................- 590 -
E)、往 Hbase 中导入数据......................................................................................- 592 -
1-1)、数据从 hive 中导出成 phoenix 支持的 csv 格式................................- 592 -
- 31 -
1-2)、查看 HDFS 上的信息............................................................................- 592 -
1-3)、在 phoenix 中创建表............................................................................- 592 -
1-4)、使用 phoenix 将数据导入 hbase.........................................................- 592 -
1-4)、Hbase 导出数据....................................................................................................- 592 -
A) 、导成制定格式的文件....................................................................................- 592 -
B)、Import/Export 导出到序列化的文件............................................................. - 593 -
1-1)、构造数据...............................................................................................- 593 -
1-2)、导出数据...............................................................................................- 594 -
1-3)、查看 HDFS 上的数据............................................................................- 594 -
1-4)、清空表中的数据...................................................................................- 594 -
1-5)、导入数据...............................................................................................- 594 -
1-6)、查看 Hbase 导入后的数据...................................................................- 595 -
C)、利用 pig 从 HBase 中导出 csv 格式文件........................................................- 595 -
1-1)、安装 pig.................................................................................................- 595 -
1-2)、修改配置文件.......................................................................................- 595 -
1-3)、查看 Pig 是否能使用............................................................................- 595 -
1-4)、使用 pig 导出 csv 文件.........................................................................- 596 -
1-5)、运行脚本...............................................................................................- 596 -
D)、使用 Phoenix 导出 csv 文件...........................................................................- 596 -
1-1)、准备脚本...............................................................................................- 596 -

猜你喜欢

转载自blog.csdn.net/xfg0218/article/details/82316813