大数据背景知识

大数据背景知识

1、大数据的核心问题:
数据存储:分布式存储(HDFS)
数据计算:分布式计算(MapReduce)
2、数据仓库
定义:数据仓库就是一个数据库,比较大,,可以是Oracle,MySQL,一般只做查询操作select
3、OLAP和OLTP
OLTP:online transaction processing 联机事务处理
OLAP:online analytic processing 联机分析处理
4、Oracle数据库中的索引类型
B树索引(默认),balance树:适合insert update delete

位图索引:适合select

5、MapReduce编程模型
(1)任务job = map + reduce
(2)Map的输出是Reduce的输入
(3)所有的输入和输出都是的形式
Map的输入 Map的输出
Reduce的输入 Reduce的输出
(4)k2 = k3,v3是一个集合,该集合的元素是v2
(5)所有输入和输出的数据类型必须是:Hadoop自己的数据类型
Integer——》IntWritable Long——》LongWritable
String——》Text Null——》Nullwritable
原因:Hadoop的数据类型都实现了Hadoop的序列化(什么是Java的序列化)
接口:Writable接口,可以作为Map和Reduce的输入和输出
(6)MapReduce处理的都是HDFS的数据(HBase)
6、BigTable 大表——》HBase
基本思想:把所有的数据存入一张表,通过牺牲存储的空间换取时间,违背关系型数据库范式的要求
问题:引起数据的冗余
优点:提高性能
数据仓库的过程
分布式存储

猜你喜欢

转载自blog.csdn.net/zqq7525/article/details/81407937