大数据特点和基本处理流程

1.大数据的4V特性

中文 英文
大量化 volume
快速化 velocity
多样化 variety
价值化 value

2.大数据的基本处理步骤

  1. 数据获取
    flume
    数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据
  2. 数据清洗
    mapreduce
    清除不需要,错误,无效的数据
  3. 数据存储
    hdfs
    性能,可用,可靠,成本等方面考量
  4. 数据处理
    hive
    按业务需求处理
  5. 数据分享
    sqoop,kettle
    可视化展示,最大化利用数据价值

3.Hadoop

  1. apache旗下开源软件平台,广义是指Hadoop生态圈
  2. 利用分布式集群,根据具体业务,对海量数据进行分布式处理
  3. 核心组件包括COMMON,HDFS,YARN,MAPREDUCE

4.组件

组件名称 主要功能
HDFS 分布式文件系统
MAPREDUCE 分布式运算程序开发框架
HIVE 基于文件系统和运算框架的SQL数据仓库工具
ZOOKEEPER 分布式协调服务基础组件
HBASE 分布式数据库OLTP
Mahout 基于分布式运算框架的机器学习算法库
Saoop 数据的导入导出工具
Flume 日志数据采集框架

5.分布式系统

  1. 划分成多个子系统或模块,各自运行在不同机器上,通过网络通信协作实现整体功能
  2. 操作系统,程序设计语言,编译系统,文件系统,数据库

6.ETL (数据仓库技术)

中文 英文
抽取 extract
交互转换 transform
加载 load

7.BI

  1. 商业智能
  2. 将企业现有数据有效整合,快速准确提供报表提出决策依据,帮助作出业务决策
  3. 需求分析和功能实现依赖的技术组件
    BI基本流程
    技术组件

猜你喜欢

转载自blog.csdn.net/wxfghy/article/details/80404536