大数据入门 离线第一阶段

大数据入门 离线第一阶段

大数据的特点:

  • Volume:数据量大,包括采集、存储和计算的量都非常大;
  • Variety:种类和来源多样化 。包括结构化、半结构化和非结构化数据;
  • Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵;
  • Velocity:数据增长速度快,处理速度也快,时效性要求高;
  • Vwracity:数据逇准确性和可信赖度,即数据的质量。

数据的分析基本步骤:

  1. 明确分析目的
    确保分析框架的体系化和逻辑性,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系
    明白本次的目的,梳理分析思路,并搭建整体分析框架,把分析目的分解,化为若干的点,清晰明了,即分析的目的,用户什么样的,如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。在这里插入图片描述
  2. 数据采集
    一般数据的来源有一下的几种方式:
    数据库
    公开的出版物
    互联网
    市场调查
    ········
  3. 数据处理
    数据处理是指对收集到的数据进行加工整理,形成适合分析的样式,
    数据处理的目的就是从大量的、杂乱无章的、难以理解的数据中,抽取并推到出对解决问题有价值的、有意义的数据。
    数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方式
    数据处理是数据分析的基础 将数据变为可以分析的形式 并且保证数据的一致性和有效性
  4. 数据分析
    指的是用适当的分析方法及工具 对处理过的数据进行分析 提取有价值的信息 形成有效结论的过程。
    数据挖掘 是一种高级的数据分析方法 侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律 数据分析与数据挖掘的本质是一样的 都是从数据里面发现关于业务的知识。
  5. 数据展现
    数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图等
  6. 报告撰写
    数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。

ETL 描述了数据的存入数仓构成
–数据抽取:从不来来源去获取数据 --数据的采集过程(埋点、爬虫、flume,sqoop)
–数据转化:清洗过程(去重、去除空数据)正则 sql
–数据加载:存入数仓的过程

分布式

  • 什么是分布式

把一个服务部署在多台计算机上运行,统一对外提供接口服务,计算机之间能够进行数据的交互通讯

  • 常用分布式方案

分布式应用(rpc通讯方式) 分布式存储 分布式计算

  • 分布式、集群
    • 同一个 服务下的不同功能部署在不同电脑上统一对外提供一个服务就是分布式
    • 不同电脑上,分别部署服务,每台电脑可以独立提供服务,多台电脑之间称之为集群

电脑A HDFS存储A MR计算A

电脑B HDFS存储B MR计算B

Hadoop存储的数据分别在A和B上存储

Guess you like

Origin blog.csdn.net/qq_59472803/article/details/120470451