10月11日数据挖掘课堂笔记完善

1、区块链

什么是区块链

原文链接如下,这篇文章里还回答了“比特币和Q币有什么区别”。

区块链简介

区块链(Blockchain)是指通过去中心化和去信任的方式集体维护一个可靠数据库的技术方案。通俗一点说,区块链技术就指一种全民参与记账的方式,系统中的每个人都可以有机会参与记账。在一定时间段内如果有任何数据变化,系统中每个人都可以来进行记账,系统会评判这段时间内记账最快最好的人,把他记录的内容写到账本,并将这段时间内账本内容发给系统内所有的其他人进行备份。这样系统中的每个人都了一本完整的账本。这种方式,我们就称它为区块链技术。区块链主要的优势是无需中介参与、过程高效透明且成本很低、数据高度安全。

什么是比特币说的“挖矿”

比特币中的“挖矿”实际上就是记账的过程,比特币的运算采用了一种称为“工作量证明(Proof of Work,PoW)”的机制,系统为了找出谁有更强大的计算能力,每次会出一道数学题,只有最快解出这道题目的计算机才能进行记账。而抢到记账权的计算机会获得25个比特币的奖励。通常把这个行为称为“挖矿”,把获得的比特币视为挖矿成功获得的奖励。

区块链和云计算云存储有什么关系?

云计算通常定义为通过互联网来提供动态易扩展且经常是虚拟化的资源,但是提供云计算平台的往往是一个中心化机构。
区块链组成的网络一般是没有特定的机构,所以区块链更接近分布式计算系统的定义,属于分布式计算的一种。不过,区块链是能够实现云存储的,不同于目前中心化提供云存储空间,区块链有一些提供去中心化的云存储方案。

2、数据仓库发展5个阶段

第一阶段:对报表进行批处理和预定义查询,可以看出发生了什么;
第二阶段:分析为何发生这种情况;
第三阶段:分析建模,预测;
第四阶段:运营支持,连续更新和流程互动;
第五阶段:基于前面四个阶段,根据主题与目标,主动控制将来会发生什么。

3、数据仓库系统的组成

补充

  1. 4个B:数据量大,形式多,速度快,价值大
  2. 元数据(Metadata):描述数据的数据,可分为固有性,管理性,描述性元数据(参考文献见下面链接)
  3. 指标六要素:指标名称、计算方法、计量单位、时间限制、指标数值、空间限制
  4. 商业智能(Business Intelligence):报表查询和展现+数据分析挖掘+数据预警+数据管理。数据分析主要是人来操作,而BI则是如何通过数据发现问题,让企业的每一个决策都有数据参考。
  5. OLAP(联机分析处理)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
  6. OLTP(联机事务处理)是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP与OLTP对比

https://blog.csdn.net/it_man/article/details/8660536

数据仓库系统:以数据仓库为核心,将各种应用系统集中在一起,通过数据分析和报表模块查询工具OLAP、决策分析、数据挖掘完成对信息的提取以满足决策的需要。
数据仓库系统结构
数据源:外部数据,业务数据库,文档资料
数据储存和管理:元数据,数据仓库,数据集市
OLAP服务器:联机分析处理(用不同的手段来进行描述统计)
前端分析工具:数据报表,数据分析,数据挖掘

联机分析处理

  • 概念
    联机分析处理的概念最早是由关系数据库之父爱德华·库德(E·F·Codd)博士于1993年提出的,是一种用于组织大型商务数据库和支持商务智能的技术。
  • 联机分析处理逻辑概念和典型操作
    OLAP展现在用户面前的是一幅幅多维视图。
    1)(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
    2)维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。
    3)维的成员(Member):维的一个取值,是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)。
    4)度量(Measure):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000)。
    OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。
    1)钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill- up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
    2)切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。
    3)旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
  • 联机分析处理系统的体系结构和分类
    关系联机分析处理(ROLAP):星形模型,雪花模型
    多维联机分析处理(MOLAP)
    混合联机分析处理(HOLAP)
星形模型 雪花模型
特点 1、维度表只和事实表关联,彼此之间没有关系 1、维表不与事实表直接关联,而是与另一个维表关联
2、用户能从维表开始,获得关键字,链接到事实表进行查询数据,提高查询性能 2、可以进一步查看数据的粒度
3、每个维表有一个维主键,所有维主键组成事实表的主键 3、减少了数据的冗余,但读取较难,时间较慢
4、维表具有非规范性。 4、维表不规范

OLAP具体介绍

猜你喜欢

转载自blog.csdn.net/qq_38265735/article/details/83017870