在工程师眼里,大数据计算与可视化究竟是怎样的?

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/xiaokaiabcde/article/details/102583303

数据计算

当对数据进行处理时,处理简单、结构化的数据集较为简单,算法复杂度也易于预测和评估,但是对于处理半结构化,非结构化数据时呈现多样化的问题,分析数据困难更大,算法复杂度超越了经典摩尔定量,整个算法性能也不易控制。在数据中心数据价值链中,为了挖掘数据的价值。需要根据不同的数据类型分类,采取不同的算法分析。

数据分类

1

 时序数据

基本描述:随着时间推移反复测量而得到的数值和事件序列。

数据举例:股票数据,交通数据。

主要数据结构:半结构化,非结构化数据。

算法举例:条件随机场,隐马尔可夫模型。

2

序列数据

基本描述:由带有或不带有时间概念的已经排序的要素或事件序列构成。 

数据举例:零售数据,基于数据

主要数据结构:半结构化,结构化数据。

算法举例:序列对比算法,隐马尔可夫模型。

3

图数据

基本描述:以图结构构成的数据集合,通常使用G=(V,E)表示一个图,其中V表示图中节点集合,E表示图中的边集合。

数据举例:社交网络数据,WWW数据,生物网络数据

主要数据结构:半结构化,非结构化数据。

算法举例:图挖掘算法,协同过滤算法,奇异值分解,网页排名。

4

流数据

基本描述:数据连续,持续流通,具有数据到达速度快,规模大和不确定性。

数据举例:电商交易数据,监控系统数据,互联网流量数据,传感网络数据,电信流量数据。

主要数据结构:非结构化数据。

算法举例:K-均值,高阶奇异值分解,支持向量机,平等树学习。

如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群:数字5221数字89307,私信管理员即可免费领取开发工具以及入门学习资料

5

空间数据

基本描述:指在地理系中代表物理对象的数值信息。空间数据能够标识地球上任何物理对象位置,大小,形状。包含的属性,以及实体更多的信息。

数据举例:地图数据,医疗影响数据,远程传感数据,对地观测数据,轨迹数据。

主要数据结构:结构化数据,半结构化数据,非结构化数据。

算法举例:学习选择与空间数据特征关联。

6

多媒体数据

基本描述:由不同类型媒体综合组成的,通常包括文本,图形,图像,声音,视频图像,动画等不同类型的媒体,其特点是数据量大,对连续媒体数据要求传输速度快,并保持不同数据流之间的同步。

数据举例:文本数据,图形数据,图像数据,声音数据,视频数据。

主要数据结构:结构化数据,半结构化数据,非结构化数据。

算法举例:图像分割方法,运动矢量分析方法,模型构建的数字信息处理技术。

机器学习算法

1

监督学习

1. 线性回归模型

基本型线性算法

对数概率回归算法

线性判别分析算法

2. 分类学习

多分类学习算法

决策树算法

朴素贝叶斯算法

支持向量机算法

2

无监督学习

1.  聚类学习

聚类算法

高斯混合学习算法

2. 降维学习

主成分分析算法

K临近学习算法

核化线性降维算法。

3

半监督学习

1. 半监督学习

主动学习

协同训练

4

强化学习

1.  强化学习

马尔可夫决策处理

Q学习

有模型学习

免模学习

数据可视化能力

数据价值链最终需要将数据的隐含价值显性展现,以直观的体现数据的特征和价值。便于人们理解数据的表达。视觉定义为一种以某种概要形式抽取的信息。包括响应信息单位的各种属性和变量。数据可视化是把数据转换为图形图像的方式,帮助人们理解大量、复杂的数据。

数据可视化主要分为三类:

科学可视化

科学可视化主要研究如何可视化科学研究中产生的大量数据,如流体动力学模拟产生的数据,向量场和张量场等。这些数据本身往往包含在真实世界中存在的几何结构。

信息可视化

信息可视化主要研究抽象数据,如文本,图像,网络,股票,社交媒体等;

可视化分析

可视化分析和数据挖掘的最终目标是一致的。而可视化技术大体可以分为:

1.空间布局可视化

2.抽象/汇总可视化

3.交互式/实时式可视化

同时,数据可视化使数据变得更加容易理解,帮助越来越多的企业和组织从大数据中发现价值,化繁为简,实现更有效的决策过程。通常采用有效的可视化工具来实现。

大数据数据价值的发现主要通过可视化分析来完成。

1

空间布局可视化

   基本概述:将数据对象映射到坐标空间中的一个特定点的计算方法。

   特征:

1. 将认知能力通过空间信息可视化在终端上。

2. 无法展现数据中的复杂关系。

3. 一般采用树,图或网络来实现可视化呈现。

可视化图例:折线图,条形图,散点图,树映射图,弧形图等。

2

抽象和汇总可视化

基本概述:可视化渲染前对海量数据进行处理和汇总

 特征:

 1. 处理海量数据。

 2. 通过层次聚类算法对海量数据扩展。

 3. 以更紧凑将维方式展现数据。

可视化图例:直方图分级,数据立方图,层次聚类。

3

交互式/实时可视化

 基本概述:支持用户实时交互式可视化探索。

特征:

1:满足用户实时交互需求。

2:允许用户快速体现见解和反馈实时交互结果。

3:以数据驱动洞察数据价值。

可视化图例:微软PivotTable,Tableau,阿里DataV和百度Echarts等实时交互软件。

可视化层需要有丰富的可视化图形,以便完成数据价值的图形展示。

猜你喜欢

转载自blog.csdn.net/xiaokaiabcde/article/details/102583303