Surveying the complementary role of automatic data analysis and visualization in knowledge discovery

Enrico Bertini; Denis Lalanne; VAKD '09 Proceedings of the ACM SIGKDD Workshop on Visual Analytics and Knowledge Discovery: Integrating Automated Analysis with Interactive Exploration Pages 12-20 Paris, France — July 28 - 28, 2009

分类

(1)VIS型：完全基于可视化的技术，无需任何类型的算法支持

(2)V++型：以可视化为主要分析手段，包含一些支持可视化的自动计算形式

(3)M++型：以数据挖掘算法为主要数据分析手段，可视化提供支持理解和验证结果

(4)VM型：包含可视化和挖掘集成的技术，无法区分主导这两个过程中的任何一个角色

V++型

(1)投影

自动分析方法通常在可视化的内部工作中进行，通过在数据项和它们的图形对象在屏幕上的位置之间创建映射。这种方法最传统的类型是多维缩放（MDS）。

(2)数据缩减

数据缩减是计算支持可视化的另一个领域。可视化具有众所周知的可伸缩性问题，它限制了一次显示的数据用例或维度的数量。自动方法可以降低数据复杂度，控制信息丢失，同时允许更有效地使用屏幕空间。模式匹配技术可以用与用户定义查询匹配的选定数据用例的可视化来代替数据概述。抽样可以减少具有受控信息丢失的数据用例数量。特性选择可以通过保留包含数据中大部分有用信息的子集(因此最有可能显示有趣的模式)来减少数据维数。

(3)模式公开

在一些可视化技术中，提取有用模式的有效性取决于可视化的配置方式。自动方法可以帮助配置可视化，使有用的模式更容易地出现在屏幕上。同样，在视觉化中，视觉配置的自由度是有限的，模式检测算法可以帮助使一些视觉模式更突出，从而更容易看到。例如，Vizster将社交网络图的节点组织在被彩色区域包围的自动检测集群中。Johansson等人在中描述了一个增强版的平行坐标，其中集群和一系列用户控制的传递函数帮助用户揭示复杂的结构，否则很难(如果不是不可能的话)捕捉到这些结构。

M++型

(1)模型表示

可视化是为了便于对挖掘技术提取的模型进行解释。根据所使用的方法，解释模型的容易程度可能会有所不同。一些模型自然地适合于可视化抽象(例如，分层聚类中的树状图)，而另一些模型则需要更复杂的设计(例如神经网络或神经网络、支持向量机)。除了解释之外，可视化还可以作为一种直观地表达用户对模型或模型部分的信任程度的方式。与可视化相关的交互允许与模型“玩”，允许对模型及其底层数据进行更深入的理解。

(2)模式探索和过滤

一些挖掘方法产生了复杂和众多的模式，难以用紧凑的表示形式加以总结;特别是关联规则。在这种情况下，可视化通常采用类似于普通数据可视化的技术，模式的管理类似于原始数据。这里的可视化有助于获得和概述这些模式的分布，并理解它们的本质。交互过滤和直接操作工具在从大量无趣的模式中找到有趣的模式方面扮演了重要角色。

VM型

(1)白盒集成

在这种集成中，人与机器在模型构建过程中进行合作，以使算法中的中间步骤可视化，并由用户决定如何指导模型构建过程。这种系统相当罕见。有一些合作构建分类树的例子，如在[18]中介绍的，用户控制构建过程，在任何阶段都可以要求计算机在他或她的位置进行一步，比如分割节点或扩展子树。

(2)黑盒集成(反馈回路)

挖掘和可视化之间的集成也可以通过将算法作为黑盒来间接实现，但是用户可以在一个紧凑的可视循环环境中“玩”参数设置，在这个环境中参数的变化会自动反映在可视化中。这样，即使不明确，参数和模型之间的联系也可以直观地理解。或者，同样的整合可以以一种“相关性”的方式获得“反馈”方式，系统生成一组可选的解决方案，用户指示系统上最有趣的方案，并给出如何生成新方案的提示。

数据可视化之"Surveying the complementary role of automatic data analysis and visualization in knowledge discovery"

Surveying the complementary role of automatic data analysis and visualization in knowledge discovery

分类

V++型

M++型

VM型

猜你喜欢