论文阅读| ファルコン:スケーラブルリンクされた視覚化のためのインタラクティブレイテンシと解決感度のバランスをとります

作者:ドミニク・モリッツ、ビル・ハウ、ジェフリーHeerさん

CHI 2019年に発表され、3人の著者は、ワシントン大学のインタラクティブ・データ・ラボからです

商品コード:https://github.com/uwdata/falcon

簡単な紹介

リンクされた可視化は、(リンクの可視化システム)ブラシ、ズームなどの操作、対話操作、リンク(リンク)は、異なる視覚上の異なるビューの視覚的に更新されたビューの種類によって選択されます。効果的な探査をサポートするために、リンクされた可視化は、遅延に敏感排除するための迅速な応答を提供しなければなりません。データ量の百万人以上、伝統的な可視化手法を実現することができない場合は、リアルタイムの探査を、一連の質問につながります。

本論文では、ハヤブサは、大規模な低遅延のデータは、探検コールドスタートのために10億個のデータセットを達成するための視覚エフェクトプログラムをリンクされました。ビューのファルコンバランスのとれた相互作用の遅延と精度、クエリおよびシステムインタフェースリンクビジュアライゼーションの両方を最適化し、ブラシオプションリンク(ブラッシング及びリンク)遅延を低減します。データインデックスを結合し、データを段階的ローディングインタラクティブ解像度によってサブインデックス遅延を最適化するために、ブラシから選択ファルコンシステム負荷データを用いて、プログレッシブの相互作用などのプリフェッチ、ビューは、スイッチング時間を短縮します。実験は、鷹が高価な事前計算およびストレージコストをかけずに、50fpsのブラシ選択された相互作用の待ち時間を達成し、表示します。

関連研究

  • リンクされた可視化商用可視化ソフトウェアは、のようなタブロー、powerBI、DataVが広く使用されています。ブラッシングと同時に、他のビューとの間の結果のサブセットを示しながら、ユーザビューは、対話型ブラシのサブセットの選択された部分との間の異なる寸法を示すように、インタラクティブ手段を連結することによって補充されるよう、それらは、しばしば、視覚的なヒストグラムの一実施形態として使用されています。
  • 紙に探索視覚分析にインタラクティブレイテンシの影響(2014 TVCG)において、劉とHeerさんは、パン(PAN)と比較して500ミリ秒遅延するユーザー行動、ユーザが選択したブラシ(ブラッシング及びリンク)よりも大きな影響を指摘し、ズーム(ズーム)より長い待ち時間感度を持っています。
  • スピードアップクエリや目標のインタラクティブな可視化、それらのどれを達成するために事前にプログラムデータやインデックススパースデータブロックを使用して過去の作品は、高い計算およびストレージのコストにつながることはありません。これらの記事は、その上imMens(2013 EuroVis)、ナノキューブ(2013 VIS)とを持っています。
  • ファルコン次元データインデックスを分解、それだけで分解が単一のアクティブビュー、特定のビュー(アクティブビュー)とのユーザインタラクション、部分負荷に必要なインデックスデータと対話をサポートしています。そうインデックスの各相互作用に必要なサイズは、爆発の大きさを回避するビューの数に線形です。

インターフェイスデザイン

  • ファルコンは、ゼロ、一次元または二次元のヒストグラムを有する、インストルメントパネルの視覚的表示を提供します。図は示し便が結果データを視覚化します。各ビューは、データがボタンを介して濾過されていません表示するかどうかを選択することができますブラシオプション、ズーム、パン機能、同期の更新だけでなく、ブラッシングとリンクすることによって、クエリ結果のすべてのビューをサポートしています。
  • ブラシがビューから選択されることに留意されたい正面図(アクティブビュー)であり、残りは二次ビュー(受動図)であり、上図は、ブラシ(第2の2行目)から選択されるマウスがアクティブなビューです。

アルゴリズムとモデル

データインデックス

大数据可视化系统中,我们常常使用数据索引来存储数据,以此优化后端处理中的时间复杂度和空间复杂度。数据索引又叫data tile, datacube。如下图所示,一个1维的直方图,我们可以使用一个同样长度的数组,每条数据按照维度信息放入相应的数据方格当中,形成数据索引。如果是2维的直方图,同理,我们需要一个2维的数组(一个平面)作为数据索引,此时每个直方图的相应格子就是平面中的某一行或者某一列的和。3维依次类推,是一个立方体,此时每个直方图的相应格子就是立方体中的某个平面的和。

假设数据条数是T, 维度数为m, 每个维度的划分精度为n,那么构建时间复杂度: \(O(T)\)空间复杂度: \(O(n^m)\)查询复杂度: \(O(n^{m-1})\)。可以发现空间复杂度和查询复杂度都随维度呈指数型增长,这样在高维度(多视图)的可视化系统中,存在巨大的维度灾难。针对较高的查询复杂度,我们可以使用sum area table查询复杂度降到\(O(2^m)\),但是处理数据索引的空间复杂度依然巨大,当可视化系统的前后端分离的情况下,更会带来巨大的传输延迟和存储负担。

本文针对这个情况提出处理当前刷选窗口(active view)相关的数据子索引的方案,有效减小了空间复杂度,也一并减少了查询复杂度。假设有5个维度,每个维度粒度是10,显示五个单维度的直方图。旧方案需要\(O(10^5)\)的空间复杂度和\(O(2^5)\)的查询复杂度(有sum area table), 只会预处理一次。新方案冷启动无需预处理,每次切换刷选窗口(active view)时需要O(4 * 100)的空间复杂度和仅仅O(4)的查询复杂度。

Falcon 采用两种数据索引的实现方案。一是如果数据量比较小(< \(10^6\)), 会直接在前端生产高维数据索引, 进行查询。二是如果数据量很大,通过后端的高性能GPU数据库(OmniSci)来生成数据索引。由于falcon只需要当前界面数据子索引的思想,有效减小了响应时间。

延时加载与线性插值

有时计算数据索引需要很长时间,falcon会优先计算粗精度下的数据索引,之后再加载细精度的索引。如果框选范围处于条形图的中间位置,falcon会使用线性插值的方式进行拟合。论文通过实验证明,尽管使用线性插值,真实值和拟合值的Wasserstein distance处于非常小的范围内(99%的情况下< 0.01)。

实验

作者将Falcon与SquareCrossfilter进行了比较,记录了300万条记录的5个视图的刷选实验结果。Falcon的性能是恒定的,接近浏览器的最大帧速率60fp。反观SquareCrossfilter,当向刷选开始和结束过程中,系统会反应缓慢。

此外本文还针对不同数据集进行了测试。下表统计不同数据集大小的所有视图的在切换刷选窗口(active view)等待时间的平均值,中位数和第95百分位树,分别在像素分辨率(1维为500个bins,2维200×200bins)和bin分辨率(1维25bin和2维25×25bins)下进行统计。测试结果其中包括了网络传输的时间,灰色显示计算第一个视图的传输完成的时间,Browser指只有前端的实现方法,Core指使用GPU数据库作为后端的实现方法。

实验表明:

  • falcon对于只有前端和前后端分离的两种方案,都有显著的性能提升。
  • falcon的框选操作的时长不再取决于原数据量大小,框选精度不再取决于原本数据的最小精度。

  • falcon通过逐步加载和线性插值的方式来减小用户在数据量较大时的不舒适感。

总结

针对大数据Linked Visualizations,本文提出了考虑刷新延迟优先于视图切换延迟,以及降低交互的初始分辨率以改善视图切换时间的方案。基于原型系统falcon,当连接到后端GPU数据库系统时,falcon支持流畅浏览和刷选数十亿条记录,而无需昂贵的预计算或其他内存等方面的限制。但falcon还有许多不足之处,如:

  • falcon只实现了关于求和的功能,并不涉及中位数,平均数等更复杂的计算。也不涉及非数值型数据的计算。

  • 默认用户每次只会刷选一个视图,如果用户使用的是触屏设备,这个假设就会被推翻。

  • 更注重刷选的操作,对于缩放等操作并没有进行优化和讨论。

  • 对于数据索引的处理方面有更多的发挥空间,比如数据压缩,中间件的处理等等。

总之,falcon从一个不同的视角解决了Linked Visualizations的刷选延迟问题,实现了对十亿数据集的冷启动探索。

おすすめ

転載: www.cnblogs.com/Basasuya/p/11323855.html