让数据分析自动化:开源数据分析工具Rath介绍

Rath是一款 增强分析(augmented analytic) 型数据可视化分析工具,只需导入数据源,Rath就会帮助你自动化的完成常见的分析任务并把存在有趣洞察数据的通过可视化展示出来。

Github地址:github.com/Kanaries/Ra…

Rath是做什么的?为什么要使用Rath?

数据探索分析(EDA)的工作中,大部分工作都需要依靠人力完成。分析人员需要了解数据的各种特性,并找到潜藏的规律和洞察。这些工作在过去凭借着如Tableau,PowerBI等工具,就可以由分析人员快速的自助完成。但随着数据的复杂度日益增加,对数据的探索分析工作也变得越来越困难。据统计,生产环境下的单个探索分析的数据集涉及到的字段数量(维度、指标等)在过去两年翻了9倍。这意味着过去一个分析人员在分析时平局要分析十多个指标,现在则要处理上百个指标。但分析人员使用的分析工具或BI仍在使用老旧的依靠人力分析的方式。Rath则通过提供自动化的数据分析能力,快速提取数据集中的规律和潜在线索,提供给用户,提升数据探索分析的效率。

另外,很多经验丰富的从业者对自己所处的行业非常了解,但缺少数据分析的知识和技术,这时,Rath便可以为其提供智能的数据分析服务,让业务人员专注在业务逻辑本身,而不需要关心各种分析技巧和算法。


传统的数据探索分析的过程需要做大量的尝试工作,由于分析人员并不能提前发现具有潜在洞察的字段,所以需要逐步尝试、搜索逐步定位。这一步依赖于分析人员具备充分的领域知识、数据分析能力、甚至是一些可视化分析的技巧。Rath会帮助你降低这一步的使用门槛,帮助你去自动化的进行统计分析与交互式可视化设计的工作,让你更专注在解读、理解、提出假设并验证等更有意义的活动上。这一优势会在数据集更加复杂、对领域理解更加深入的场景下会更加凸显出来。

如Kaggle上的Kelper望远镜的数据集,如果缺少专业的领域知识,在做分析时会非常困难。面对大量的字段,分析人员往往无从下手,需要做大量的尝试,才可能发现一些有意义的规律进行分析。这种分析方式无疑是低效的,在数据集更为复杂、字段数更多的场景下,该问题愈发明显。当数据集达到100字段以上,即便是经验丰富的数据科学家,也要花费一份功夫。Rath则针对这种问题,提供了自动化的解决方案,让机器帮助你自动完成对数据集的分析与探索,并提供一些有潜在价值的推荐,帮助你更快的发现问题。
image.png
如图所示,使用tableau等便利的可视化探索工具也难以下手,很多的维度或度量组合很难发现明显的具有统计性结论的视图。

借助Rath的自动化分析能力,则可以帮你快速生成在统计上有潜在结论的可视化(强相关、趋势、异常等)。
image.png

image.png
image.png

可以看到,Rath可以感知数据中的有趣的模式与规律,并自动化设计出可视化将其展示出来,下面是Rath的Demo视频。

(老版,新版可以直接看下文)



加下来我们可以来看看Rath的使用步骤。

数据源导入

首先,在Rath中上传你想要分析的数据集(目前支持csv, json格式的数据),找到文件上传按钮,点击。这里可以选择是否进行采样(数据集过大时使用)。Rath对csv文件支持流式数据采用,所以即便数据集非常庞大,也不用担心。
image.png
拿到数据后,如下图,可以看到数据的预览情况
image.png

完成上传后,可以点击配置按钮,调整自己对字段的理解(哪些字段是维度/自变量,哪些字段是度量/因变量),Rath会帮你对大多数字段的类型进行推断,所以你只需要进行大致的检查并调整你觉得推断不合理的字段即可。
image.png

image.png
或者可以用右侧的配置面板。


在数据源配置界面,你也可以调整数据清洗的策略,甚至进行数据采样和字段加工。

数据分析与算法可视化

完成数据源导入后,点击 extract insights按钮。系统会自动跳转到notebook页面(旧)。如果你不是很关心分析的过程和一些参数的控制,也可以直接跳转到Explore或者dashboard界面。
image.png

洞察结果展示与可视化推荐

Explore页面会展示所有系统推荐的可视化图表。你可以在这里一张一张的进行浏览。系统推荐的图表是按照推荐的优先级排好序的,所以页面越靠前的图表相应的推荐度就越高。Rath在这里除了会从庞大的数据集中帮你找到有趣的视图外,还会为你设计出更高效的可视化展示方式来帮助你更快的理解数据中的故事。

image.png
自杀人数在不同的世代的人群中分布差异很大。
image.png
 上图说明,在人口为1000w到2000w的发展中国家,男性自杀率明显高于女性。

基于你感兴趣的图表进行联想

当你发现你感兴趣的图表时,可以点击联想按钮(小灯泡),rath会帮助你找到和这张可视化内容相关联的可视化帮助你进行更详细的分析。

image.png

联想结果展示
image.png

sui_demo.png
当你对某张推荐的图表感兴趣时,可以跳转到该图表的页面,以便于后续基于该图表再次进行联想

image.png
下图所示的就是点击跳转后,主图表会跳转到你刚刚感性趣的那张图表的页面。后续如果继续点击联想按钮,可以基于当前图表继续联想。
image.png
新的联想结果
image.png

如果你有明确的目的,更关心某一些特定的维度或指标,你可以使用rath的搜索功能,直接搜索你关心的信息:
image.png

洞察解读:多种洞察类型发现

Rath现在使你可以发现更具体的洞察类型、如异常、趋势、群簇等。

如下图,Rath会告诉你被推荐的视图具体是因为什么被推荐出来的,其会说明各种洞察类型的显著性、并在必要时提供更详细的信息(如具体的异常点是谁)。

image.png

直接生成交互式报表/数据新闻

如果你想一次性对数据集有一个更全面的了解,可以前往dashboard页面,点击dashboard生成按钮,系统会帮助你直接生成若干张可视化报表!

这种功能也可以提供数据新闻的能力。很多时候,我们每天关注的问题是数据驱动的,而不是固定的几张dashboard。可能某一天分析人员关心的问题涉及多张不同的dashboard,要综合下来看才能发现问题。这时候就可以使用rath的自动化推荐功能制作一张动态的数据新闻,每天自动推送给用户,提供根据实时数据的数据洞察分析,用户可以对其关心的内容进行深入的下钻分析,或跳转到某个已有的线上报表。

image.png
image.png

得到报表后,点击某张图表右上角的use as filter按钮,即可开启联动功能

Jan-09-2020 11-56-45.mp4 (6.78MB)

相关资源

尝试使用线上版分析一下分析数据吧:Kanaries Rath
Github地址: github.com/Kanaries/Ra…

猜你喜欢

转载自juejin.im/post/6996849251372236808