数据可视化 | Tableau从入门到高手 入门&联接关系&数据预处理

Tableau 人人可用、处处可用的分析

Tableau 是一个可视化分析平台,它改变了我们使用数据解决问题的方式,使个人和组织能够充分利用自己的数据。利用 Tableau 查看并理解任何数据。 Tableau Software 可以帮助人们查看并理解数据,可连接到几乎任何数据库,只需拖放即可创建 …

数据文化

数据文化是重视、践行和鼓励以数据为基础的高质量决策的人员共同的行为和信念。它让数据融入到组织的运营模式、思维方式和本质特征之中。形成数据文化后,您组织中的每个人都能获得自己所需的洞见,真正做到以数据驱动,让您最为复杂的业务难题也能迎刃而解。

Tableau社区

说到这个Tableau不得不提官方的社区Tableau Public里面每天都有世界各地的优秀作品展示。我们能够从从中汲取灵感创想。
在这里插入图片描述

数据连接

Tableau支持的数据连接有很多,平时常用的本地的Excel文件,文本文件,Json文件,远程的服务器:Tableau Server 、MySQL、Oracle、Mongo db等
连接有些数据库需要安装不同的数据库驱动。

因为Tableau有内置的数据,所以后面我们是使用内置的数据来进行展示
在这里插入图片描述

使用本地的数据集

这里使用的是本地的"实例1-超市"

在这里插入图片描述

基本窗口的认识

这就先初步认识,后面具体使用的时候,还会具体的讲解
在这里插入图片描述

点击数据源,这里我们会看到源数据的具体情况,并且能够进行一些简单的预处理
修改字段,设置别名,处理空值等等

在这里插入图片描述

数据模型

在Tablue中数据分为两层,逻辑层和物理层

  • 在“数据源”页面画布中看到的默认视图是数据源的逻辑层,使用关系(或“关系线”)来合并逻辑层中的数据
  • 物理层,使用联接和并集在物理层的表之间合并数据,双击逻辑表就可以查看物理表

逻辑表
在这里插入图片描述

具有多个相关表的数据源的顶级视图。这是逻辑层。可以使用关系(“关系线”)来合并逻辑表。它们不使用联接类型。它们就像物理表的容器。

物理表
在这里插入图片描述

双击逻辑表可将其打开并查看其物理表。可以使用联接或并集合并物理表。在此示例中,“Book”(书籍)逻辑表由三个联接的物理表(“Book”(书籍),“Award”(奖项)、“Info”(信息))组成。

在以前版本的 Tableau 中,数据模型只有物理层。在 Tableau 2020.2 及更高版本中,数据模型具有逻辑(语义)层和物理层。
在这里插入图片描述
在以前的版本中,表之间的直接进行物理层面的关联,结果会保存到数据源中,源数据将不再独立。在现在的版本中 逻辑层中的表不会合并到数据源中,它们保持独立(规范化)也便于以后操做。
在这里插入图片描述
逻辑表充当已合并物理表的容器。逻辑表可以包含单个物理表。或者,它可以包含通过联接或并集合并在一起的多个物理表。

关系和关联

关系

关系是为分析合并来自多个表的数据的一种动态、灵活的方式。关系描述两个表如何基于公共字段相互关联,但不将表合并在一起。在表之间创建关系时,表将保持独立,同时保持其单独的详细级别和域。

  • 显示为逻辑表之间的灵活关系线
  • 需要您选择两个逻辑表之间的匹配字段
  • 不需要您选择联接类型
  • 使关联表中的所有行和列数据在数据源中可能可用
  • 在数据源中和分析期间保留每个表的详细级别
  • 在多个详细级别创建独立域。在数据源中,表不会合并在一起。
  • 在分析期间,根据正在使用的字段自动创建相应的联接。
  • 不会重复聚合值(当性能选项设置为“多对多”时)
  • 保留不匹配的度量值(当性能选项设置为“某些记录匹配”时)

联接

联接是一种更静态的数据合并方式。联接必须在分析之前提前在物理表之间定义,并且不能在不影响使用该数据源的所有工作表的情况下进行更改。联接的表始终合并为单个表。

  • 在物理表之间显示时带有维恩图图标
  • 需要您选择联接类型和联接子句。
  • 联接的物理表将合并到具有固定数据组合的单个逻辑表中
  • 可能会删除不匹配的度量值
  • 如果字段处于不同的详细级别,则可能会导致聚合值重复
  • 支持需要单个数据表的方案,例如数据提取筛选器和聚合

关系相比联接的优势

  • 使数据源更易于定义、更改和重用。
  • 能够以正确的详细级别 (LOD) 跨多个表分析更轻松地分析数据。
  • 无需使用 LOD 表达式或 LOD 计算在不同详细级别进行分析。
  • 仅查询具有当前可视化项中所使用字段的表中的数据。

使用关系的要求

  • 在关联表时,定义关系的字段必须具有相同的数据类型。更改“数据源”页面中的数据类型不会更改此要求。Tableau 仍将使用基础数据库中的数据类型进行查询。
  • 不能基于地理字段定义关系。
  • 数据模型中不支持循环关系。
  • 无法定义已发布数据源之间的关系

具体的讲解还是请大家移步官方文档

连接方式

  • 实时连接
    每次的刷新图表都会从远程加载数据,实时性较高
  • 数据提取
    就是将远程的数据加载到本地,以后数据将会从本地获取,同样也可以进行手动刷新,将远程的数据保存到本地需花费时间,实时性较差

数据预处理

重命名&设置别名
为了以后的操做我们可以在数据源的部分将部分的字段改成我们想要的数据名,同样也可以指定对应的数据类型。
在这里插入图片描述

拆分字段
有时候一个字段中数据可以拆分成两个有用的数据,我们可以通过指定分割符来进行拆分字段,拆分后的字段会添加到表的最后列。
在这里插入图片描述
在这里插入图片描述

创建字段&合并字段&计算字段
这三个操做的做法和目的都是一样的,都是在原表中添加一个新的字段
这个操做我们可以通过创建计算字段进行实现

在这里插入图片描述
在这里插入图片描述
合并字段
在这里插入图片描述

中括号里面的是字段名,具体的写法和其他编程里面类似,等具体使用的时候在具体讲解

隐藏字段
隐藏字段是缩小数据提取文件大小的一个好方法,因为隐藏的字段会自动从数据提取中排除。
在这里插入图片描述

数据处理没有处理完,在做表格的时候仍然可以处理

总结

本节并没有涉及到绘图的操做介绍了Tableau的一些基础知识,面板的作用和功能,以及两种数据性质逻辑层物理层,还有关系和联接的区别和优势,最后我们还介绍了一些数据预处理的一些内容,修改字段,创建新字段合并字段等;

猜你喜欢

转载自blog.csdn.net/qq_52007481/article/details/127953960