使用PowerBI的Power Query浏览和分析数据

当PowerBI中导入数据源后,右侧“字段”模块下会出现数据源中所选择的表。

点击“主页”——“转换数据”(在“查询”工具页签),即可打开“Power Query 编辑器”。//或 在任意一个表中单击右键,在弹出菜单中选“编辑查询”。

预览 SQL Server 查询

在此任务中,你将预览 SQL Server 查询的数据。 首先,你将了解数据的相关信息。 你还将使用列质量、列分布和列配置文件工具,来了解数据,并评估数据质量。

  1. 请注意“Power Query 编辑器”窗口左侧的“查询”窗格。

    “查询”窗格包含针对每个所选表的各个查询。

  2. 选择第一个查询“DimEmployee”。

    DimEmployee 表存储的每个行表示每个员工。 行的子集表示销售人员,将与你要开发的模型相关。

  3. 请注意左下方状态栏中的表统计信息 - 此表包含 33 个列和 296 个行。

    状态栏的屏幕截图

  4. 在“数据预览”窗格中,水平滚动以查看所有列。

  5. 请注意,最后五列包含表或值链接。

    这五个列表示与数据库中其他表之间的关系。 它们可用于将表联接在一起。 

  6. 若要评估列质量,请在“视图”功能区选项卡的“数据预览”组中,选中“列质量”。

    “视图”功能区选项卡的屏幕截图

    通过列质量,可以轻松确定有效、错误或空值的百分比。

  7. 对于 Position 列(倒数第六列),注意到 94% 的行都是空的 (null)。

    Position 列的屏幕截图

  8. 若要评估列分步,请在“视图”功能区选项卡的“数据预览”组中,选中“列Distribution(分步)”。

  9. 再次查看 Position 列,请注意有四个非重复值和一个唯一值。

  10. 查看 EmployeeKey(第一)列的列分布,其中包含 296 个非重复值和 296 个唯一值。

    列分布的屏幕截图

    当非重复值和唯一值的计数相同时,这表示列包含唯一值。 建模时,某些表包含唯一列,这一点很重要。 它们将用于创建一对多关系。

  11. 若要查看列值,请在“视图”功能区选项卡的“数据预览”组中,选中“列Profile(配置文件)”。

  12. 列值的屏幕截图

  13. 选择“BusinessType”列标题。

  14. 请注意,“数据预览”窗格下将打开一个新窗格。

  15. 查看列统计信息和值分布。

  16. 请注意以下数据质量问题:有两个表示 warehouse 的标签(“Warehouse”以及拼写错误的“Ware House”)。

包含两个标签(“Warehouse”和“Ware House”)的值分步屏幕截图

  1. 将光标悬停在“Ware House”栏上,请注意有 5 个行包含此值。

从 CSV 文件获取数据

在此任务中,你将基于 CSV 文件创建查询。

  1. 若要添加新查询,请在“Power Query 编辑器”窗口的“主页”功能区选项卡的“新建查询”组内,单击“新建源”向下箭头,然后选择“文本/CSV”。

    “主页”功能区上的“新建源”按钮的屏幕截图

参见:实验室 - 在 Power BI Desktop 中准备数据

https://docs.microsoft.com/zh-cn/learn/modules/get-data/lab-prepare

猜你喜欢

转载自blog.csdn.net/figosoar/article/details/114360956