机器学习笔记 - LUX:用于自动探索性数据分析的 Python API

1、自动化 EDA 的需求

        探索性数据分析是分析数据集以总结特征的重要统计意义并通过适当的视觉效果可视化每个特征的传播的过程。但是,当数据集中有许多特征时,可视化每个特征是一项繁琐的任务,因为检查每个特征的相关性将是一个漫长的过程。因此,这就是 EDA 自动化过程在减少花在数据分析上的总时间以及花在优化特征选择和异常值分析上的时间方面发挥重要作用的地方。

        这就是需要自动化探索性数据分析过程的地方,各种 Python 库和 API(如 LUX、SweetViz、AutoViz 等)支持探索性数据分析的自动化。在本文中,让我们探讨如何使用 LUX Python API 来自动化探索性数据分析过程。

2、Lux库

        Lux 是一个 Python 库,它通过自动化可视化和数据分析过程来促进快速轻松的数据探索。通过简单地在 Jupyter 笔记本中打印出数据框,Lux 推荐了一组可视化,突出显示数据集中有趣的趋势和模式。可视化通过交互式小部件显示,使用户能够快速浏览大量的可视化集合并理解他们的数据。

        LUX 模块下支持的一些标准小部件如下。

相关小部件 

        相关性小部件有助于以散点图的形式分析数据的两个数字特征之间的相关性。所有数值特征将被映射成两个特征的集合,并且可以可视化两个特征之间的相关性,以便分析具有更高相关性的特征。

分布小部件 

        LUX python API 的分布小部件负责为所有数字特征生成直方图视觉效果,通过直方图箱提供每个特征的计数。分布小部件主要有助于分析数值特征的频率

出现小部件 

        LUX python API 的出现小部件负责通过分析数据中存在的分类特征的出现频率来生成水平条形图。对于每个类别特征和每个类别的类别特征,频率出现在出现小部件下以视觉形式提供。

地理小部件

        LUX API 的地理小部件基本上显示了数据集中地理位置的等值线图。为地图上的每个区域计算某些数字特征的平均值,只需将鼠标悬停在地图上,就可以在数据中的每个地理位置下计算每个区域的平均值。

3、可视化示例

        在这篇文章中,让我们看看如何使用 LUX Python API 来自动化探索性数据分析过程。为了使用 LUX python API,我们必须首先在工作环境中安装 LUX API。

!pip install lux-api

        现在在工作环境中安装 LUX API 后,让我们将工作环境中的 API 与 pandas 模块一起导入以读取数据集。

import lux
import pandas as pd

        在某些工作环境中,必须通过安装相应的可视化小部件来允许某些用于从 API 进行可视化的小部件。 下面让我们看看如何允许 LUX API 在 Google Colab 中生成视觉效果。

from google.colab import output
output.enable_custom_widget_manager()

        一旦设置了小部件,最后一步就是在工作环境中使用 pandas 模块读取数据集。

df=pd.read_csv('/content/drive/MyDrive/Colab notebooks/EDA using LUX/WA_Fn-UseC_-HR-Employee-Attrition.csv')
df

         这就是通过在 LUX 激活的工作环境中读取数据帧,整个探索性数据分析过程是自动化的并生成各种小部件的方式。

相关小部件输出解释

        在上图中,让我们考虑第一个图月收入和总工作时间,我们可以看到这两个特征是如何相互关联的。

分布小部件输出解释

        在上图中,如果我们考虑第一个图,我们可以很容易地解释数据集中存在的每个数字特征的出现频率。

出现小部件输出解释

        在上图中,如果我们考虑第一个图,我们可以清楚地看到特征性能评级有两个类别,我们也可以相应地分析每个类别的出现频率。

4、使用 LUX 的自定义特征可视化

        除了可视化整个数据集之外,LUX 还可以灵活地分析所需特征的特征,如下所示。但是对于选择的自定义功能,LUX API 下支持新的三个小部件,即 Enhance、Filter 和 Generalize。

df.intent = ["YearsAtCompany","HourlyRate"] 
df

        所以这里从数据中选择了两个数值特征来使用LUX API来了解它的各种特征。

        因此,如果从数据集中选择所需的特征,这就是 LUX API 生成的可视化小部件。让我们尝试了解每个小部件必须传达的内容。

        自动化探索性数据分析有助于减少 60% 的数据清理和分析工作。通过自动化探索性数据分析,优化特征选择和检查特征之间的相关性变得容易,因此可以利用更多时间为使用数据的各个任务生成更通用和可靠的模型。在 python 提供的各种自动探索性数据分析 API 中,LUX 就是这样一种 API,其中数据的整个分析是通过读取 LUX 激活环境中的数据以从数据中生成合适的见解来获得的。

猜你喜欢

转载自blog.csdn.net/bashendixie5/article/details/125474849