ChatGPT在数据分析中的应用 - 代码天地

ChatGPT在数据分析中的应用

业界资讯 2023-06-05 02:07:49 阅读次数: 0

最近，机器学习和人工智能技术在数据分析领域中发挥着越来越大的作用。而chatgpt正是这个领域最受欢迎的仿人聊天 AI 。但是，对于许多数据科学家和分析师来说，chatgpt并不是他们首选的工具。相反，pandas、sk-learn是数据科学家的最爱，因为它是一个python数据分析库，可以轻松处理和分析大量数据。

在本文中，将介绍chatgpt和pandas搭配使用时的三个主要场景：数据清洗、数据可视化和特征工程。

本文所有代码均来自“知否AI问答”，下面分别举例说明每个场景下的应用。这里只是做简单的说明，“知否AI问答”并不只局限于该深度的应用。

以下示例均使用“辅助编程”下的“代码生成”模块。

数据清洗

数据清洗是数据分析的重要一部分。在数据分析中，我们收集到的数据可能存在许多重复、缺失或非常规数据。为了确保数据的准确性和可靠性，我们需要筛选和清洗数据。

例如，有一份带有通讯录信息的数据，需要对“电话号码”、“电子邮件”、“身份证号码”等信息进行，重复值、空值、格式不合法的数据进行清洗和标记。

点击“代码生成”模块中输入需求和需要生成的脚本语言

2.评估生成的代码质量，集成到我们的代码中

2.数据可视化

数据分析的另一个重要部分是数据可视化。通过可视化数据，我们可以更好地了解和理解数据。

例如，有一份金融数据，生成描述公司股票价格的变化或公司的盈利情况的代码。包括条形图、折线图和散点图。

3.特征工程

在机器学习中，特征工程是最重要的任务之一。在这项任务中，我们需要利用聪明的特征工程技术来识别和提取数据中的关键特征。使用chatgpt可以帮助我们生成文本来描述数据中的特征、属性和关系的python代码。特征工程的内容很多，本文只是简单介绍了几种常用的方法。

线性回归计算斜率和方差

2.数据密度计算正常状态/周期

基于聚类——数据密度（DBSCAN）提取典型（正常状态）特征，DBSCAN是基于一组邻域来描述样本集密度的空间聚类算法，将具有足够密度的区域划分为簇。

3.相关分析计算特征间关系

皮尔森相关系数 (Pearson Correlation) 是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性，结果的取值区间为[ -1 ,1 ] [ -1 ,1 ][-1,1]，-1表示完全的负相关，+1表示完全的正相关，0表示没有线性相关。

4.归一化、标准化

现实的数据一般都是有单位的，比如常用身高的单位有米、厘米，这些情况会影响到数据分析的结果，这个无量纲化并不是说统一量纲为米，而是说，无论是米还是厘米，最后都会变成1，也就是没有了单位。无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化

5. 聚类KMean

K-Means算法原理，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。

通过将它们结合使用，我们可以在数据清洗、数据可视化和特征工程等多种场景中发挥它们的作用。最终，它们可以帮助我们更好地分析数据、识别关键特征和生成有意义的见解。

ChatGPT的强大在于已经学会了目前人类大部分的“非感性类型”的知识，我们在与之交流的时候，他会把相对确定、与问题最匹配的答案和知识反馈给我们，极大的降低我们搜索和查询的成本。

猜你喜欢

转载自blog.csdn.net/cloudwizdom/article/details/130844632

ChatGPT在数据分析中的应用

规则引擎在数据分析中的应用

ChatGPT在数据科学中的应用与前景

Pendulum详解3——Pendulum在数据分析中的应用 - 时光的数据探险

Python Set intersection() 方法在数据分析的应用

EXCEL在数据分析中的运用(框架篇)

【EXCEL】在数据分析中的使用三

【EXCEL】在数据分析中的使用二

【EXCEL】在数据分析中的使用一

Python有哪些应用方向在数据分析上有什么优势

阿里云 Serverless 异步任务处理系统在数据分析领域的应用

ChatGPT如何应用在数据治理的具体场景中？

python在大数据分析中的应用

在数据分析的核心工作中，最好用的编程语言是哪几种？

在数据分析过程中对合并的训练集和测试集进行标记

谈谈统计学正态分布阈值原理在数据分析工作中的运用

Python在数据分析中的作用，一文带你了解Python，学习Python

数据分析的应用

在数据分析、挖掘方面，好书推荐

数据地图在商业数据分析中的5种应用

DataX在数据迁移中的应用

python的set在大数据分析中的应用

数据分析在旅游业中如何应用？

深度学习在时空大数据分析中的应用

大数据分析在商业决策中的应用和优势

数据分析中的统计与机器学习应用

机器学习在地震数据分析中的应用

python数据分析与应用

ORACLE数据快照技术在数据交换中的应用

谁说chatGPT要取代数据分析师？

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)