机器学习算法竞赛实战--3，数据探索 - 代码天地

机器学习算法竞赛实战--3，数据探索

企业开发 2023-07-18 20:36:29 阅读次数: 0

数据挖掘是竞赛的核心模块之一，贯彻竞赛始终也是很多竞赛胜利的关键那么数据探索又是什么呢？可以解决哪些问题？首先应该明确3点，即如何确保自己准备好竞赛使用的算法模型如何为数据集选择最合适的算法如何定义可用于算法模型的特征变量

数据探索可以帮助回答以上这3点，并能够保证竞赛的最佳结果，它是一种总结，可视化和熟悉数据集中重要特征的方法。数据探索有利于我们发现数据的一些特征，数据之间的关联性有助于后续的特征构建

数据初探可以看做赛前数据探索主要包含分析思路，分析方法和目的通过系统化的探索，我们可以加深对数据的理解

在实际竞赛中，最好使用多种探索之路和方法来探索每个变量并比较结果在完全理解数据集后就可以进入数据预处理阶段和特征提取阶段的以便根据所期望的业务结果转化数据集此步骤的目的是确信数据集已准备好应用于机器学习算法

不单是针对每个变量，更是分析变量之间的联系，以及变量和标签的相关性并进行假设检验帮助我们提取有用特征

相关性分析只能比较数值特征，所以对于字母或字符串特征需要先进行编码并将其转化为数值，然后再看特征之间到底有什么关联，在实际竞赛中相关性分析可以很好的过滤掉与标签没有直接关系的特征并且这种方式在很多竞赛中均有很好的效果

数据探索的目的是帮助我们了解数据，并且构建有效特征

单变量分析太过单一不足以挖掘变量之间的内在联系获取更加细腻度的信息，所以多变量分析就变成了必须

分析特征变量与特征变量之间的关系有助于构建更好的特征，同时降低构件冗余特征的概率

学习曲线是机器学习中被广泛使用的效果评价工具能够反映训练集和验证集在训练迭代中分数的变化情况，帮助我们快速了解模型的学习效果

我们可以通过学习曲线来观察模型是否过拟合，通过判断拟合程度来确定如何改进模型

4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)_进击的橘子猫的博客-CSDN博客_混淆矩阵https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839

画混淆矩阵sklearn_爱学习的大白菜的博客-CSDN博客_画混淆矩阵https://blog.csdn.net/csdnliwenqi/article/details/120759519 混淆矩阵Confusion Matrix - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/111234566 【知识】六种基本图表的特点和适用场合 - 腾讯云开发者社区-腾讯云 (tencent.com)https://cloud.tencent.com/developer/article/1044115 统计图表的分类和各种图表的优势？ - 知乎 (zhihu.com)https://www.zhihu.com/question/278758088 17种数据可视化图表，有哪些适用场景和局限 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/54849856

猜你喜欢

转载自blog.csdn.net/m0_63309778/article/details/128808325

《机器学习算法竞赛实战》-chapter3数据探索

机器学习算法竞赛实战--3，数据探索

机器学习算法竞赛实战--1，初见竞赛

机器学习算法探索

《机器学习算法竞赛实战》-chapter2问题建模

机器学习算法竞赛实战--2，问题建模

Spark 2.x 机器学习实战（算法篇：基于Kaggle竞赛数据集，六大算法模型构建）

机器学习：数据竞赛

机器学习实战-基本算法总结3

【机器学习竞赛+笔记干货】工业蒸汽量预测：数据探索篇（二）

机器学习实战之k-近邻算法（3）---如何可视化数据

《机器学习实战3》

机器学习，大数据，深度学习竞赛网站，学习网站，算法刷题网站

实战：Python3入门机器学习经典算法与应用

机器学习实战3-利用决策树算法根据天气数据集做出决策

机器学习实战 knn算法

机器学习实战-KNN算法

机器学习实战PCA算法

机器学习算法及实战——AdaBoost

机器学习实战——KNN算法

机器学习算法实战案例

[机器学习实战] KNN算法

机器学习实战---KNN算法

【机器学习】鸢尾花数据探索

机器学习——数据探索大致流程

机器学习笔记 - 探索 keras 数据集

「Python 机器学习」Matplotlib 数据探索

（原创）(一) 机器学习之数据探索

【机器学习】数据探索---python主要的探索函数

Kaggle竞赛入门实战——机器学习预测房屋价格

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)