机器学习中训练集和测试集归一化（matlab版） - 代码天地

机器学习中训练集和测试集归一化（matlab版）

其他 2018-07-21 18:51:27 阅读次数: 0

转载自 https://blog.csdn.net/lkj345/article/details/50352385

背景介绍：

归一化后加快了梯度下降求最优解的速度，归一化有可能提高精度。
训练集和测试集归一化方法相同。
数据集不小，81*132337，81行表示包含81维属性，132337列表示包含132337条训练数据。
数据中包含NaN数据。
使用matlab中的mapminmax函数，归一化到默认的范围[-1 +1]。

为了方便演示，我们以一个简单的矩阵来说明归一化。

这是3*4的矩阵，表示有4条训练数据，每条数据有3个属性。数据归一化应该针对属性，而不是针对每条数据，针对每条数据是完全没有意义的，因为只是等比例缩放，对之后的分类没有任何作用。

针对属性进行归一化的代码

inst = [1 2 3 4; 2 3 4 5; 3 4 5 6];
inst_norm = mapminmax(inst);

得到的归一化矩阵如下

针对数据进行归一化的代码

inst = [1 2 3 4; 2 3 4 5; 3 4 5 6];
inst_norm = mapminmax(inst')';

得到的归一化矩阵如下

我们应该采用第一种归一化方法，即对属性进行归一化。
训练集和测试集归一化的方法应该相同。
网上有一些说法，觉得训练集和测试集应该放到一起进行归一化，我觉得这种做法有所不妥，这样会让测试集受到训练集的影响，导致训练集和测试集不相互独立。
正确的做法是记录下训练集的归一化方法，用该方法对测试集单独进行归一化，matlab中的mapminmax函数提供了相应的机制。

对于一条新的数据，应该先按照训练集的归一化方法进行归一化，再进行分类，比如对于如下一条新数据，

通过如下代码

inst = [1 2 3 4; 2 3 4 5; 3 4 5 6];
[inst_norm, settings] = mapminmax(inst);
test = [1 3 5]';
test_norm = mapminmax('apply', test, settings);

其中settings记录了训练集的归一化方法，得到以下归一化结果，可以参考矩阵(2)

mapminmax会跳过NaN数据，最好的方法是归一化之后，将NaN赋值成0。

inst_norm(find(isnan(inst_norm))) = 0;

猜你喜欢

转载自blog.csdn.net/weixin_42296976/article/details/81116299

机器学习中训练集和测试集归一化（matlab版）

机器学习中训练集和测试集归一化-matlab

机器学习中的训练集验证集测试集的关系

机器学习中的训练集，验证集及测试集的关系

机器学习，训练集，验证集和测试集的作用

机器学习中训练集、验证集和测试集的作用

机器学习中训练集、验证集和测试集的作用】【转】

如何正确使用机器学习中的训练集、验证集和测试集？

机器学习001—生成训练集和测试集

机器学习：训练集与测试集的划分

5.sklearn之转换器（说白了就是，划分训练集和测试集、以及标准化、归一化数据）

机器学习训练集/开发集/测试集挑选

机器学习：训练集，验证集与测试集

python 机器学习划分训练集/测试集/验证集

机器学习数据集（训练集、测试集）划分方法

机器学习----训练集、验证集、测试集

机器学习笔记：训练集、验证集与测试集

【学习笔记】训练集和测试集

如何进行机器学习模型的训练和评估？如何划分训练集、验证集和测试集？

MATLAB 随机产生训练集和测试集

深度学习中训练集、验证集、测试集

在机器学习或者深度学习中是否可以直接分为训练集和测试集而不需要验证集？我的答案如下：

机器学习中归一化方法

机器学习中的归一化

机器学习：训练数据集、测试数据集

机器学习速成课程MLCC（6）--测试集与训练集

机器学习-样本集（包括训练集及测试集）的选取

python实现划分机器学习训练集与测试集

机器学习(18) 训练集、测试集及模型效果评估

机器学习中数据训练集，测试集划分与交叉验证的联系与区别（含程序）

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)