在数据分析过程中对合并的训练集和测试集进行标记 - 代码天地

在数据分析过程中对合并的训练集和测试集进行标记

其他 2020-02-19 16:27:00 阅读次数: 0

一、对训练集和测试集进行标记后合并

df = pd.concat([train.assign(is_train = 1),test.assign(is_train = 0)]) #合并train和test，并且用is_train进行标记

这样做的好处是能够将合并后的数据集将训练集和测试集分开来进行标记。

二、利用好这一特征更好的做分析

例如：

train = df['is_train'] == 1##提前进行标记
test  = df['is_train'] == 0

获取样本比例：

train_count = len(df[train])
print('训练集样本量是',train_count)
test_count = len(df[test])
print('测试集样本量是',test_count)
print('样本比例为：', train_count/test_count)

获取训练集和测试集中某一变量的唯一值：

print("训练集buyer_admin_id：",len(df[train]['buyer_admin_id'].unique()))
print("测试集buyer_admin_id：",len(df[test]['buyer_admin_id'].unique()))

进行取交集：

set.intersection(set(df[test]['buyer_admin_id'].unique()),set(df[train]['buyer_admin_id'].unique()))

发布了123 篇原创文章 · 获赞 54 · 访问量 12万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_41940950/article/details/98367622

在数据分析过程中对合并的训练集和测试集进行标记

cs231n笔记：训练过程中的数据集和参数

神经网络中训练数据集、验证数据集和测试数据集的区别

《利用Python进行数据分析》第7章合并数据集

数据集的训练集和测试集划分

如何把数据集划分成训练集和测试集

将数据集划分为训练集和测试集

pytorch中的dataset和DataLoader创建数据集进行训练

利用U-net训练自己的数据集，测试出现全黑，全白的解决方法，以及过程中的注意！！

训练集，验证集和测试集

训练集、验证集和测试集

疑问：数据清洗过程中的“归一化”、“标准化”等等去量纲的操作应该在数据集划分前还是在数据集划分后？

机器学习过程中，我们该如何分析数据集？

利用Retinanet 训练自己的数据集 | keras retinanet - focal loss 网络训练过程中使用csv格式进行训练自己的数据

mmdetection训练和测试自己的数据集

sklearn中随机分割训练集和测试集

【Python那些事儿】准备数据——训练集和测试集

python 把数据分成训练集和测试集

pytorch搭建LSTM对IMDB数据集进行情感分析（详细的数据分析与处理过程）

图像数据集转换成tfrecords格式的文件过程中的经验和教训

Pyspark中对训练集、测试集、验证集进行KS检验

训练集、测试集和验证集(使用sklearn进行划分)

【猫狗数据集】利用tensorboard可视化训练和测试过程

Tensorflow下用自己的数据集对Faster RCNN进行训练和测试（二）

利用caffe-ssd对钢材表面缺陷数据集(NEUDataset)进行finetune训练和测试

【实验必用】如何在深度学习中加载数据集并进行训练和测试？

Little_by_Little_3 对数据进行测试集训练集验证集进行划分

python划分训练集和测试集

【学习笔记】训练集和测试集

Python分割训练集和测试集

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)