达观杯文本处理（一）

其他 2019-04-14 09:40:56 阅读次数: 0

达观杯文本处理1

一、获取数据
二.处理过程

1.读取
2.分离特征和类别
3.将数据shuffle一下。随机一下。

三.最终改造后的版本

1.读取数据
2.将特征与类别分离
3.保存数据和处理一些乱码问题
4.清除无用数据并将数据shuffle一下

一、获取数据

1.数据下载

数据下载地址：
http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html
下载后会得到一个压缩包，训练集和测试集数据均在里面.

二.处理过程

1.读取

直接读取内存爆炸了，本文只选取了其中的一些复制到excel中，。

import numpy as np
import pandas as pd 
df = pd.read_excel("tr.xlsx")
print(df.shape)
print(df.columns)

在这里插入图片描述

2.分离特征和类别

x = df.drop('class', axis=1) #去掉一列
y=df["class"]
print(x[:10])
print(y[:10])

在这里插入图片描述

3.将数据shuffle一下。随机一下。

from sklearn.model_selection import train_test_split
# x：所要划分的样本特征集
# y：所要划分的样本结果
# test_size：样本占比，如果是整数的话就是样本的数量
# random_state：是随机数的种子
x_train, x_valid, y_train, y_valid = train_test_split(x, y, test_size=0.3, random_state=100)  #7:3
print(x_train.shape)
print(x_valid.shape)
print(y_train.shape)
print(y_valid.shape)

在这里插入图片描述

三.最终改造后的版本

1.读取数据

在这里插入图片描述

2.将特征与类别分离

在这里插入图片描述

3.保存数据和处理一些乱码问题

在这里插入图片描述

4.清除无用数据并将数据shuffle一下

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_41781408/article/details/89046545

达观杯文本处理（一）

达观杯文本处理比赛(一)

达观杯文本处理模型实践

达观杯文本处理比赛（二）

达观杯文本处理比赛深度学习实践

Day1—达观杯智能文本处理

达观杯文本处理（四）--LR,SVM

达观杯文本处理（三）--调优与融合

达观杯文本处理（五）--LightGBM

达观杯文本处理（三）--word2vec

达观杯文本处理（二）----TF-IDF理论并实践

文本处理

linux的文本处理（一）

NLP（一）——文本处理

Editplus文本处理

文本处理实例

文本处理——排序

文本处理-linux

文本处理awk

富文本处理

awk文本处理

文本处理总结

简单的文本处理

智能文本处理

linux 文本处理

Linux——文本处理

CSS文本处理

文本处理notes

Shell的文本处理

shell文本处理

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)