达观杯文本处理比赛(一) - 代码天地

达观杯文本处理比赛(一)

其他 2019-03-11 18:22:51 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/xianqianshi3004/article/details/88062291

初试数据：

数据包含2个csv文件：

train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：

第一列是文章的索引(id)，
第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；
第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；
第四列是这篇文章的标注(class)。

注：每一个数字对应一个“字”，或“词”，或“标点符号”。“字”的编号与“词”的编号是独立的！

test_set.csv：此数据用于测试。数据格式同train_set.csv，但不包含class。

注：test_set与train_test中文章id的编号是独立的

因为数据的每一行包括字的组合和词的组合，两者之间没有相关性，所以我打算在以后的数据数理中主要处理词，以为词才能更好的把文章的意思表达处理。

接下来让我们来看看数据：
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/xianqianshi3004/article/details/88062291

达观杯文本处理比赛(一)

达观杯文本处理（一）

达观杯文本处理比赛深度学习实践

达观杯文本处理比赛（二）

达观杯文本处理模型实践

达观杯文本处理（五）--LightGBM

达观杯文本处理（四）--LR,SVM

达观杯文本处理（三）--调优与融合

Day1—达观杯智能文本处理

达观杯文本处理（三）--word2vec

达观杯文本处理（二）----TF-IDF理论并实践

文本处理

linux的文本处理（一）

NLP（一）——文本处理

达观杯文本分类比赛

Editplus文本处理

文本处理实例

文本处理-linux

文本处理——排序

文本处理awk

富文本处理

awk文本处理

简单的文本处理

文本处理总结

智能文本处理

linux 文本处理

Linux——文本处理

文本处理notes

CSS文本处理

Shell的文本处理

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)