Newsgroups数据集研究 - 代码天地

Newsgroups数据集研究

其他 2019-08-11 15:24:44 阅读次数: 0

20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。

数据集收集了大约20,000左右的新闻组文档，均匀分为20个不同主题的新闻组集合。

一些新闻组的主题特别相似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.mac.hardware)，还有一些却完全不相关 (e.g misc.forsale /soc.religion.christian)。

20newsgroups数据集有三个版本：

第一个版本19997是原始的并没有修改过的版本：20news-19997.tar.gz –原始20 Newsgroups数据集

第二个版本bydate是按时间顺序分为训练(60%)和测试(40%)两部分数据集，不包含重复文档和新闻组名（新闻组，路径，隶属于，日期）：20news-bydate.tar.gz –按时间分类; 不包含重复文档和新闻组名(18846 个文档)

第三个版本18828不包含重复文档，只有来源和主题：20news-18828.tar.gz– 不包含重复文档，只有来源和主题 (18828 个文档)

在sklearn中，该模型有两种装载方式，第一种是sklearn.datasets.fetch_20newsgroups，返回一个可以被文本特征提取器（如sklearn.feature_extraction.text.CountVectorizer）自定义参数提取特征的原始文本序列；第二种是sklearn.datasets.fetch_20newsgroups_vectorized，返回一个已提取特征的文本序列，即不需要使用特征提取器。

猜你喜欢

转载自www.cnblogs.com/wqbin/p/11335037.html

Newsgroups数据集研究

newsgroups数据集问题记录

Keras LSTM对20 Newsgroups数据集进行分类

tarfile.ReadError: not a gzip file / download_20newsgroups 数据集失败

复杂网络研究数据集

Face 研究可用数据集

【数据集研究】MS COCO

机器学习研究的数据集列表

推荐系统研究相关的数据集

推荐系统研究中的九大数据集

基于帕金森数据集的分类方法仿真研究

20用于深度学习训练和研究的数据集

使用CountVectorizer和TfidfVectorizer对fetch_20newsgroups数据进行分类，并对是否使用停用词进行对比（精确度）

弱小目标检测跟踪算法研究（1）红外弱小目标数据集准备（红外弱小目标的数据集来了）

全球COVID-19研究数据集正式开放，内含近3万篇论文和所需AI研究工具！

Face Detection with the Faster R-CNN（数据集标注对比研究报告）

乳腺癌数据集上SVM核函数功能和选择的研究报告

人群密度估计最新数据集NWPU-Crowd & 最新研究进展

谷歌、华盛顿大学联合研究：为什么在标准数据集上刷榜有问题

分子图像优化数据集处理 + 图像转换相关论文研究

【ML】基于机器学习的心脏病预测研究(附代码和数据集，XGBoost模型)

脑电项目探索和实现(EEG) (上)：研究数据集选取和介绍SEED

从0开始的视觉研究生涯（1）从数据集开始讲起（入门）

弱小目标检测跟踪算法研究（2）红外弱小目标数据集准备（红外弱小目标的数据集又来了）

ECCV 2022最新研究成果：全球首个text-sketch-image数据集FS-COCO

【ML】基于机器学习的心脏病预测研究(附代码和数据集，支持向量机SVM模型)

【ML】基于机器学习的心脏病预测研究(附代码和数据集，随机森林模型)

【ML】基于机器学习的心脏病预测研究(附代码和数据集，决策树模型)

7 Papers | 浙大研究获SIGMOD 2023最佳论文；GPT-4拿下最难数学推理数据集新SOTA

网络智能化/通信AI TOP10 十大研究方向及数据集盘点

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)