1.IMDB数据集

1.1数据集介绍
IMDB数据集下载地址为：http://ai.stanford.edu/~amaas/data/sentiment/

该数据集应用于影评情绪的分类。

另提一句，该数据集也集成在tensorflow的keras模块中，可以通过以下语句导入。

from keras.datasets import imdb

# num_words参数为保留训练集出现频率在前10000的词。
(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)

1.2数据集探索
该数据下载后包含train和test两个文件夹和三个文件，其中test文件夹中的两个文件夹pos和neg分别为1.25W个代表积极和消极态度的训练样本。而train中的三个文件夹pos、neg、unsup分别为1.25W代表积极和消极态度的训练样本以及5W个未标记的样本。未标记样本可以用来作无监督学习时使用。

2.THUCnews数据集

2.1数据集介绍
THUCnews数据集下载地址为：https://pan.baidu.com/s/1hugrfRu 密码：qfud

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。——介绍出处：http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews

本次下载的数据集为部分数据，并非完整数据。

2.2数据集探索
下载后共有四个文件：cnews.train、cnews.test、cnews.val、cnews.vocab分别为训练集，测试集，验证集和所有数据集中汇集成的词典。cnews.vocab的每一行表示一个词。

---------------------

参考：https://blog.csdn.net/weixin_42483560/article/details/89109292

学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

1. TP, FP, TN, FN

True Positives,TP：预测为正样本，实际也为正样本的特征数
False Positives,FP：预测为正样本，实际为负样本的特征数
True Negatives,TN：预测为负样本，实际也为负样本的特征数
False Negatives,FN：预测为负样本，实际为正样本的特征
真实情况

预测结果

真

假

真

TP（真正例）

FN（假反例）

假

FP（假正例）

TN（真反例）

2. 精确率(precision),召回率(Recall)与特异性(specificity)

　　精确率（Precision）的定义如下：

　　　　
　　　　召回率(Recall)的定义如下：
　　　　
　　　　特异性(specificity)的定义如下：

　　　　
　　　　有时也用一个F1值来综合评估精确率和召回率，它是精确率和召回率的调和均值。当精确率和召回率都高时,F1值也会高。严格的数学定义如下：

　　　　
　　　　有时候我们对精确率和召回率并不是一视同仁，比如有时候我们更加重视精确率。我们用一个参数来度量两者之间的关系。

如果, 召回率有更大影响，如果,精确率有更大影响。自然，当的时候，精确率和召回率影响力相同，和F1形式一样。

含有度量参数的F1我们记为严格的数学定义如下：

　　　　
3. RoC曲线和PR曲线

按此顺序逐个把样本作为整理进行预测，则每次可以计算

出当前的查全率、查准率，以P（查准率）为纵轴，R（查全率）为横轴作图，就得到了P-R曲线P-R图直观的显

示出学习器在样本总体上的查全率、查准率，在进行比较时，若一个学习器的P-R曲线被另一个完全包住，则可

断言后者优于前者，如图1，A优于C；如果两个学习器的P-R曲线发生了交叉，如A和B，则难以一般性的断言两

者孰优孰劣，只能在具体的P或R条件下进行比较。然而，在很多情形下，人们往往仍希望把学习器A和B比个高低，

这时一个比较合理的判断依据是比较曲线下面积的大小，它在一定程度上表征了学习器在P和R上取得相对“双高”

的比例，但这个值不太容易估算，因此人们设计了一些综合考虑P和R的度量。

平衡点（BEP）就是这样一个度量，是P=R时的取值，基于BEP，可任务A优于B。

以召回率（真正率）为y轴，以特异性（假正率）为x轴，我们就直接得到了RoC曲线。从召回率和特异性的定

义可以理解，召回率越高，特异性越小，我们的模型和算法就越高效。也就是画出来的RoC曲线越靠近左上越

好。如下图左图所示。从几何的角度讲，RoC曲线下方的面积越大越大，则模型越优。所以有时候我们用RoC

曲线下的面积，即AUC（Area Under Curve）值来作为算法和模型好坏的标准。

图1 P-R曲线

图2 ROC曲线
---------------------

参考：https://blog.csdn.net/sun_shengyun/article/details/53998312

自然语言处理第二期【任务2 - 数据集下载探索模块】

1.IMDB数据集

2.THUCnews数据集

学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

1. TP, FP, TN, FN

2. 精确率(precision),召回率(Recall)与特异性(specificity)

精确率（Precision）的定义如下：

3. RoC曲线和PR曲线

猜你喜欢

自然语言处理 第二期【任务2 - 数据集下载探索模块】

1.IMDB数据集

2.THUCnews数据集

学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

1. TP, FP, TN, FN

2. 精确率(precision),召回率(Recall)与特异性(specificity)

精确率（Precision）的定义如下：

3. RoC曲线和PR曲线

猜你喜欢

自然语言处理第二期【任务2 - 数据集下载探索模块】

　　精确率（Precision）的定义如下：

　　　　
3. RoC曲线和PR曲线