自然语言处理 第二期【任务2 - 数据集下载探索模块】

1.IMDB数据集


1.1数据集介绍
IMDB数据集下载地址为:http://ai.stanford.edu/~amaas/data/sentiment/

该数据集应用于影评情绪的分类。

另提一句,该数据集也集成在tensorflow的keras模块中,可以通过以下语句导入。

from keras.datasets import imdb
 
# num_words参数为保留训练集出现频率在前10000的词。
(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)


1.2数据集探索
该数据下载后包含train和test两个文件夹和三个文件,其中test文件夹中的两个文件夹pos和neg分别为1.25W个代表积极和消极态度的训练样本。而train中的三个文件夹pos、neg、unsup分别为1.25W代表积极和消极态度的训练样本以及5W个未标记的样本。未标记样本可以用来作无监督学习时使用。

2.THUCnews数据集


2.1数据集介绍
THUCnews数据集下载地址为:https://pan.baidu.com/s/1hugrfRu 密码:qfud

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。——介绍出处:http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews

本次下载的数据集为部分数据,并非完整数据。

2.2数据集探索
下载后共有四个文件:cnews.train、cnews.test、cnews.val、cnews.vocab分别为训练集,测试集,验证集和所有数据集中汇集成的词典。cnews.vocab的每一行表示一个词。


--------------------- 

参考:https://blog.csdn.net/weixin_42483560/article/details/89109292 


 

学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

1. TP, FP, TN, FN


True Positives,TP:预测为正样本,实际也为正样本的特征数
False Positives,FP:预测为正样本,实际为负样本的特征数
True Negatives,TN:预测为负样本,实际也为负样本的特征数
False Negatives,FN:预测为负样本,实际为正样本的特征
真实情况

预测结果

TP(真正例)

FN(假反例)

FP(假正例)

TN(真反例)


2. 精确率(precision),召回率(Recall)与特异性(specificity)


  精确率(Precision)的定义如下:

    
    召回率(Recall)的定义如下:
    
    特异性(specificity)的定义如下:

    
    有时也用一个F1值来综合评估精确率和召回率,它是精确率和召回率的调和均值。当精确率和召回率都高时,F1值也会高。严格的数学定义如下:

    
    有时候我们对精确率和召回率并不是一视同仁,比如有时候我们更加重视精确率。我们用一个参数来度量两者之间的关系。

如果, 召回率有更大影响,如果,精确率有更大影响。自然,当的时候,精确率和召回率影响力相同,和F1形式一样。

含有度量参数的F1我们记为 严格的数学定义如下:

    
3. RoC曲线和PR曲线

按此顺序逐个把样本作为整理进行预测,则每次可以计算

出当前的查全率、查准率,以P(查准率)为纵轴,R(查全率)为横轴作图,就得到了P-R曲线P-R图直观的显

示出学习器在样本总体上的查全率、查准率,在进行比较时,若一个学习器的P-R曲线被另一个完全包住,则可

断言后者优于前者,如图1,A优于C;如果两个学习器的P-R曲线发生了交叉,如A和B,则难以一般性的断言两

者孰优孰劣,只能在具体的P或R条件下进行比较。然而,在很多情形下,人们往往仍希望把学习器A和B比个高低,

这时一个比较合理的判断依据是比较曲线下面积的大小,它在一定程度上表征了学习器在P和R上取得相对“双高”

的比例,但这个值不太容易估算,因此人们设计了一些综合考虑P和R的度量。

平衡点(BEP)就是这样一个度量,是P=R时的取值,基于BEP,可任务A优于B。

以召回率(真正率)为y轴,以特异性(假正率)为x轴,我们就直接得到了RoC曲线。从召回率和特异性的定

义可以理解,召回率越高,特异性越小,我们的模型和算法就越高效。也就是画出来的RoC曲线越靠近左上越

好。如下图左图所示。从几何的角度讲,RoC曲线下方的面积越大越大,则模型越优。所以有时候我们用RoC

曲线下的面积,即AUC(Area Under Curve)值来作为算法和模型好坏的标准。

图1 P-R曲线

图2 ROC曲线
--------------------- 

参考:https://blog.csdn.net/sun_shengyun/article/details/53998312 
 

猜你喜欢

转载自blog.csdn.net/qq_36671300/article/details/89144586