最近在学习使用EasyDL专业版训练模型,我想试着训练一个情感分析模型,但是手头缺少数据,于是我找到了NLPCC2014_sentiment,在GitHub可以找到,这里我Fork到了码云里以便下载:
https://gitee.com/zheng_bo_pu/NLPCC2014_sentiment
在这里插入图片描述
下载好以后,打开其中一个数据集,这里我打开了sample.negative.txt:

id从5000开始的,也就是说,这里一共有5000条数据,再加上positive那部分,应该有10000条数据,但是EasyDL平台上对训练数据有要求:

文本分类的标注数据格式要求为"文本内容\t标注标签\n"（即每行一个未标注样本与一个标注标签，中间使用tab键间隔，每组数据使用回车换行）

很明显现在已有的数据集不符合要求,那我们来处理一下

先看一下现有数据集的格式:
在这里插入图片描述
这是一条数据,我们只要获取标签内的内容,然后加上对应的情感标签即可

获取标签内的内容

这一步我们用正则表达式处理,其实很简单,写成一个函数用来去标签,去空格:

def filter_tags(self, str):
	data = re.compile(r'<[^>]+>',re.S)
	data = data.sub('',str)
	#去掉多余的空行
	blank_line=re.compile('\n+')
	data = blank_line.sub('\n',data)
	return data

这里是把整个文本导入并提取我们想要的内容,方便快捷,一步到位:
在这里插入图片描述
但是,我们还需要在这些训练数据后面加上情感标签,关键是怎么确定对应的情感标签呢?

加上对应的情感标签

为此,我写个一个类,在类里解决就简单多了:

class NLP_DATA(object):
    def __init__(self,type):
        self.type = type

因为数据集命名时是带有标签的,我们便可以用对应的标签来实例化:

def main():
    types = ["negative","positive"]
    for type in types:
        nlp = NLP_DATA(type)
        path = r'C:\Users\Administrator\Downloads\zheng_bo_pu-NLPCC2014_sentiment-master\NLPCC2014_sentiment\sample.{}.txt'.format(type)

if __name__ == '__main__':
    main()

接下来,只需要根据条件判断给语句加上对应的情感标签即可:

if self.type == "negative":
    negative = open('./20200312/negative.txt','a',encoding="utf-8")
    negative.write(datas)
else:
    positive = open('./20200312/positive.txt','a',encoding="utf-8")
    positive.write(datas)

下面是最终效果:
在这里插入图片描述
以上就是本次程序所有的关键代码,下面我们把数据集上传至EasyDL:

接下来我们用这些训练数据进行训练:

准确率在85%作用,看来效果还是不错的,如果数据集更多,效果应该会更好

Mr.郑先生_

发布了60 篇原创文章 · 获赞 123 · 访问量 4万+

私信关注

使用正则表达式快速清洗NLP训练数据的技术详解实战

获取标签内的内容

加上对应的情感标签

猜你喜欢