自然语言处理(二十六):fastText的使用

自然语言处理笔记总目录


一、认识fasttext工具

作为NLP工程领域常用的工具包。fasttext有两大作用:

  • 进行文本分类
  • 训练词向量

fasttext工具包的优势:

  • 在保持较高精度的情况下,快速的进行训练和预测是fasttext的最大优势

优势原因:

  • fasttext工具包中内含的fasttext模型具有十分简单的网络结构
  • 使用fasttext模型训练词向量时使用层次softmax结构,来提升超多类别下的模型性能
  • 由于fasttext模型过于简单无法捕捉词序特征,因此会进行n-gram特征提取以弥补模型缺
    陷提升精度

参考:层次softmax (hierarchical softmax)理解

安装:

$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
# 使用pip安装python中的fasttext工具包
$ sudo pip install .

也可以直接

pip install fasttext

二、进行文本分类

什么是文本分类?

  • 文本分类的是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类
    别。当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类,因此构建文本分类器需要带标签的数据。

文本分类的种类

  • 二分类
  • 单标签多分类
  • 多标签多分类

使用fasttext工具进行文本分类的过程:

  • 第一步:获取数据
  • 第二步:训练集与验证集的划分
  • 第三步:训练模型
  • 第四步:使用模型进行预测并评估
  • 第五步:模型调优
  • 第六步:模型保存与重加载

第一步:获取数据

# 获取烹饪相关的数据集, 它是由facebook AI实验室提供的演示数据集
$ wget https://dl.fbaipublicfiles.com/fasttext/data/cooking.stackexchange.tar.gz && tar xvzf cooking.stackexchange.tar.gz
# 查看数据的前10条
$ head cooking.stackexchange.txt
__label__sauce __label__cheese How much does potato starch affect a cheese
sauce recipe?
__label__food-safety __label__acidity Dangerous pathogens capable of
growing in acidic environments
__label__cast-iron __label__stove How do I cover up the white spots on my
cast iron stove?
__label__restaurant Michelin Three Star Restaurant; but if the chef is not
there
__label__knife-skills __label__dicing Without knife skills, how can I
quickly and accurately dice vegetables?
__label__storage-method __label__equipment __label__bread What's the
purpose of a bread box?
__label__baking __label__food-safety __label__substitutions
__label__peanuts how to seperate peanut oil from roasted peanuts at home?
__label__chocolate American equivalent for British chocolate terms
__label__baking __label__oven __label__convection Fan bake vs bake
__label__sauce __label__storage-lifetime __label__acidity
__label__mayonnaise Regulation and balancing of readymade packed mayonnaise
and other sauces

数据说明:所有标签均以__label__前缀开头,这是fastText识别标签或单词的方式。标签之后的一段话就是文本信息,如果想要人造数据也需要加入__label__

第二步:训练集与验证集的划分

# 查看数据总数
$ wc cooking.stackexchange.txt
15404 169582 1401900 cooking.stackexchange.txt

Linux wc 命令

# 12404条数据作为训练数据
$ head -n 12404 cooking.stackexchange.txt > cooking.train
# 3000条数据作为验证数据
$ tail -n 3000 cooking.stackexchange.txt > cooking.valid

第三步:训练模型

>>> import fasttext

>>> model = fasttext.train_supervised(input="cooking.train")

# 获得结果
Read 0M words
# 不重复的词汇总数
Number of words: 14543
# 标签总数
Number of labels: 735
# Progress: 训练进度, 因为我们这里显示的是最后的训练完成信息, 所以进度是100%
# words/sec/thread: 每个线程每秒处理的平均词汇数
# lr: 当前的学习率, 因为训练完成所以学习率是0
# avg.loss: 训练过程的平均损失
# ETA: 预计剩余训练时间, 因为已训练完成所以是0
Progress: 100.0% words/sec/thread:   23675 lr:  0.000000 avg.loss: 10.143360 ETA:   0h 0m 0s

在这里插入图片描述

第四步:使用模型进行预测并评估

# 使用模型预测一段输入文本, 通过我们常识, 可知预测是正确的, 但是对应预测概率并不大
>>> model.predict("Which baking dish is best to bake a banana bread ?")
# 元组中的第一项代表标签, 第二项代表对应的概率
(('__label__baking',), array([0.06550845]))
# 通过我们常识可知预测是错误的
>>> model.predict("Why not put knives in the dishwasher?")
(('__label__food-safety',), array([0.07541209]))
# 为了评估模型到底表现如何, 我们在3000条的验证集上进行测试
>>> model.test("cooking.valid")
# 元组中的每项分别代表, 验证集样本数量, 精度以及召回率
# 我们看到模型精度和召回率表现都很差, 接下来我们讲学习如何进行优化.
(3000, 0.124, 0.0541)

第五步:模型调优

原始数据处理:

# 通过查看数据, 我们发现数据中存在许多标点符号与单词相连以及大小写不统一,
# 这些因素对我们最终的分类目标没有益处, 反是增加了模型提取分类规律的难度,
# 因此我们选择将它们去除或转化
# 处理前的部分数据
__label__fish Arctic char available in North-America
__label__pasta __label__salt __label__boiling When cooking pasta in salted
water how much of the salt is absorbed?
__label__coffee Emergency Coffee via Chocolate Covered Coffee Beans?
__label__cake Non-beet alternatives to standard red food dye
__label__cheese __label__lentils Could cheese "halt" the tenderness of
cooking lentils?
__label__asian-cuisine __label__chili-peppers __label__kimchi
__label__korean-cuisine What kind of peppers are used in Gochugaru ()?
__label__consistency Pavlova Roll failure
__label__eggs __label__bread What qualities should I be looking for when
making the best French Toast?
__label__meat __label__flour __label__stews __label__braising Coating meat
in flour before browning, bad idea?
__label__food-safety Raw roast beef on the edge of safe?
__label__pork __label__food-identification How do I determine the cut of a
pork steak prior to purchasing it?
# 简单的数据预处理
# 使标点符号与单词分离并统一使用小写字母
>> cat cooking.stackexchange.txt | sed -e "s/\([.\!?,'/()]\)/ \1 /g" | tr "[:upper:]" "[:lower:]" > cooking.preprocessed.txt
>> head -n 12404 cooking.preprocessed.txt > cooking.train
>> tail -n 3000 cooking.preprocessed.txt > cooking.valid

s/xxxx/yyyy/g含义:

  • s:搜索
  • xxxx:正则化表达式
  • yyyy:要替换的内容格式
  • g:全局替换
# 处理后的部分数据
__label__fish arctic char available in north-america
__label__pasta __label__salt __label__boiling when cooking pasta in salted
water how much of the salt is absorbed ?
__label__coffee emergency coffee via chocolate covered coffee beans ?
__label__cake non-beet alternatives to standard red food dye
__label__cheese __label__lentils could cheese "halt" the tenderness of
cooking lentils ?
__label__asian-cuisine __label__chili-peppers __label__kimchi
__label__korean-cuisine what kind of peppers are used in gochugaru ( ) ?
__label__consistency pavlova roll failure
__label__eggs __label__bread what qualities should i be looking for when
making the best french toast ?
__label__meat __label__flour __label__stews __label__braising coating meat
in flour before browning , bad idea ?
__label__food-safety raw roast beef on the edge of safe ?
__label__pork __label__food-identification how do i determine the cut of a
pork steak prior to purchasing it ?

数据处理后进行训练并测试:

# 重新训练
>>> model = fasttext.train_supervised(input="cooking.train")
Read 0M words
# 不重复的词汇总数减少很多, 因为之前会把带大写字母或者与标点符号相连接的单词都认为是新的单词
Number of words: 8952
Number of labels: 735
# 我们看到平均损失有所下降
Progress: 100.0% words/sec/thread: 65737 lr: 0.000000 avg.loss:
9.966091 ETA: 0h 0m 0s
# 重新测试
>>> model.test("cooking.valid")
# 我们看到精度和召回率都有所提升
(3000, 0.161, 0.06962663975782038)

增加训练轮数:

# 设置train_supervised方法中的参数epoch来增加训练轮数, 默认的轮数是5次
# 增加轮数意味着模型能够有更多机会在有限数据中调整分类规律, 当然这也会增加训练时间
>>> model = fasttext.train_supervised(input="cooking.train", epoch=25)
Read 0M words
Number of words: 8952
Number of labels: 735
# 我们看到平均损失继续下降
Progress: 100.0% words/sec/thread: 66283 lr: 0.000000 avg.loss:
7.203885 ETA: 0h 0m 0s
>>> model.test("cooking.valid")
# 我们看到精度已经提升到了42%, 召回率提升至18%.
(3000, 0.4206666666666667, 0.1819230214790255)

调整学习率:

# 设置train_supervised方法中的参数lr来调整学习率, 默认的学习率大小是0.1
# 增大学习率意味着增大了梯度下降的步长使其在有限的迭代步骤下更接近最优点
>>> model = fasttext.train_supervised(input="cooking.train", lr=1.0,
epoch=25)
Read 0M words
Number of words: 8952
Number of labels: 735
# 平均损失继续下降
Progress: 100.0% words/sec/thread: 66027 lr: 0.000000 avg.loss:
4.278283 ETA: 0h 0m 0s
>>> model.test("cooking.valid")
# 我们看到精度已经提升到了47%, 召回率提升至20%.
(3000, 0.47633333333333333, 0.20599682860025947)

增加n-gram特征:

# 设置train_supervised方法中的参数wordNgrams来添加n-gram特征, 默认是1, 也就是没有n-gram特征
# 我们这里将其设置为2意味着添加2-gram特征, 这些特征帮助模型捕捉前后词汇之间的关联, 更好的提取分类规则用于模型分类, 当然这也会增加模型训时练占用的资源和时间.
>>> model = fasttext.train_supervised(input="cooking.train", lr=1.0,
epoch=25, wordNgrams=2)
Read 0M words
Number of words: 8952
Number of labels: 735
# 平均损失继续下降
Progress: 100.0% words/sec/thread: 65084 lr: 0.000000 avg.loss:
3.189422 ETA: 0h 0m 0s

>>> model.test("cooking.valid")
# 我们看到精度已经提升到了49%, 召回率提升至21%.
(3000, 0.49233333333333335, 0.2129162462159435)

修改损失计算方式:

# 随着我们不断的添加优化策略, 模型训练速度也越来越慢
# 为了能够提升fasttext模型的训练效率, 减小训练时间
# 设置train_supervised方法中的参数loss来修改损失计算方式(等效于输出层的结构), 默认是softmax
# 我们这里将其设置为'hs', 代表层次softmax结构, 意味着输出层的结构(计算方式)发生了变化, 将以一种更低复杂度的方式来计算损失.
>>> model = fasttext.train_supervised(input="cooking.train", lr=1.0,
epoch=25, wordNgrams=2, loss='hs')
Read 0M words
Number of words: 8952
Number of labels: 735
Progress: 100.0% words/sec/thread: 1341740 lr: 0.000000 avg.loss:
2.225962 ETA: 0h 0m 0s

>>> model.test("cooking.valid")
# 我们看到精度和召回率稍有波动, 但训练时间却缩短到仅仅几秒
(3000, 0.483, 0.20887991927346114)

自动超参数调优:

# 手动调节和寻找超参数是非常困难的, 因为参数之间可能相关, 并且不同数据集需要的超参数也不,
# 因此可以使用fasttext的autotuneValidationFile参数进行自动超参数调优.
# autotuneValidationFile参数需要指定验证数据集所在路径, 它将在验证集上使用随机搜索方法寻找可能最优的超参数.
# 使用autotuneDuration参数可以控制随机搜索的时间, 默认是300s, 根据不同的需求, 我们可以延长或缩短时间.
# 验证集路径'cooking.valid', 随机搜索600秒
>>> model = fasttext.train_supervised(input='cooking.train',
autotuneValidationFile='cooking.valid', autotuneDuration=600)
Progress: 100.0% Trials: 38 Best score: 0.376170 ETA: 0h 0m 0s
Training again with best arguments
Read 0M words
Number of words: 8952
Number of labels: 735
Progress: 100.0% words/sec/thread: 63791 lr: 0.000000 avg.loss:
1.888165 ETA: 0h 0m 0s

实际生产中多标签多分类问题的损失计算方式:

# 针对多标签多分类问题, 使用'softmax'或者'hs'有时并不是最佳选择, 因为我们最终得到的应该是多个标签, 而softmax却只能最大化一个标签.
# 所以我们往往会选择为每个标签使用独立的二分类器作为输出层结构,
# 对应的损失计算方式为'ova'表示one vs all.
# 这种输出层的改变意味着我们在统一语料下同时训练多个二分类模型,
# 对于二分类模型来讲, lr不宜过大, 这里我们设置为0.2
>>> model = fasttext.train_supervised(input="cooking.train", lr=0.2,
epoch=25, wordNgrams=2, loss='ova')
Read 0M words
Number of words: 8952
Number of labels: 735
Progress: 100.0% words/sec/thread: 65044 lr: 0.000000 avg.loss:
7.713312 ETA: 0h 0m 0s
# 我们使用模型进行单条样本的预测, 来看一下它的输出结果.
# 参数k代表指定模型输出多少个标签, 默认为1, 这里设置为-1, 意味着尽可能多的输出.
# 参数threshold代表显示的标签概率阈值, 设置为0.5, 意味着显示概率大于0.5的标签
>>> model.predict("Which baking dish is best to bake a banana bread ?",
k=-1, threshold=0.5)
# 我看到根据输入文本, 输出了它的三个最有可能的标签
((u'__label__baking', u'__label__bananas', u'__label__bread'),
array([1.00000, 0.939923, 0.592677]))

第六步:模型保存与重加载

# 使用model的save_model方法保存模型到指定目录
# 你可以在指定目录下找到model_cooking.bin文件
>>> model.save_model("./model_cooking.bin")
# 使用fasttext的load_model进行模型的重加载
>>> model = fasttext.load_model("./model_cooking.bin")
# 重加载后的模型使用方法和之前完全相同
>>> model.predict("Which baking dish is best to bake a banana bread ?",
k=-1, threshold=0.5)
((u'__label__baking', u'__label__bananas', u'__label__bread'),
array([1.00000, 0.939923, 0.592677]))

三、训练词向量

参考:自然语言处理(三):文本预处理之文本张量表示方法

四、词向量迁移

词向量迁移: 使用在大型语料库上已经进行训练完成的词向量模型

fasttext工具中可以提供的可迁移的词向量:

  • fasttext提供了157种语言的在CommonCrawl和Wikipedia语料上进行训练的可迁移词向
    量模型,它们采用CBOW模式进行训练,词向量维度为300维。可通过该地址查看具体语言
    词向量模型: https://fasttext.cc/docs/en/crawl-vectors.html
  • fasttext提供了294种语言的在Wikipedia语料上进行训练的可迁移词向量模型, 它们采用
    skipgram模式进行训练, 词向量维度同样是300维. 可通过该地址查看具体语言词向量模
    型: https://fasttext.cc/docs/en/pretrained-vectors.html

如何使用fasttext进行词向量模型迁移

  • 第一步:下载词向量模型压缩的bin.gz文件
  • 第二步:解压bin.gz文件到bin文件
  • 第三步:加载bin文件获取词向量
  • 第四步:利用邻近词进行效果检验

第一步:下载词向量模型压缩的bin.gz文件

# 这里我们以迁移在CommonCrawl和Wikipedia语料上进行训练的中文词向量模型为例:
# 下载中文词向量模型(bin.gz文件)
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.zh.300.bin.gz

第二步:解压bin.gz文件到bin文件

# 使用gunzip进行解压, 获取cc.zh.300.bin文件
gunzip cc.zh.300.bin.gz

第三步:加载bin文件获取词向量

# 加载模型
>>> model = fasttext.load_model("cc.zh.300.bin")
# 查看前100个词汇(这里的词汇是广义的, 可以是中文符号或汉字))
>>> model.words[:100]
[',', '的', '。', '</s>', '、', '是', '一', '在', ':', '了', '(', ')', "'",
'和', '不', '有', '我', ',', ')', '(', '“', '”', '也', '人', '个', ':', '中',
'.', '就', '他', '》', '《', '-', '你', '都', '上', '大', '!', '这', '为',
'多', '与', '章', '「', '到', '」', '要', '?', '被', '而', '能', '等', '可以',
'年', ';', '|', '以', '及', '之', '公司', '对', '中国', '很', '会', '小', '但',
'我们', '最', '更', '/', '1', '三', '新', '自己', '可', '2', '或', '次', '好',
'将', '第', '种', '她', '…', '3', '地', '對', '用', '工作', '下', '后', '由',
'两', '使用', '还', '又', '您', '?', '其', '已']
# 使用模型获得'音乐'这个名词的词向量
>>> model.get_word_vector("音乐")
array([-6.81843981e-02, 3.84048335e-02, 4.63239700e-01, 6.11658543e-02,
9.38086119e-03, -9.63955745e-02, 1.28141120e-01, -6.51574507e-02,
...
3.13430429e-02, -6.43611327e-02, 1.68979481e-01, -1.95011273e-01],
dtype=float32)

第四步:利用邻近词进行效果检验

# 以'音乐'为例, 返回的邻近词基本上与音乐都有关系, 如乐曲, 音乐会, 声乐等.
>>> model.get_nearest_neighbors("音乐")
[(0.6703276634216309, '乐曲'), (0.6569967269897461, '音乐人'),
(0.6565821170806885, '声乐'), (0.6557438373565674, '轻音乐'),
(0.6536258459091187, '音乐家'), (0.6502416133880615, '配乐'),
(0.6501686573028564, '艺术'), (0.6437276005744934, '音乐会'),
(0.639589250087738, '原声'), (0.6368917226791382, '音响')]
# 以'美术'为例, 返回的邻近词基本上与美术都有关系, 如艺术, 绘画, 霍廷霄(满城尽带黄金甲的
美术师).
>>> model.get_nearest_neighbors("美术")
[(0.724744975566864, '艺术'), (0.7165924310684204, '绘画'),
(0.6741853356361389, '霍廷霄'), (0.6470299363136292, '纯艺'),
(0.6335071921348572, '美术家'), (0.6304370164871216, '美院'),
(0.624431312084198, '艺术类'), (0.6244068741798401, '陈浩忠'),
(0.62302166223526, '美术史'), (0.621710479259491, '环艺系')]

猜你喜欢

转载自blog.csdn.net/weixin_45707277/article/details/122794848