NLP(三十九)使用keras-bert实现完形填空及简单的文本纠错功能

  在之前的系列文章中,笔者介绍了如何使用keras-bert来调用BERT模型,实现文本多分类,文本多标签分类以及序列标注任务,文章如下:

在本文中,笔者将介绍如何使用keras-bert来调用BERT模型使用完形填空及简单的文本纠错功能。

完形填空

  首先,我们来了解下什么是完形填空。所谓完形填空,指的是将句子中缺失的单词(或字)补充成正确的单词(或字)。举个简单的例子:
完形填空的例子
在上图中,第一行是原始句子,第二行是需要完形填空的句子,在这里我们把闵行区的行字缺失掉,即MASK掉,第三行为补充的汉字:行。
  在BERT模型中,它的任务是由两个自监督任务组成,即MLM和NSP。我们需要了解下MLM。
  MLM的全称是Masked Language Model,所谓MLM是指在训练的时候随即从输入预料上mask掉一些单词,然后通过的上下文预测该单词,该任务非常像我们在中学时期经常做的完形填空。
  在BERT的实验中,15%的WordPiece Token会被随机Mask掉。在训练模型时,一个句子会被多次喂到模型中用于参数学习,但是Google并没有在每次都mask掉这些单词,而是在确定要Mask掉的单词之后,80%的时候会直接替换为[Mask],10%的时候将其替换为其它任意单词,10%的时候会保留原始Token。
  基于BERT模型的这个特性,我们尝试着利用keras-bert来调用它解决完形填空问题。实现完形填空的代码(cloze_predict.py)如下:

# -*- coding: utf-8 -*-
import numpy as np
from keras_bert import Tokenizer
from keras_bert import load_trained_model_from_checkpoint

# 加载词典
dict_path = './chinese_L-12_H-768_A-12/vocab.txt'
token_dict = {
    
    }
with open(dict_path, 'r', encoding='utf-8') as reader:
    for line in reader:
        token = line.strip()
        token_dict[token] = len(token_dict)

id_token_dict = {
    
    v: k for k, v in token_dict.items()}


class OurTokenizer(Tokenizer):
    def _tokenize(self, text):
        R = []
        for c in text:
            if c in self._token_dict:
                R.append(c)
            else:
                R.append('[UNK]')
        return R


tokenizer = OurTokenizer(token_dict)

# 加载模型
model_path = "./chinese_L-12_H-768_A-12/"
bert_model = load_trained_model_from_checkpoint(
    model_path + "bert_config.json",
    model_path + "bert_model.ckpt",
    training=True
)
# bert_model.summary()


# 完形填空,预测MASK的字符
def get_mask_character(start_string, mask_num, end_string):
    string = list(start_string) + ['MASK'] * mask_num + list(end_string)
    token_ids, segment_ids = tokenizer.encode(string, max_len=512)
    for i in range(mask_num):
        token_ids[len(start_string)+i+1] = tokenizer._token_dict['[MASK]']

    # mask
    masks = [0] * 512
    for i in range(mask_num):
        masks[len(start_string)+i+1] = 1

    # 模型预测被mask掉的部分
    predicts = bert_model.predict([np.array([token_ids]), np.array([segment_ids]), np.array([masks])])[0]
    pred_indice = predicts[0][len(start_string)+1:len(start_string)+mask_num+1].argmax(axis=1).tolist()
    return [id_token_dict[_] for _ in pred_indice]


if __name__ == '__main__':
    # 原句1: 白云山,位于广东省广州市白云区,为南粤名山之一,自古就有“羊城第一秀”之称。
    start_str1 = "白云山,位于"
    end_str1 = "广州市白云区,为南粤名山之一,自古就有“羊城第一秀”之称。"
    pred_chars = get_mask_character(start_str1, 3, end_str1)
    print(pred_chars)

    # 原句2:首先,从市值看,腾讯和阿里市值已经有2500亿,而百度才500多亿,是BAT体量中最小的一家公司。
    start_str2 = "首先,从"
    end_str2 = "看,腾讯和阿里市值已经有2500亿,而百度才500多亿,是BAT体量中最小的一家公司。"
    pred_chars = get_mask_character(start_str2, 2, end_str2)
    print(pred_chars)

    # 原句3:特斯拉CEO埃隆·马斯克的个人净资产升至1850亿美元,超越亚马逊CEO贝索斯荣登全球第一大富豪。
    start_str3 = "特斯拉CEO埃隆·马斯克的个人净资产升至1850亿美元,超越亚马逊CEO贝索斯荣登"
    end_str3 = "第一大富豪。"
    pred_chars = get_mask_character(start_str3, 2, end_str3)
    print(pred_chars)

    # 原句4:我在上海闵行区工作。
    start_str4 = "我在上海闵"
    end_str4 = "区工作。"
    pred_chars = get_mask_character(start_str4, 1, end_str4)
    print(pred_chars)

注意keras-bert来调用BERT时,如果需要开启MLM和NSP任务时,需要将training设置为True,然后再调用MLM模型对文本中MASK掉的部分进行预测。运行脚本的输出结果如下:

['广', '东', '省']
['市', '值']
['全', '球']
['行']

简单的文本纠错功能

  基于上述的完形填空,我们还可以完成简单的文本纠错功能,前提是我们已经知道文本的哪个字是错误的,并且进行一对一纠错,即把这个字纠正为正确的字,并不会将其去掉或者添加其它字。我们的思路是这样的:在知道文本中的哪个字是错误的之后,将其MASK掉,转化为完形填空任务,从而预测出MASK掉的字作为纠正后的字。
  实现简单的文本纠错功能的Python代码如下:

# -*- coding: utf-8 -*-
# 该脚本使用BERT的mask技术进行文本纠错
from cloze_predict import get_mask_character

sentence = "我要去埃及金子塔玩。"  # 金子塔中的子为错别字
sentence = "白云山,位于广东省广州市白云区,为南粤名山之一,自古就有“羊城第一秀”只称。"  # 只称中的只为错别字
sentence = "请把这个快递送到上海市闵航区。"  # 闵航区中的航为错别字
sentence = "少先队员因该为老人让坐"  # 因该中的因为错别字
sentence = "随然今天很热"  # 随然中的随为错别字
sentence = "我生病了,咳数了好几天"  # 咳数中的数为错别字
sentence = "一群罗威纳犬宝宝打架,场面感忍。"  # 感忍中的忍为错别字
wrong_char_index = sentence.index("忍")

for i in range(len(sentence)):
    if i == wrong_char_index:
        start_string = sentence[:i]
        end_string = sentence[i+1:]
        pred_char = get_mask_character(start_string, 1, end_string)
        print("wrong char: {}, correct char: {}".format(sentence[i], pred_char[0]))

输出结果为:

wrong char: 忍, correct char: 人

  这种文本纠错方式利用了BERT的MLM模型来实现的,有一定的效果,但不能作为文本纠错的完美实现方式,只是作为文本纠错的一种实现方式,实际上,现实中的文本纠错是由多种模型组成的复杂策略实现的,还得考虑效果和运行效率等因素。另外,真正的文本纠错还应当能指出文本中哪个字错了并对其纠错,本文只考虑了后一步,而没有指出文本中哪个字错了,只能算文本纠错的一次尝试。

总结

  本文给出的脚本已上传至Github,网址为:https://github.com/percent4/keras_bert_cloze ,上面有更多的例子,欢迎大家参考~
  感谢大家的阅读~
  2021.1.24于上海浦东

猜你喜欢

转载自blog.csdn.net/jclian91/article/details/113091667