文本分词

1. 基本文本处理技能

英文分词，常以空格分词，中文分词较为复杂，常见方法有：正向最大、逆向最大、双向最大匹配法，这些方法是基于词典匹配而成。

正向最大：从前往后取词，每次减一个字，直至词典命中或剩下1个单字。

逆向最大：从后往前取词，每次减一个字，直至词典命中或剩下1个单子。

双向最大匹配：正向最大与逆向最大两种算法都进行一遍分词，根据词的颗粒度越大越好且单字和非字典词越少越好，进行分词。

2. 语言模型

n-gram模型也称为n-1阶马尔科夫模型，它有一个假设前提：当前词的出现概率仅仅与前面n-1个词相关。因此(1)式可以近似为：

clip_image008

当n取1、2、3时，n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率

clip_image010

假设词表的大小为100,000，那么n-gram模型的参数数量为

扫描二维码关注公众号，回复： 9148018 查看本文章

clip_image012

n越大，模型越准确，也越复杂，需要的计算量越大。最常用的是bigram，其次是unigram和trigram，n取≥4的情况较少。

3. 文本矩阵化

过程：加载文本数据集->jieba分词->去除停用词->生成词汇表->生成word_index->加载预训练词向量模型->生成词向量矩阵

jieba：https://github.com/fxsjy/jieba

特点

支持三种分词模式：
- 精确模式，试图将句子最精确地切开，适合文本分析；
- 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
- 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
MIT 授权协议

3.1 分词，新词发现

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))  #(此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))


#output
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

3.2 添加自定义词字典

开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率
用法： jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频

#userdict.txt
    
云计算 5
李小福 2 nr
创新办 3 i
easy_install 3 eng
好用 300
韩玉赏鉴 3 nz
八一双鹿 3 nz
台中
凱特琳 nz
Edu Trust认证 2000

# 未添加字典前
import jieba

test_sent = (
"李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n"
"例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类\n"
"「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。"
)
words = jieba.cut(test_sent)
print('/'.join(words))

#output
李小福/是/创新/办/主任/也/是/云/计算/方面/的/专家/;/ /什么/是/八/一双/鹿/
/例如/我/输入/一个/带/“/韩玉/赏鉴/”/的/标题/，/在/自定义词/库中/也/增加/了/此/词为/N/类/
/「/台/中/」/正確/應該/不會/被/切開/。/mac/上/可/分出/「/石墨/烯/」/；/此時/又/可以/分出/來凱/特琳/了/。

#添加词典
import jieba
jieba.load_userdict("userdict.txt")

jieba.add_word('石墨烯')
jieba.add_word('凱特琳')
jieba.del_word('自定义词')

test_sent = (
"李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n"
"例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类\n"
"「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。"
)
words = jieba.cut(test_sent)
print('/'.join(words))

#output
李小福/是/创新办/主任/也/是/云计算/方面/的/专家/;/ /什么/是/八一双鹿/
/例如/我/输入/一个/带/“/韩玉赏鉴/”/的/标题/，/在/自定义/词库/中/也/增加/了/此/词为/N/类/
/「/台中/」/正確/應該/不會/被/切開/。/mac/上/可/分出/「/石墨烯/」/；/此時/又/可以/分出/來/凱特琳/了/。

3.3 去除停用词

import jieba
jieba.load_userdict("userdict.txt")

test_sent = "李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿"
stopwords = ['是','了','什么','的']
words = jieba.cut(test_sent)

new_test_sent = []
for w in words:
    if w in stopwords:
        pass
    else:
        new_test_sent.append(w)
print('test_sent: {}'.format("/".join(jieba.cut(test_sent))))
print('new_test_sent: {}'.format("/".join(new_test_sent)))

#output
test_sent: 李小福/是/创新办/主任/也/是/云计算/方面/的/专家/;/ /什么/是/八一双鹿
new_test_sent: 李小福/创新办/主任/也/云计算/方面/专家/;/ /八一双鹿

3.4 文本矩阵化

from gensim import corpora, models
import jieba

jieba.load_userdict("userdict.txt")

jieba.add_word('石墨烯')
jieba.add_word('凱特琳')
jieba.del_word('自定义词')

test_sent = [
"李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿",
"例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类",
"「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了"
]

stopwords = ['是','了','什么','的']

new_sents=[]
for sent in test_sent:
    sent_split = list(jieba.cut(sent))
    new_sent = []
    for w in sent_split:
        if w in stopwords:
            continue
        else:
            new_sent.append(w)
    new_sents.append(new_sent)
print('新句子： ',new_sents)
print()

# 构造词典
dic = corpora.Dictionary(new_sents)
print('词典： ',dic)
print('词典token2id: ',dic.token2id)
print()

# 语料库
corpus = [dic.doc2bow(sent) for sent in new_sents]
print('语料：',corpus)
print()

tfidf = models.TfidfModel(corpus)
print(tfidf.dfs)

#output
新句子：  [['李小福', '创新办', '主任', '也', '云计算', '方面', '专家', ';', ' ', '八一双鹿'], ['例如', '我', '输入', '一个', '带', '“', '韩玉赏鉴', '”', '标题', '，', '在', '自定义', '词库', '中', '也', '增加', '此', '词为', 'N', '类'], ['「', '台中', '」', '正確', '應該', '不會', '被', '切開', '。', 'mac', '上', '可', '分出', '「', '石墨烯', '」', '；', '此時', '又', '可以', '分出', '來', '凱特琳']]

词典：  Dictionary(49 unique tokens: [' ', ';', '专家', '主任', '也']...)
词典token2id:  {' ': 0, ';': 1, '专家': 2, '主任': 3, '也': 4, '云计算': 5, '八一双鹿': 6, '创新办': 7, '方面': 8, '李小福': 9, 'N': 10, '“': 11, '”': 12, '一个': 13, '中': 14, '例如': 15, '在': 16, '增加': 17, '带': 18, '我': 19, '标题': 20, '此': 21, '类': 22, '自定义': 23, '词为': 24, '词库': 25, '输入': 26, '韩玉赏鉴': 27, '，': 28, 'mac': 29, '。': 30, '「': 31, '」': 32, '上': 33, '不會': 34, '來': 35, '凱特琳': 36, '分出': 37, '切開': 38, '又': 39, '可': 40, '可以': 41, '台中': 42, '應該': 43, '正確': 44, '此時': 45, '石墨烯': 46, '被': 47, '；': 48}

语料： [[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1)], [(4, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1), (19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 1)], [(29, 1), (30, 1), (31, 2), (32, 2), (33, 1), (34, 1), (35, 1), (36, 1), (37, 2), (38, 1), (39, 1), (40, 1), (41, 1), (42, 1), (43, 1), (44, 1), (45, 1), (46, 1), (47, 1), (48, 1)]]

{0: 1, 1: 1, 2: 1, 3: 1, 4: 2, 5: 1, 6: 1, 7: 1, 8: 1, 9: 1, 10: 1, 11: 1, 12: 1, 13: 1, 14: 1, 15: 1, 16: 1, 17: 1, 18: 1, 19: 1, 20: 1, 21: 1, 22: 1, 23: 1, 24: 1, 25: 1, 26: 1, 27: 1, 28: 1, 29: 1, 30: 1, 31: 1, 32: 1, 33: 1, 34: 1, 35: 1, 36: 1, 37: 1, 38: 1, 39: 1, 40: 1, 41: 1, 42: 1, 43: 1, 44: 1, 45: 1, 46: 1, 47: 1, 48: 1}

个人觉得文章还不错的，推荐一下：

N-gram Language Models：https://web.stanford.edu/~jurafsky/slp3/3.pdf

语言模型的基本概念：https://blog.csdn.net/mspinyin/article/details/6137815

自然语言处理的数学原理：https://liam.page/2015/07/26/mathematics-theory-of-natural-language-processing-2/

zoe_cf

发布了41 篇原创文章 · 获赞 14 · 访问量 4万+

私信关注

特点

猜你喜欢