01 文本分析随记

一、停用词

1、含义：在语料中大量出现，但对我们分析没什么用的词，但对分析有干扰作用，需要剔除后再计算词频；比如：标点符号，量词等

2、停用词表百度搜索就有一堆了

二、TF-IDF

前言：

比如对《中国的蜜蜂养殖》进行词频统计，去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一样多，但重要性一样吗？“中国”常见，但“蜜蜂“、“养殖” 不常见，对此案例来说，“蜜蜂“、“养殖” 更重要

定义：

TF：词频的缩写

IDF：逆文档频率；如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文档的特性，这正是我们需要的关键词

计算公式：TF - IDF=词频（TF）* 逆文档频率（IDF） ( 该值越大，说明越重要 )

-- 词频（TF）= 某个词在文章中出现的次数 / 该文所有词出现的次数总和

-- 逆文档频率 ( IDF )= log( 语料库的文档总数 / ( 包含该词的文档数 + 1) )

举例:

《中国蜜蜂养殖》：假定该文有1000个词，“中国”、“蜜蜂“、“养殖” 各出现20次，则这三个词的T F为0.02；

搜索Google发现，包含“的”字的网页共有250亿张，假定这就是中文网页总数，包含“中国”的网页共有62.3亿张，包含“蜜蜂”的网页为0.484亿张，包含“养殖”的网页为0.973亿张

进行TF-IDF关键词提取：TF - IDF=词频（TF）* 逆文档频率（IDF） ( 该值越大，说明越重要 )

三、文本相似度（常用余弦相似度）

步骤

1、原始句子：

句子A：我喜欢看电视，不喜欢看电影

句子B：我不喜欢看电视，也不喜欢看电影

2、分词：

句子A：我/喜欢/看/电视/,/不/喜欢/看/电影

句子B：我/不/喜欢/看/电视/,/也/不/喜欢/看/电影

3、提取语料库（词典）：我，喜欢，看，电视，电影，不，也

4、计算词频：（计算句子里出现语料库里词的次数）

句子A：我1，喜欢2，看2，电视1，电影1，不1，也0

句子B：我1，喜欢2，看2，电视1，电影1，不2，也1

5、转为词频向量：

句子A：[1,2,2,1,1,1,0]

句子B：[1,2,2,1,1,2,1]