01 文本分析随记

一、停用词

1、含义:在语料中大量出现,但对我们分析没什么用的词,但对分析有干扰作用,需要剔除后再计算词频;比如:标点符号,量词等

2、停用词表百度搜索就有一堆了

二、TF-IDF

前言:

      比如对《中国的蜜蜂养殖》进行词频统计,去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一样多,但重要性一样吗?“中国”常见,但“蜜蜂“、“养殖” 不常见,对此案例来说,“蜜蜂“、“养殖” 更重要

定义:

TF:词频的缩写

IDF:逆文档频率; 如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文档的特性,这正是我们需要的关键词

计算公式:TF - IDF=词频(TF)* 逆文档频率(IDF)   ( 该值越大,说明越重要 )

        --  词频(TF)= 某个词在文章中出现的次数 / 该文所有词出现的次数总和

        -- 逆文档频率 ( IDF )= log( 语料库的文档总数 / ( 包含该词的文档数 + 1) )

举例:

   《中国蜜蜂养殖》:假定该文有1000个词,“中国”、“蜜蜂“、“养殖” 各出现20次,则这三个词的T F为0.02;

     搜索Google发现,包含“的”字的网页共有250亿张,假定这就是中文网页总数,包含“中国”的网页共有62.3亿张,包含“蜜蜂”的网页为0.484亿张,包含“养殖”的网页为0.973亿张

     进行TF-IDF关键词提取:TF - IDF=词频(TF)* 逆文档频率(IDF)   ( 该值越大,说明越重要 )

     包含该词的文档数(亿)          IDF           TF-IDF    
    中国                    62.3      0.603          0.0121
    蜜蜂              0.484      2.713      0.0543
    养殖              0.973      2.410      0.0482

三、文本相似度(常用余弦相似度)

步骤

1、原始句子:

句子A:我喜欢看电视,不喜欢看电影

句子B:我不喜欢看电视,也不喜欢看电影

2、分词:

句子A:我/喜欢/看/电视/,/不/喜欢/看/电影

句子B:我/不/喜欢/看/电视/,/也/不/喜欢/看/电影

3、提取语料库(词典):我,喜欢,看,电视,电影,不,也

4、计算词频:(计算句子里出现语料库里词的次数)

句子A:我1,喜欢2,看2,电视1,电影1,不1,也0

句子B:我1,喜欢2,看2,电视1,电影1,不2,也1

5、转为词频向量:

句子A:[1,2,2,1,1,1,0]

句子B:[1,2,2,1,1,2,1]

猜你喜欢

转载自www.cnblogs.com/wodexk/p/10292938.html