TF-IDF（java实现）

0写在前面：

前些天研究所有个处理文本的任务，将文本分完词然后利用tfidf计算每个文档中单词的tfidf值，其中文本（是一些舆情的新闻）已经有特定标签，表示是正向、负向还是中性的文本。后续使用这些处理好的文档来做一些舆情的情感预测。
在网上查找了一些有关java编写的tfidf程序，发现有的写的很混乱，而且没有相关的注释，阅读起来有很大的不方便，遂自己重写编写了一下tfidf，大神轻喷代码。

1.tfidf的思想

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。
IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。
但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处. 在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。

2.程序实现

首先是计算tf的代码：我们使用map来存储tf的结果，这个地方需要注意的是，我们先通过分词软件将所有的文档读成一个map，Map< String,String >其中key是每个文档的文档名，对应的value是分完词后的文档内容，单词以空格分割。这里我们定义tf的方法传的参数是map中的value值（也就是一个String），然后计算单词的tf值。

举例：参数wordAll=“合肥工业大学简称合工大位于安徽省省会合肥市创建 1945年秋 1960年 10月 22日中共中央批准全国重点大学教育部直属高校工程工程优势学科创新平台项目建设高校工科主要特色工理文经管法教育多学科综合性高等院校”

/**
     * 计算每个文档的tf值
     * @param wordAll
     * @return Map<String,Float> key是单词 value是tf值
     */
    public static Map<String,Float> tfCalculate(String wordAll){
        //存放（单词，单词数量）
        HashMap<String, Integer> dict = new HashMap<String, Integer>();
        //存放（单词，单词词频）
        HashMap<String, Float> tf = new HashMap<String, Float>();
        int wordCount=0;

        /**
         * 统计每个单词的数量，并存放到map中去
         * 便于以后计算每个单词的词频
         * 单词的tf=该单词出现的数量n/总的单词数wordCount
         */
        for(String word:wordAll.split(" ")){
            wordCount++;
            if(dict.containsKey(word)){
                dict.put(word,  dict.get(word)+1);
            }else{
                dict.put(word, 1);
            }
        }

        for(Map.Entry<String, Integer> entry:dict.entrySet()){
            float wordTf=(float)entry.getValue()/wordCount;
            tf.put(entry.getKey(), wordTf);
        }
        return tf;
    }

然后计算tfidf的值：这里需要说明的是，在计算idf的时候会涉及到包含某个单词的文档数，所以这里，会将分完词后的map传输进来。
最后用一个Map来存储最后的结果，Map< String>

/**
     * 
     * @param D 总文档数
     * @param doc_words 每个文档对应的分词
     * @param tf 计算好的tf,用这个作为基础计算tfidf
     * @return 每个文档中的单词的tfidf的值
     * @throws IOException 
     * @throws FileNotFoundException 
     */
    public static Map<String,Float> tfidfCalculate(int D, Map<String,String> doc_words,Map<String,Float> tf) throws FileNotFoundException, IOException{

        HashMap<String,Float> tfidf=new HashMap<String, Float>();
        for(String key:tf.keySet()){
            int Dt=0;
            for(Map.Entry<String, String> entry:doc_words.entrySet()){

                String[] words=entry.getValue().split(" ");

                List<String> wordlist=new ArrayList<String>();
                for(int i=0;i<words.length;i++){
                    wordlist.add(words[i]);

                }
                if(wordlist.contains(key)){
                    Dt++;
                }
            }
            float idfvalue=(float) Math.log(Float.valueOf(D)/Dt);
            tfidf.put(key, idfvalue * tf.get(key));

        }       
        return tfidf;
    }

3.最后

完整的代码已经放到本人的githup上了，有需要的可以去githup去看，完整的代码里面会有分词的过程，然后还会有将所有的单词和文档隐射成索引的形式，这样跑出来的文档可以直接用来跑相关的预测算法。
另外里面会有我们团队自己编写的一个工具类封装了分词的方法的调用，如果需要请联系本人邮箱：[email protected]，另外这个工具类的代码githup上也有。
tfidf的githup地址：https://github.com/xudongMk/tfidfkdong
工具类的githup地址：https://github.com/xudongMk/HFUTUtils

另外我们HFUT电商所还有博客地址：http://www.datalearner.com/blog_list
这上面会有该工具类的具体使用方法以及其他科学研究或者技术的博客，欢迎大家关注。

扫描二维码关注公众号，回复： 3303612 查看本文章

猜你喜欢