基于贝叶斯分类器的文本分类与情感分析

作者:禅与计算机程序设计艺术

1.1 概述

文本分类是NLP(Natural Language Processing,自然语言处理)的一个重要任务。文本分类就是将一段文本划分到某一类别或多个类别中。例如,垃圾邮件筛选、新闻分类、社区问答、个性化推荐等。 情感分析(Sentiment Analysis)也是NLP中的一个重要任务。它可以分析出给定的文本所表达的情绪极性(正面或者负面)。例如,商品评论的情绪极性,论坛帖子的积极还是消极,微博、新闻、脸书等平台上用户的态度变化等。 在实际应用场景中,有时需要对文本进行自动分类和情感分析。而传统的分类方法往往无法准确识别出文本的情感倾向。因而,如何提升文本分类和情感分析的效果,成为研究者们关注的问题之一。 本文将介绍一种基于贝叶斯分类器的文本分类和情感分析方法。该方法利用词频统计、多项式贝叶斯法以及朴素贝叶斯法实现。同时,将该方法与其它分类方法相比较,并阐述其优缺点。最后,讨论该方法在现实应用中的局限性及未来方向。

1.2 相关工作

(1)分类方法概览

在过去的几十年里,已经有许多不同的文本分类方法被提出来。其中最著名的莫过于朴素贝叶斯法(Naive Bayes,NB),它假设所有特征都是相互独立的,并且各特征之间具有相同的条件概率分布。另外还有一些改进版的朴素贝叶斯法如高斯朴素贝叶斯法(Gaussian Naive Bayes,GNB)和加权最小二乘法(Weighted Least Squares,WLS)。总的来说,这些方法的共同特点是都能够对文档进行分类。但是&#

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/131746290
今日推荐