机器学习-朴素贝叶斯 - 代码天地

机器学习-朴素贝叶斯

其他 2018-07-17 05:15:24 阅读次数: 0

1.朴素贝叶斯对新闻进行分类：

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.classification import classification_report
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB


def naviebayes():
    """
    朴素贝叶斯进行文本分类
    :return: None
    """
    news = fetch_20newsgroups(subset='all')
    #print(news.data[0])

    # 进行数据分割
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)

    # 对数据集进行特征抽取
    tf = TfidfVectorizer()

    # 以训练集当中的词的列表进行每篇文章重要性统计['a','b','c','d']
    x_train = tf.fit_transform(x_train)

    #print(tf.get_feature_names())

    x_test = tf.transform(x_test)

    # 进行朴素贝叶斯算法的预测,使用平滑处理

    mlt = MultinomialNB(alpha=1.0)

    #print(x_train.toarray())

    mlt.fit(x_train, y_train)

    y_predict = mlt.predict(x_test)

    #print("预测的文章类别为：", y_predict)

    # 得出准确率
    print("准确率为：", mlt.score(x_test, y_test))

    print("每个类别的精确率和召回率：", classification_report(y_test, y_predict, target_names=news.target_names))

    return None

if __name__=="__main__":
    naviebayes()

结果为：

2.拉普拉斯平滑系数：

为了避免训练集样本对一些特征的缺失，即某一些特征出现的次数为0，在计算 $P(X_1,X_2,X_3,...,X_n）$ 的时候，各个概率相乘最终结果为零，这样就会影响结果。我们需要对这个概率计算公式做一个平滑处理:

其中 $m$ 为特征词向量的个数，为平滑系数，当 $= 1，$ 称为拉普拉斯平滑。

猜你喜欢

转载自blog.csdn.net/poyue8754/article/details/80825334

机器学习中的贝叶斯与朴素贝叶斯

【机器学习】朴素贝叶斯-贝叶斯公式

机器学习——贝叶斯和朴素贝叶斯

机器学习（一）—朴素贝叶斯

机器学习(十)朴素贝叶斯

机器学习之朴素贝叶斯

《机器学习实战》——朴素贝叶斯

《机器学习之朴素贝叶斯》

机器学习——朴素贝叶斯

机器学习：朴素贝叶斯理解

机器学习笔记：朴素贝叶斯

机器学习----朴素贝叶斯

机器学习-朴素贝叶斯原理

机器学习面试--朴素贝叶斯

机器学习----朴素贝叶斯详解

机器学习-朴素贝叶斯

机器学习实战 -- 朴素贝叶斯

机器学习—监督—朴素贝叶斯

机器学习（五）朴素贝叶斯

机器学习-朴素贝叶斯分类

机器学习面试—朴素贝叶斯

机器学习-半朴素贝叶斯

机器学习-朴素贝叶斯示例

朴素贝叶斯法【机器学习】

机器学习（三）------朴素贝叶斯

机器学习实战 ---- 朴素贝叶斯

机器学习——朴素贝叶斯模型

【机器学习】：朴素贝叶斯

机器学习实战---朴素贝叶斯

机器学习实战--朴素贝叶斯

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)