Spark mllib 贝叶斯分类

其他 2018-07-16 05:15:19 阅读次数: 0

贝叶斯定理

已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率：

表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：

贝叶斯定理之所以有用，是因为我们在生活中经常遇到这种情况：我们可以很容易直接得出P(A|B)，P(B|A)则很难直接得出，但我们更关心P(B|A)，贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。

下面直接给出贝叶斯定理：

package com.immooc.spark

import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.classification.NaiveBayes
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.{SparkConf, SparkContext}

object NaiveBayesTest {
  def main(args:Array[String]): Unit = {


    val conf = new SparkConf().setAppName("NaiveBayes").setMaster("local[2]")
    val sc = new SparkContext(conf)

    Logger.getRootLogger.setLevel(Level.WARN)

     val data = sc.textFile("file:///Users/walle/Documents/D3/sparkmlib/football.txt")
     val parsedData = data.map{ line =>
         val parts = line.split(',')
         LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))
     }
     val splits = parsedData.randomSplit(Array(0.6, 0.4), seed = 11L)
     val training = splits(0)
     val test = splits(1)

     val model = NaiveBayes.train(training, lambda = 1.0, modelType = "multinomial")

     val predictionAndLabel = test.map(p => (model.predict(p.features), p.label))
     val print_predict = predictionAndLabel.take(20)
      for (i <- 0 to print_predict.length - 1){
         println(print_predict(i)._1 + "\t" + print_predict(i)._2)
      }

    println("Predictionof (0.0, 2.0, 0.0, 1.0):"+model.predict(Vectors.dense(0.0,2.0,0.0,1.0)))

  }
}

http://www.waitingfy.com/archives/4671

1. 数据

2. 输出

 1.0	1.0
1.0	1.0
0.0	1.0
1.0	1.0
0.0	0.0
Predictionof (0.0, 2.0, 0.0, 1.0):0.0

猜你喜欢

转载自blog.csdn.net/fox64194167/article/details/81055361

Spark mllib 贝叶斯分类

Spark 实现mllib分类朴素贝叶斯，SVM，决策树以及随机森林。

Spark-MLlib的快速使用之二（朴素贝叶斯分类）

Spark MLlib 贝叶斯分类算法实例具体代码及运行过程详解

朴素贝叶斯算法+Spark MLlib代码Demo

贝叶斯、朴素贝叶斯及调用spark官网 mllib NavieBayes示例

朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)

Spark MLlib分布式机器学习源码分析：朴素贝叶斯

【Spark MLlib】（四）分类算法

Spark MLlib

Spark MLlib之分类模型源码分析

使用Spark MLlib 完成新闻自动分类

MLlib spark 垃圾邮件分类

spark官方文档MLlib学习---分类与回归

[MLLib]一、Spark MLLib介绍

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

spark 基于MLlib的机器学习 Spark MLlib

【Spark MLlib】（一）Spark MLlib 机器学习

spark 朴素贝叶斯

Spark-Mllib中各分类算法的java实现

Spark-MLlib分类算法（逻辑回归）实战算法

Spark-MLlib之分类和回归算法

spark.mllib源码阅读-分类算法5-GradientBoostedTrees

spark.mllib源码阅读-分类算法4-DecisionTree

spark.mllib源码阅读-分类算法3-SVM

spark.mllib源码阅读-分类算法2-NaiveBayes

spark.mllib源码阅读-分类算法1-LogisticRegression

spark-06:MLlib

Spark mllib LinearRegression

Spark mllib 列统计

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)