spark 机器学习朴素贝叶斯实现(二) - 代码天地

spark 机器学习朴素贝叶斯实现(二)

其他 2019-06-11 11:05:00 阅读次数: 0

已知10月份10-22日网球场地，会员打球情况
通过朴素贝叶斯算法，预测23，24号是否适合打网球。
结果,日期,天气温度风速
结果（0否,1是）
天气（0晴天，1阴天，2下雨）
温度（0热，1舒适，2冷）
风速（0没风，1微风，2大风）
训练数据
vi p1.txt
1,20181010,0 1 0
0,20181011,2 2 2
1,20181012,0 0 0
1,20181013,0 0 1
1,20181014,0 1 1
1,20181014,0 1 1
1,20181015,0 1 0
0,20181016,1 2 2
0,20181017,1 2 2
0,20181018,2 2 2
0,20181019,2 1 1
0,20181020,2 1 2
0,20181021,1 2 2
1,20181022,0 1 0

测试数据
vi p2.txt
20181023,0 1 1
20181024,2 1 0

1.装载朴素贝叶斯包
scala> import org.apache.spark.mllib.classification.{NaiveBayes,NaiveBayesModel}
scala> import org.apache.spark.mllib.linalg.Vectors
scala> import org.apache.spark.mllib.regression.LabeledPoint
//标注点LabeledPoint是一种带有标签（Label/Response）的本地向量，它可以是稠密或者是稀疏的。在MLlib中，标注点在监督学习算法中被使用。由于标签是用双精度浮点型来存储的，故标注点类型在回归（Regression）和分类（Classification）问题上均可使用。例如，对于二分类问题，则正样本的标签为1，负样本的标签为0，而对于多类别的分类问题来说，标签则应是一个以0开始的索引序列:0, 1, 2 ...

2.创建RDD数据集
scala> val data1=sc.textFile("hdfs://h201:9000/p1.txt")
scala> val data2=sc.textFile("hdfs://h201:9000/p2.txt")

3.转换格式(贝叶斯算法识别的格式)
val train1=data1.map(line=>{
     val line1=line.split(",")
     val line2=LabeledPoint(line1(0).toDouble,Vectors.dense(line1(2).split(' ').map(_.toDouble)))
     (line2)
})
//Vectors.dense转换为”稠密向量”
val test1=data2.map(line=>{
   val line1=line.split(",")
   val line2=Vectors.dense(line1(1).split(' ').map(_.toDouble))
   (line2)
})

4.应用朴素贝叶斯算法
scala>val model =NaiveBayes.train(train1,lambda = 1.0)
//获得训练模型,第一个参数为数据，第二个参数为平滑参数，默认为1，可改

scala>val tt=model.predict(test1)
scala> tt.collect()

猜你喜欢

转载自www.cnblogs.com/xiguage119/p/11002314.html

spark 机器学习朴素贝叶斯实现(二)

Spark实现朴素贝叶斯

<机器学习实战>--朴素贝叶斯实战(二)

机器学习算法及实战——朴素贝叶斯代码实现

机器学习实战朴素贝叶斯的java实现

机器学习实战——朴素贝叶斯Python实现记录

机器学习——朴素贝叶斯算法Python实现

Python实现机器学习算法：朴素贝叶斯算法

朴素贝叶斯算法的python实现 -- 机器学习实战

机器学习-朴素贝叶斯原理及Python实现

【机器学习】--朴素贝叶斯简介及实现

机器学习之朴素贝叶斯（二）：朴素贝叶斯算法案例——新闻分类

机器学习之朴素贝叶斯（二）：朴素贝叶斯算法案例——新闻分类

机器学习之朴素贝叶斯（一）：朴素贝叶斯的介绍、概率基础（拉普拉斯平滑）、sklearn朴素贝叶斯实现API、朴素贝叶斯分类的优缺点、文本的特征工程

spark 朴素贝叶斯

《统计学习方法》朴素贝叶斯贝叶斯估计 Python实现

掌握Spark机器学习库-08.2-朴素贝叶斯算法

Spark MLlib分布式机器学习源码分析：朴素贝叶斯

[机器学习]朴素贝叶斯原理和基于Spark 实例

机器学习-----详解贝叶斯公式、朴素贝叶斯的来龙去脉（附上多方式代码实现）

机器学习中的贝叶斯与朴素贝叶斯

【机器学习】朴素贝叶斯-贝叶斯公式

机器学习——贝叶斯和朴素贝叶斯

机器学习之朴素贝叶斯Naïve Bayes (二) scikit-learn算法库

机器学习实战：Python基于朴素贝叶斯Bayes进行分类预测（二）

朴素贝叶斯-分类及Sklearn库实现（2）机器学习实战

朴素贝叶斯-分类及Sklearn库实现（1）机器学习实战

机器学习笔记：朴素贝叶斯方法（Naive Bayes）原理和实现

【机器学习】朴素贝叶斯（多分类版本）—— python3 实现方案

机器学习之朴素贝叶斯(NB)分类算法与Python实现

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)