学习笔记:从0开始学习大数据-20. 机器学习spark ml算法库应用练习 - 代码天地

学习笔记:从0开始学习大数据-20. 机器学习spark ml算法库应用练习

编程语言 2018-12-05 21:00:09 阅读次数: 0

作为大数据初学者，机器学习算法的运用，只是hello world知道个123，以后项目需要再深入

Mahout，spark MLlib,spark ML三个算法库，根据网上了解比较，采用spark ml算法库作为学习对象。

本次学习只是调试能运行网上的例子

代码案例网址：

https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice6/ 基于 Spark ML 的文本分类

1.环境，已经安装hadoop，spark原来是1.6版本的，运行总是出问题，为了一致，下载的是2.4版本

因为hadoop是2.6版本的，就选了这个组合，下载的文件是 spark-2.4.0-bin-hadoop2.6.tgz

spark的单机安装配置运行，见我前面的文章，不再罗列。

2. 在eclipse中创建maven scala项目下的scala object,类名SMSClassifier

代码复制上面网址，无需修改

3. pom.xml中加入spark ml库，注意版本

<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-mllib_2.11</artifactId>
<version>2.4.0</version>
</dependency>

为什么是这个版本，这个开始费了点时间，运行作业总是提示没有某个方法，后来找到问题解决办法，就是先看运行环境的jar版本，然后设置eclipse中的编译版本，两者一致，就能顺利运行。

4. eclipse 中编译导出类的jar文件，提交spark运行

[root@centos7 bin]# ./spark-submit --class com.linbin.scala.SMSClassifier --master spark://centos7:7077 /home/linbin/workspace/SMSClassifier.jar hdfs://centos7:8020/user/linbin/spark/SMSSpamCollection
因为在本地运行可以不指定--master spark://<host>:<port> 参数

运行结果：

可以根据样本训练后，绝大部分的垃圾短信都能正确识别，上面红色部分是识别结果与预期不符的，只是少数。

通过 http://centos7:8080 可以监控执行状态

算法的理解和灵活运用非一日之功，本次学习也只是到此一游，需要用到时再研。

猜你喜欢

转载自blog.csdn.net/oLinBSoft/article/details/84830029

学习笔记:从0开始学习大数据-20. 机器学习spark ml算法库应用练习

Spark机器学习算法

spark 机器学习（ml pipeline）

Spark ML机器学习：SQLTransformer

机器学习开源算法库

spark.ml机器学习模块

spark ml pipeline构建机器学习任务

使用 Spark ML Pipeline 进行机器学习

Spark ML机器学习：N-gram

【Spark】Spark ML 机器学习的一个案例

[机器学习算法]逻辑回归模型、优缺点及spark ml机器学习库实现LR

机器学习实战10-基于spark大数据技术与机器学习的结合应用实战

机器学习-KNN算法原理 && Spark实现

机器学习-KMeans算法原理 && Spark实现

Python+Spark2.0+hadoop学习笔记——Spark ML Pipeline机器学习流程

spark机器学习从0到1聚类算法 (十）

C++机器学习算法库Dlib

PySpark MLlib 机器学习算法库

机器学习特征值转换(使用spark.ml)

Spark ML机器学习：标准化-StandardScaler

Spark ML机器学习：多项式转化-PolynomialExpansion

Spark ML机器学习：Tokenizer分词器

Spark ML机器学习：元素智能乘积-ElementwiseProduct

Spark2.0 机器学习 ML 库：机器学习工作流、交叉 - 验证方法

Spark 2.0 机器学习 ML 库：常见的机器学习模型（Scala 版）

大数据推荐系统算法代码全接触（机器学习算法+Spark实现）

大数据全家桶：Hadoop，Spark，Strom，Druid实战，机器学习算法

Spark机器学习

机器学习-Spark MLlib

Apache Spark机器学习

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)