spark.mllib - 代码天地

spark.mllib

其他 2019-09-30 13:54:34 阅读次数: 0

import org.apache.spark.mllib.recommendation.{ALS,MatrixFactorizationModel,Rating}

----------------------------------------
ALS:最小二乘法
求解矩阵分解问题的最优化方法。
其实，就是补充二维矩阵中缺失的打分。

输入：显性数据-train,隐形数据-trainImplicit()
输出：MatrixFactorizationModel矩阵分解模型，

train参数：
•numBlocks 是用于并行化计算的分块个数 (设置为-1，为自动配置)。
•ratings:RDD[Rating]
•rank 是模型中隐语义因子的个数。
•iterations 是迭代的次数。
•lambda 是ALS的正则化参数。
•implicitPrefs 决定了是用显性反馈ALS的版本还是用适用隐性反馈数据集的版本。
•alpha 是一个针对于隐性反馈 ALS 版本的参数，这个参数决定了偏好行为强度的基准。

训练模型
ALS.train(ratings,rank,numIterations,lambda,(alpha))

------------------------------------------
MatrixFactorizationModel矩阵分解模型
该模型将用户因子和物品因子分别保存在一个(id,factor)对类型的RDD中。
分别称作userFeatures和productFeatures.各因子factor的类型是Array[Double].
可以保存在分布式文件系统上。

方法：
predict(userid,productid)，返回值是预测评分
recommendProducts(userid,numProducts),给一个给定的用户推荐前numProducts个产品

计算给定用户对某个物品的预计评级：从用户因子矩阵取相应的行和物品因子矩阵取列，然后计算点积即可。
------------------------------------------
Rating:评分类
每个对象都包含一个用户id，一个产品id和一个评分。
要求：每个id都是一个32位的整型值。

猜你喜欢

转载自www.cnblogs.com/xl717/p/11612338.html

spark.mllib

spark.mllib源码阅读-bagging方法

spark.mllib源码阅读-分类算法4-DecisionTree

spark.mllib源码阅读-分类算法3-SVM

spark.mllib源码阅读-分类算法2-NaiveBayes

spark.mllib源码阅读-分类算法1-LogisticRegression

spark.mllib源码阅读-分类算法5-GradientBoostedTrees

spark.mllib源码阅读-回归算法1-LinearRegression

spark.mllib源码阅读-优化算法3-Optimizer

spark.mllib源码阅读-优化算法2-Updater

spark.mllib源码阅读-回归算法2-IsotonicRegression

spark.mllib源码阅读-优化算法1-Gradient

scala-MLlib官方文档---spark.mllib package--clusteirng

scala-MLlib官方文档---spark.mllib package--Data types（数据类型）

scala-MLlib官方文档---spark.mllib package--Evaluation metrics+Optimization

scala-MLlib官方文档---spark.mllib package-Dimensionality reduction+Feature Extraction and Transformation

scala-MLlib官方文档---spark.mllib package--Collaborative filtering

scala-MLlib官方文档---spark.mllib package--classification and regression

scala-MLlib官方文档---spark.mllib package--Basic statistics

Spark-MLlib

spark.mllib源码阅读-聚类算法1-KMeans

scala-MLlib官方文档---spark.mllib package--Frequent pattern mining+PMML model export

[Spark_mllib]K-Means

Spark MLlib（上）--机器学习及SparkMLlib简介

Spark-MLlib的快速使用之零（spark介绍）

Spark-Mllib中各分类算法的java实现

Spark-mllib源码分析之逻辑回归(Logistic Regression)

Spark-MLlib分类算法（逻辑回归）实战算法

Spark-MLlib之分类和回归算法

Spark-MLlib的快速使用之三（随机森林）

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)