spark ml - 代码天地

spark ml

其他 2019-11-26 14:01:19 阅读次数: 0

spark ml是基于spark 2.0环境，以DataFrame为数据处理单元。spark经历了三代，依次如下。DataFrame是个列式数据集，结构化的数据集，RDD是非结构化的，第二代比第一代因结构化数据计算的性能都要优秀些。第三代的dataset已经序列化的

数据，是encoding，已经转化为二进制，也就是spark自己已实现编码和反编码。因此，其性能因不需要要第三方结构来处理数据得到进一步提升。RDD会逐步退出历史舞台。

DataFrame按列处理数据，不是面向对象风格,不进行安全检查，只有在运行的时候才进行安全检查。

DataSet必须明确每一个列，是个强类型,在编译的时候进行类型检查。用case class定义。

RDD的创建

创建示例

RDD转化为DataFram

如果出现错误，可以从checkpoint恢复，不需要重新跑一边程序。

转化为临时sql表

转化为临时表可以进行sql操作。

去重操作示例

Expr操作？？

分割操作示例

withcolumn是增加一列，增加常数项

聚合操作示例

对json的支持

时间日期操作

支持数值运算

字符串操作

猜你喜欢

转载自www.cnblogs.com/chenglansky/p/11934851.html

spark-ML基础

spark.ml机器学习模块

Spark-ML 线性回归 LinearRegression

spark.ml支持算法总结

Spark.ML之PipeLine学习笔记

spark-ml和jpmml-sparkml生成pmml模型过程种遇到的问题

机器学习特征值转换(使用spark.ml)

scala-MLlib官方文档---spark.ml package--ML Pipelines+Collaborative Filtering+Frequent Pattern Mining

scala-MLlib官方文档---spark.ml package--Extracting、transforming and selecting features

scala-MLlib官方文档---spark.ml package--clustering+model selection and hyperparameter tuning

scala-MLlib官方文档---spark.ml package--Classification and regression

scala-MLlib官方文档---spark.ml package--basic Statistics+Data source

SparkML -- LightGBM On Spark

涉及RDD批处理、SparkSQL、Sparkstreaming、Spark ML的pyspark实践学习

SparkSQL与Hive on Spark的比较

SparkSQL和hive on Spark

Spark介绍（四）SparkSQL

sparkSQL，hive on spark ，thriftserver

spark之sparkSql

spark记录（13）SparkSQL

Spark系列-SparkSQL实战

hive on spark与sparkSQl共存

【Spark】SparkSQL优化

SparkSQL & Spark on Hive & Hive on Spark

Spark（四）————SparkSQL和SparkStreaming

Spark学习（六）---SparkSQL介绍

spark复习笔记(7):sparkSQL

sparksql\hive on spark\hive on mr

Spark原理 | SparkSQL Catalyst解析

spark学习记录（十、SparkSQL）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)