Spark MLlib机器学习实践 4.26

参考书籍《Spark MLlib机器学习实践》   1

Internet of Things---------------->Big Data------------------>Cloud Computing

云计算和分布式计算的区别分 布式计算是将在不同物理区域的计算资源组织整合起来进行计算,与集中式计算中心相对应;而云计算是借助于云上的计算资源进行计算,云上的计算可以是一个分布式计算系统,也可以是一个集中式的计算中心,只要你有权限提交你的计算需求,本质上云计算与本地计算相对应。


spark-----火花-----点燃大数据时代的序幕


如何使用MLlib进行数据挖掘。MLlib已经成为可以运行在分布式集群上的数据挖掘工具。

数据挖掘的难点在于:1.算法的学习 2.程序的设计 3.使用的相关背景,如统计学、人工智能、网络技术等。

工程实践和理论之间的平衡

大数据挖掘 大数据分析

非结构化数据

大数据分析时代:1.有效的数据质量 2.优秀的分析引擎 3.合适的分析算法 4.对未来的合理预测 5.数据结果的可视化

apache spark 加州大学伯克利分校

Spark 是建立在JVM上的开源数据处理框架,借助于架设在普通商用机上的HDFS存储系认同,可以搭建数据分析平台。Spark使用特定的数据格式RDD

MLlib是构建在spark上的机器学习库,采用scala语言编写

应用场景:产品推荐 广告投放




猜你喜欢

转载自blog.csdn.net/qq_28088259/article/details/80090244