“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!
本期会给大家奉献上精彩的:区块链、机器学习、spark、hbase、kafka和分布式数据库。全是干货,希望大家喜欢!!!
#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。
特别提醒,文末有惊喜!
以下是正文,限于众编辑水平有限,不保证大家都喜欢。
1区块链技术
区块链技术最近太火爆了,狂热者可以看看。
全球著名黑客教授发出区块链失败警告:我们不应太狂热,这项技术还很早期
http://dwz.cn/7f3dtf
本文是一篇机器学习入门文章,首先以故事形式对什么机器学习进行讲解,然后正式开始讲解机器学习的概念与定义,然后是机器学习的相关学科,机器学习中包含的各类学习算法,接着介绍机器学习与大数据的关系,机器学习的新子类深度学习,最后探讨了一下机器学习与人工智能发展的联系以及机器学习与潜意识的关联。
3Spark技术1)本文从spark应用调用和程序调用对spark调用 进行阐述 希望对大家所帮助 。Spark应用程序在集群运行的调度,应用程序包括Driver调度和Executor调度。
2)随着Spark的逐渐成熟完善, 越来越多的可配置参数需要技术人员独立去配置。参数的选择往往直接决定平台能够达到的性能,虽然官方英文文档具有很重要的参考价值,但是对于不熟悉Spark内部架构的人来说,独立配置参数还是具有一定挑战性,本文试图通过阐述这其中部分参数的工作原理和配置思路。
http://dwz.cn/7f3ei8
3)本文首先讨论Spark SQL在大规模数据集上遇到的挑战,然后介绍自适应执行的背景和基本架构,以及自适应执行如何应对Spark SQL这些问题,最后我们将比较自适应执行和现有的社区版本Spark SQL在100 TB 规模TPC-DS基准测试碰到的挑战和性能差异,以及自适应执行在Baidu Big SQL平台的使用情况。
4分布式数据库在大数据技术下,分布式数据库与Hadoop两者相辅相成。Hadoop适合非结构化批处理分析场景;分布式数据库则更适合高并发在线业务场景。
5Hbase优化本文针对RPC的调用优化和客户端的HBase集群访问的优化做出了详细的介绍和解决思路的提出。
本文最kafka的设计思想,文件存储原理和分布式都有很全面的讲解,还是值得一读的。
祝大家2019过上猪一样的生活。
致谢:
薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、魏宏斌
加入技术讨论群
为了方便大家相互交流学习,社区群人数已经2500+,欢迎大家加下面助手微信,拉大家进群,自由交流。
喜欢QQ群的,可以扫描下面二维码:
欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过50+):