大数据和云计算技术周报（第13期）

写在第13期周报

“大数据” 三个字其实是个marketing语言，从技术角度看，包含范围很广，计算、存储、网络都涉及，知识点广、学习难度高。

#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。感谢编辑们的长期坚持！也请同学们继续打赏，支持社区，支持编辑们持续奉献高质量知识！

本期会给大家奉献上精彩的：区块链、机器学习、spark、hbase、kafka和分布式数据库。全是干货，希望大家喜欢！！！

#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学，欢迎扫描文末二维码联系（参与社区工作，收获知识和进步，还有红包哦）。

特别提醒，文末有惊喜！

以下是正文，限于众编辑水平有限，不保证大家都喜欢。

1区块链技术

区块链技术最近太火爆了，狂热者可以看看。

全球著名黑客教授发出区块链失败警告：我们不应太狂热，这项技术还很早期

http://dwz.cn/7f3dtf

?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

2机器学习入门

本文是一篇机器学习入门文章,首先以故事形式对什么机器学习进行讲解,然后正式开始讲解机器学习的概念与定义，然后是机器学习的相关学科，机器学习中包含的各类学习算法，接着介绍机器学习与大数据的关系，机器学习的新子类深度学习，最后探讨了一下机器学习与人工智能发展的联系以及机器学习与潜意识的关联。

http://dwz.cn/7f3dPB

?wx_fmt=jpeg

3Spark技术

1）本文从spark应用调用和程序调用对spark调用进行阐述希望对大家所帮助。Spark应用程序在集群运行的调度，应用程序包括Driver调度和Executor调度。

http://dwz.cn/7f3e5q

?wx_fmt=jpeg

2）随着Spark的逐渐成熟完善, 越来越多的可配置参数需要技术人员独立去配置。参数的选择往往直接决定平台能够达到的性能，虽然官方英文文档具有很重要的参考价值，但是对于不熟悉Spark内部架构的人来说，独立配置参数还是具有一定挑战性，本文试图通过阐述这其中部分参数的工作原理和配置思路。

http://dwz.cn/7f3ei8

?wx_fmt=jpeg

3）本文首先讨论Spark SQL在大规模数据集上遇到的挑战，然后介绍自适应执行的背景和基本架构，以及自适应执行如何应对Spark SQL这些问题，最后我们将比较自适应执行和现有的社区版本Spark SQL在100 TB 规模TPC-DS基准测试碰到的挑战和性能差异，以及自适应执行在Baidu Big SQL平台的使用情况。

http://dwz.cn/7f3evl

?wx_fmt=jpeg