资料学习《Hadoop权威指南第4版》+《Elasticsearch源码解析与优化实战》+《Spark高级数据分析第2版》

作为计算框架，Spark速度快，开发简单，能同时兼顾批处理和实时数据分析，因此很快被广大企业级用户所采纳，并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。

《Spark高级数据分析第2版》电子书由业内知名数据科学家执笔，通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题，既涉及模型的构建和评价，也涵盖数据清洗、数据预处理和数据探索，并描述了如何将结果变为生产应用，是运用Apache Spark进行大数据分析和处理的实战宝典。
在这里插入图片描述
根据新版Spark最佳实践，对样例代码和所用资料做了大量更新。涵盖模式如下：

● 音乐推荐和Audioscrobbler数据集● 用决策树算法预测森林植被● 基于K均值聚类进行网络流量异常检测

● 基于潜在语义算法分析维基百科● 用GraphX分析伴生网络● 对纽约出租车轨迹进行空间和时间数据分析

● 通过蒙特卡罗模拟来评估金融风险● 基因数据分析和BDG项目● 用PySpark和Thunder分析神经图像数据

结合理论和实践，《Hadoop权威指南第4版》电子书由浅入深，全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台。5部分24 章，第Ⅰ部分介绍Hadoop 基础知识，第Ⅱ部分介绍MapReduce,第Ⅲ部分介绍Hadoop 的运维，第Ⅳ部分介绍Hadoop 相关开源项目，第Ⅴ部分提供了三个案例。
在这里插入图片描述
Hadoop生态都有涉及，很厚很全：HDFS, MapReduce1&2(YARN), Hive, HBase, Pig, ZooKeeper, Sqoop等。多数章节对自己的要求都是了解和能用即可，唯独ZK一章爱不释手，从算法到实现到操作到应用讲的真是好。系统性学习不还是得看经典书。

某种意义上说，elasticsearch 可分为集群层、索引层、分片层和最后的存储引擎层（lucene）；集群层，一个节点作为 master，采用 bully 算法选出，负责进行 allocation、全局状态管理等；其他节点作为协调节点（gateway、query、route & merge）和数据节点；每个数据节点多个分片，分片间主从，采用 PacificA、translog 进行同步；一个比较奇怪的点是，es 居然是 partition by DocId（而非 term）这导致了其搜索必须采用广播形式，因此无法做到很大规模；线程模型嘛，看起来是按照任务，分为不同独立的线程池和队列，底层数据共享。

对Elasticsearch进行改进的研发人员、平台运维人员，对分布式搜索感兴趣的，在使用Elasticsearch过程中遇到了问题，推荐学习《Elasticsearch源码解析与优化实战》电子书。
在这里插入图片描述
《Elasticsearch源码解析与优化实战》电子书，介绍了Elasticsearch的系统原理，旨在帮助了解其内部原理、设计思想，以及在生产环境中如何正确地部署、优化系统。系统原理分两方面介绍，一方面详细介绍主要流程，例如启动流程、选主流程、恢复流程；另一方面介绍各重要模块的实现，以及模块之间的关系，例如gateway模块、allocation模块等。最后一部分介绍如何优化写入速度、搜索速度等大家关心的实际问题，并提供了一些诊断问题的方法和工具供参考。

整理的《Spark高级数据分析第2版》电子资料，《Hadoop权威指南第4版》电子学习资料，《Elasticsearch源码解析与优化实战》等方面的学习电子资料:
https://ai-nlp-book.lofter.com/post/312661e1_1c77193de

学习大数据平台原理，代码训练，每天都在进步！

学习study

发布了8 篇原创文章 · 获赞 2 · 访问量 3511

私信关注

资料学习《Hadoop权威指南第4版》+《Elasticsearch源码解析与优化实战》+《Spark高级数据分析第2版》

猜你喜欢