不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

前言

现如今,不懂得大数据知识和微服务分布式的程序员,都不敢说自己是一名合格的程序员。

而懂得这些知识点的程序员,也不敢说自己能完全掌握。

当然,也有天才隐藏在人群中,默默的发光照亮别人,燃烧自己照亮别人。

今天分享的就特别有趣了,总共分为五大实战技术文档:Spark、Hadoop、Hbase、Netty、还有微服务分布式。

第一部分,就先介绍Hadoop实战吧

作为云计算所青睐的分布式架构,Hadoop 是一个 用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。本篇分为3个部分,深人找出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。

不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

  • 第一部分的3章介绍了Hadoop的框架,涵盖我们理解并使用Hadoop所需的基础知识。这些章节描述了构成一个Hadoop集 群的硬件组件,以及建立一个可运行 系统的安装及配置方法。第一部分还从高层描述了MapReduce框架,并让你能编写和运行第一个MapReduce程序。
  • 第二部分包含5章,给出编写和运行Haoop数据处理程序所需的实践技能。在这些章节中,我们将探讨使用Hadoop分析专利数据集的各种实例,包括Bloom flter这样的先进算法。我们还将给出对生产环境下使用Hadoop极其有用的编程和管理技术。
  • 第三部分被称为“Hadoop也疯狂” ,包含本篇的最后4章,将探讨Hadoop之外更大的生态系统。云服务提供了创建Hadoop集群的另一种方案, 可以替代那种由自己购买并拥有硬件集群的方式。许多附加产品包在MapReduce之上提供了更高级别的编程抽象。最后,我们会看到几个用Hadoop解决实际业务问题的案例。

不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

第二部分,Spark大数据分析实战

不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

第1章从Spark 概念出发,介绍Spark的来龙去脉,阐述Spark机制与如何进行Spark编程。

第2章详细介绍 Spark的开发环境配置。

第3章详细介绍 Spark生态系统重要组件Spark SQL、Spark Streaming、GraphX、MLlib的实现机制,为后续使用奠定基础。

第4章详细介绍如何通过Flume、Kafka、Spark Streaming. HDFS. Flask 等开源工具构建实时与离线数据分析流水线。

第5章从实际出发, 详细介绍如何在Azure云平台,通过Nodejs、AzureQueue、Azure Tablc. Spark Streaming、MLlib 等组件对用户行为数据进行分析与推荐。

第6章详细介绍如何通过Titter API、Spark SQL、Spark Streaming、Cassandra.D3等组件对Twitter进行情感分析与统计分析。

第7章详细介绍如何通过Scrapy、Kafka、MongoDB、 Spark、 Spark Streaming.Elastic Search等组件对新闻进行抓取、分析、热点新闻聚类等挖掘工作。

第8章详细介绍了协同过滤概念和模型,讲解了如何在Spark中实现基于Item-based. User-based 和Model-based协同过滤算法的推荐系统。

第9章详细介绍了 社交网络分析的基本概念和经典算法,以及如何利用Spark实现这些经典算法,用于真实网络的分析。

第10章详细介绍 了主题分析模型(LDA),讲解如何在Spark中实现LDA算法,并且对真实的新闻数据进行分析。

第11章详细介绍了搜索引擎的基本原理,以及其中用到的核心搜索排序相关算法一-PageRank 和Ranking SVM,并讲解了如何在Spark 中实现PageRank和RankingSVM算法,以及如何对真实的Web数据进行分析。

不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

第三部分,HBase实战

HBase是一种NoSQL存储系统,专门]设计用来快速随机读写大规模数据。HBase运行在普通商用服务器上,可以平滑扩展,以支持从中等规模到数十亿行、数百万列的数据集。

本篇是基于经验提炼而成的指南,它教给读者如何运用HBase设计、搭建及运行大数据应用系统。全书共分为4个部分。前两个部分分别介绍了分布式系统和大规模数据处理的发展历史,讲解HBase的基本原理模式设计以及如何使用HBase的高级特性;第三部分通过真实的应用和代码示例以及支持这些实践技巧的理论知识,进一步探索HBase的一些实用技术;第四部分讲解如何把原型开发系统升级为羽翼丰满的生产系统。

不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

  • 第1章总体介绍Hadoop、HBase和NoSQL的起源。我们将介绍HBase是什么和不是什么,把HBase 和其他NoSQL数据库进行对比,介绍一些通用的使用场景。我们会帮你判断对于你的项目和公司来说HBase是否是正确的技术选择。第1章包括简单安装HBase和开始存储一点儿数据。
  • 第2章开始运行一个示例应用。通过这个例子,我们探讨使用HBase的基础知识。包括创建表、存取数据以及HBase的数据模型。我们也会深入探讨HBase的内部工作机制,理解HBase如何组织数据,以及在你的应用中如何利用这些知识。
  • 第3章作为一个分布式系统重新介绍HBase。本章探讨HBase. Hadoop和ZooKeeper之间的关系。你会学到HBase的分布式架构以及如何转换成一个强大的分布式数据系统。动手练习示例中会探讨在HBase.上使用Hadoop MapReduce的使用场景。
  • 第4章专门针对HBase模式设计。我们用示例应用来探讨这个复杂的主题。你会看到表设计决策是如何影响应用的,以及如何避免常见错误。我们会把一些关系型数据库知识映射到HBase世界里。你还会看到如何使用服务器端过滤器( server-side filter )来进一步完善模式设计。这一章也涵盖HBase的高级物理配置选项。
  • 第5章介绍协处理器( coprocessor),这是一- 种把计算推向HBase集群的计算机制。你会用两种不同的方式扩展示例应用,在集群上构建应用的新特性。
  • 第6章全面、快速地介绍可选的HBase客户端。HBase 是用Java编写的,但这并不意味着你的应用必须是用Java编写的。你可以用各种编程语言和不同的网络协议来访问示例应用。
  • 第三部分从第7章开始,将开始构建-一个真实的、 可以投入生产环境的应用系统。你会了解这个应用系统打算解决的问题和特别的挑战。然后我们深人到实现过程中,在技术细节上做全面考虑。也就是说,从前端到后端全面探讨如何在HBase上搭建应用系统。
  • 第8章介绍如何在一个新领域里使用HBase。我们将带你快速进入这个新领域GIS,然后教你如何基于HBase使用一种可扩展的方式来面对这个领域里特别的挑战。这一章的焦点在于针对特定领域的模式设计以及最大化利用扫描( scan )和过滤器( filter )特性。之前可以没有GIS经验,但是要准备好充分运用前面章节学习的知识。
  • 在第四部分,第9章将部署你的HBase集群。从头开始,我们教你如何着手进行HBase部署。这一章将探讨硬件的种类、数量和如何分配硬件。考虑云服务吗?我们也会谈到。硬件确定以后,我们为你介绍如何为一一个 基本部署配置集群,如何让集群正常启动运行。
  • 第10章将把你的部署升级到生产水平。我们教你通过参数和监控工具来监控集群。你会了解到如何根据你的应用负载来进一步优化集群的性能。 我们教你如何管理集群,如何保持集群健康运行,有问题时如何诊断和处理,有需要时如何升级,等等。你将学习使用附带的工具来管理数据的备份和恢复,以及如何配置多集群间的复制工作。

不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

第四部分,Netty实战

本篇共分为4个部分:第一部分详细地介绍Netty的相关概念以及核心组件,第二部分介绍自定义协议经常用到的编解码器,第三部分介绍Netty对于应用层高级协议的支持,会覆盖常见的协议及其在实践中的应用,第四部分是几个案例研究。此外,附录部分还会简单地介绍Maven,以及如何通过使用Maven编译和运行本书中的示例。

不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

阅读本篇不需要读者精通Java网络和并发编程。如果想要更加深人地理解本书背后的理念以及Netty源码本身,可以系统地学习一下Java网络编程、NIO、并发和异步编程以及相关的设计模式。

不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

第五部分,微服务分布式构架开发实战

随着第三方框架的逐渐完善,实施微服务架构的开发成本越来越低,分布式架构成为主流势不可挡。一个完善的架构或系统中包含了许多的知识点,而每一.个知识点则又可以引出非常多的内容,过度地专注于细节反而会拖慢达成目标的步伐。为了更快地实施微服务,本篇基于开源且稳定的第三方工具,介绍如何构建一个庞大且复杂的分布式系统,用于满足项目中的实际需求。

不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

每一个工具库为了适应更丰富的使用场景,通常都会把部分参数以配置文件的方式暴露出来,同时提供用于开发环境的默认配置。本书基于快速使用为主线,尽可能多地讲解配置参数的意义及它们之间的关系,帮助读者在掌握足够多的知识点后,建立起对微服务分布式架构的认知,以便为探求更深层次的知识点做好铺垫。

不懂大数据分布式?Spark+Hbase+Hadoop+微服务+Netty,PDF教你学

至此,Spark、Hbase、Hadoop、Netty、微服务五大技术文档已经整理完毕啦,需要文档的朋友,就可以转发此文关注小编,私信小编“技术”来得到获取方式喽~~~

感谢大家的支持,持续关注,持续分享干货!

发布了41 篇原创文章 · 获赞 22 · 访问量 8825

猜你喜欢

转载自blog.csdn.net/qq_1813353297/article/details/105580557