ビッグデータフレームワークHadoopのコア・コンピタンス?

ビッグデータの時代では、Hadoopのは、ユニークな利点を持っています。しかし、技術的準備金及び各事業の需要特性の異なる、彼らは顧客の膨大な量のデータから真のビジネス価値を掘るしたい、グーグル、FacebookやTwitterや他のHadoopのような企業は、最も初期の受益者です。さて、今日は兆の横に、Hadoopのデータのコア競争力をチャットする必要があります。

1.はじめに

ビッグデータの時代Hadoopのは、  ユニークな利点を持っています。しかし、技術的準備金及び各事業の需要特性の異なる、彼らは顧客の膨大な量のデータから真のビジネス価値を掘るしたい、グーグル、FacebookやTwitterや他のHadoopのような企業は、最も初期の受益者です。さて、今日は、次の兆データチャットしてい  たHadoop  コア競争力を。

2. Hadoopのは何ですか?

Hadoopのを見る前に、私は名詞を言わなければならない - 「ビッグデータ」を ビッグデータは、時間と技術進歩の産物で、次のように大規模なデータがあります:

♦大きなデータ容量

♦構造、半構造化、非構造化データ型

♦高い処理速度

♦高品質なデータ

 

 

アパッチ財団とオープンソース分散システムにより、Hadoopのインキュベーションは、ユーザーが基礎となる分散設計を知らなくても、分散アプリケーションの開発は、高速クラスタコンピューティングとストレージを最大限に活用することができます。Hadoopのアパッチ財団ので好まれているオープンソースプロジェクトは、Hadoopのの機能のおかげで、スケーラビリティ、低コスト、柔軟な処理モードとしてリリース。

データで3兆困難?

データの量は、既にデータの非常に大量である兆に達します。ここでは2例に分けることができます難易度は、1が原則に対処する方法を知らない、何も具体的な実施形態は、これは技術的な問題に属していません。もう一つは、具体的な実施形態が、だけでなく、それらの原理を理解しますが、データのサイズは、プロジェクトの一部で、この困難大きすぎます。

単一のノードが有効かつ費用指定された時間内に処理されたデータの全てを完了するのに十分ではないため、需要に主として分布する大規模なデータに起因する問題。要するに:

♦並列化問題:並列的に形質転換されるべきデータのためのアプリケーションプロセス。

♦リソース割当管理問題:効果的ように提出するリソース、メモリ、ネットワーク、ディスクとのタスクを管理する方法。

♦フォールトトレランス:マシンの数の増加に伴い、どのように例えばの信頼性を確保するために、マシンのハードウェアエラーの原因の一部が利用できない、何の完全性、正確性を保証の最終結果。

4. Hadoopのは、何の不可欠な部分です?何をしますか?

この記事の時点では、HadoopのコミュニティはそのコアコンポーネントのHadoopの-3.2.0バージョンをリリースし、次のとおり基本的な公共図書館(共通)、分散ファイル・ストレージ・システム(HDFS)、分散コンピューティングフレームワーク(MapReduceの)、分散リソースをスケジューリングおよび管理システム(糸)、分散オブジェクトストレージ・フレーム(オゾン)、機械学習エンジン(潜水艦)。

 

 

4.1 Hadoopの共通

Hadoopの共通モジュールのHadoopの下部にある基本的な公共図書館に属し、このような構成ファイル、操作ログとして各サブHadoopのにツールを提供しています。

4.2 Hadoopの分散ファイルシステム

Hadoopの分散ファイルシステムHDFSは、AmazonのS3システム、GoogleのGFSシステムに似た分散ファイルシステムであり、Hadoopを参照します。

HDFS大きなファイルをクラスタ内で分散させることができ、それがブロックにファイルを分割することによってこれを達成します。同時に、我々は、(例えば、データ処理中に)並列分散データ、交換データブロックのコピーにそれぞれのデータノードに形成されているにアクセスすることができます。

 

 

4.3 Hadoopの糸

糸のHadoopは、上位のアプリケーションのための統一されたリソース管理およびスケジューリングを提供することができる分散リソース管理フレームワークです。YARNを導入することにより、Hadoopクラスタは、リソース使用率、統一されたリソース管理、データ共有の面で大きなメリットをもたらしています。

 

 

クライアントアプリケーションは、次のようにプロセスがあり、糸にタスクを提出します:

♦クライアントがRMに要求を送信します

♦ ResourceManager ( 简称 RM ) 返回 ApplicationId 给 Client

♦ Client 发送 ApplicationId 、QueueName 、用户等信息给 RM

♦ RM 寻找合适的 Container ,并将 Client 提交的信息给 NodeManager ( 简称 NM )

♦ 然后在 NM 中启动 AM ,RM 给 AM 分配最大最小资源

♦ AM 从 RM 那里获取的可使用资源来申请一些 Container

♦ Job 在 Container 中执行,由 AM 返回任务进度,任务执行完成后,AM 向 RM 发送结束任务信息然后退出

4.4 Hadoop MapReduce

MapReduce 是 Hadoop 的一个分布式计算框架,用来处理海量数据。同时,还可以使用 MapReduce 框架来实现一些算法,例如统计单词频率、数据去重、排序、分组等。

4.5 Hadoop OZone

Ozone 是 Hadoop 的可扩展、冗余和分布式对象存储。除了扩展到数十亿不同大小的对象外,OZone 还能在 Kubernetes 和 YARN 等容器环境中有效发挥作用。

♦ 可扩展性:OZone 设计之初能够扩展到数百亿个文件和数据块,并且在将来会扩展到更多;

♦ 一致性:OZone 是一个强一致性对象存储,它所使用的协议是类似于 RAFT 来实现的;

♦ 云集成:OZone 设计之初能够与 YARN 和 Kubernetes 集成使用;

♦ 安全性:OZone 能够与 Kerberos 集成,用于控制访问权限,并支持 TDE 和线上加密;

♦ 多协议支持:OZone 能够支持不同的协议,例如 S3、HDFS;

♦ 高可用:OZone 是一个多副本系统,用于保证数据高可用性。

4.6 Hadoop Submarine

Submarine 是一个允许基础设施工程师 / 数据科学家在资源管理平台 ( 如 YARN ) 上运行深度学习应用程序 ( Tensorflow ,Pytorch 等 ) 的项目。

♦ 在已有集群运行:Submarine 支持在 YARN 、Kubernetes 或者其他类似的调度框架中使用;

♦ 支持多种框架:Submarine 支持多种机器学习框架,例如 TensorFlow 、Pytorch 、MxNet 等;

♦ 覆盖整个 ML:Submarine 不仅仅是一个机器学习引擎,它涵盖了整个机器学习过程,例如算法开发、模型批量训练、模型增量训练、模型在线服务和模型管理。

5. Hadoop 的核心竞争力在哪?

Hadoop 如此受人喜欢,很大程度上取决于用户对大数据存储、管理和分析需求的迫切。大数据是目前很多企业面临的一个挑战,由于数据量的庞大、数据类型的复杂 ,特别是非结构化或者半结构化的数据远远多于结构化的数据,一些传统的基于关系型数据库的存储和分析难以满足时,且关系型数据库巨大成本压力也是很多企业考虑的问题,而 Hadoop 给人们提供了解决大数据问题的技术手段。

大数据时代需要 Hadoop ,那么 Hadoop 的核心竞争力在哪呢?

5.1 降低大数据成本

Hadoop 使企业可以高效的管理数据,以降低数据成本,其中包含业务成本、硬件成本、人工成本、存储成本等。通过易用性、权威性、时效性等特性,Hadoop 还可以帮助用户增加数据价值。目前 Hadoop 社区的支持,以及各大 Hadoop 厂商的支持,使得 Hadoop 从一个单独的开源软件逐步演变成一个具有一定规模的生态系统,这些厂商包含 Cloudera 、MapR 、Hortonworks 等,他们在这一生态系统中扮演着不同的角色,例如有系统厂商、监控服务商、数据分析商等。

而使用者可以从这些厂商中提供的系统来简化 Hadoop 的学习成本,快速构建符合自身要求的大数据平台,同时合理利用厂商提供的附属组件来开发出高效、易用的的大数据应用。

5.2 成熟的 Hadoop 生态圈

Hadoop 不是一个 “ 孤岛 ” 系统,它拥有成熟的 Hadoop 生态圈。

 

 

利用 Hadoop 生态圈设计满足自身需求的方案,需要考虑一些关键要素:

♦ 从需求的最终结果开始分析,而不是从可用的工具开始。例如,可用性、一致性等;

♦ 对数据处理时效性的评估,例如离线任务 ( MapReduce 、Hive ) 、实时任务 ( Flink、Spark Streaming );

♦ 尽可能使用成熟的方案。

案例一:获取最后一小时的热门链接

将热门链接集中收集,使用 Flume 将链接发送到 Kafka ,然后使用 Flink 或者 Spark Streaming 计算引擎在 1 小时的窗口内分析数据,最后将计算后的结果写入到 HBase 进行存储。

 

 

案例二:为用户推荐电影

这是一个实时场景,用户喜欢电影,那么用户应立即看到相关电影。

解决思路:每次用户给出评级时,计算建议都是包含权重的,因此我们应该定期根据现有用户行为计算建议。根据对用户行为的理解,可以为给定用户预测所有电影的推荐,然后对其进行排序,并过滤用户已经开过的内容。

组件选取:数据库可以使用 NoSQL 数据库,例如 HBase 。来存储用户评级。计算引擎方面可以选择 Flink 或者 Spark ML 通过 Oozie 定时调度来重新计算用户电影推荐。然后,使用 Flume 和 Spark Streaming 用于流式传输和处理实时用户行为。

工作流程:Web 服务器将用户评级发送给 Flume ,后者将其传递给 Spark Streaming ,然后将结果保存到 HBase 中。接着,使用 Oozie 定时调度执行 Spark ML 应用来重新计算电影推荐并将结果保存到 HBase 中。

 

 

6. 是否一定要选择 Hadoop ?

与传统数据库系统相比较,开源的 Hadoop 有自己的优势。尤其是 Hadoop 既能处理关系型数据库中的结构化数据,也能处理视频、音频、图片等非结构化数据。并且 Hadoop 还能够根据数据的规模和问题的复杂度轻松的扩展。那是不是一定要用 Hadoop ?

每个企业都有自己的特殊需求,都有自己的技能栈,如果已经购买了成熟的数据库产品,没有必要舍弃这些产品,要确保对 Hadoop 足够的了解,不要盲目的 “ 跟风 ” 。

然而,Hadoop 是解决大数据的一种技术手段,这个是一个趋势,例如 Hadoop 与 AI 、IoT 等领域的结合使用。了解和掌握 Hadoop 是有所必要的,可以从一些小的项目尝试积累更多经验。

 

 

7. 结束语

这篇文章就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以发送邮件给我,我会尽我所能为您解答,与君共勉!

 

强力推荐阅读文章

年薪40+W的大数据开发【教程】,都在这儿!

大数据零基础快速入门教程

Java基础教程

web前端开发基础教程

linux基础入门教程学习

大数据工程师必须了解的七大概念

云计算和大数据未来五大趋势

如何快速建立自己的大数据知识体系

おすすめ

転載: blog.csdn.net/chengxvsyu/article/details/93137088
おすすめ