Hadoopのビッグデータプラットフォーム開発とケーススタディ

ホールドオン「のHadoopビッグデータプラットフォームの開発とケース分析」シニアエンジニア


 

  

 

 

I. コース紹介

1.  ニーズを理解します

高い信頼性、拡張性、耐障害性と高効率であり、ターゲット上のデザインのHadoopの初めには、それは、Hadoopのが似大企業の数をあるように思われますこれらの固有の設計上の利点であり、だけでなく、研究コミュニティでの広範な懸念を引き起こしました。

通信事業者は、インターネットユーザーがログインし、より良い顧客のニーズを理解するために、個々のユーザー、嗜好情報、分析し、鉱業の多数が含まれています。事業を拡大しやすい管理分析システムミニコンピュータアーキテクチャ、従来のリレーショナル・データベースに加え、HadoopのベースのX86プラットフォーム、高効率を達成するために大規模なデータ処理技術の導入、低コストを構築する方法を非構造化データを処理するための大規模な需要を満たすことができません、ミックスと一致する解析システム・アーキテクチャは、最も好ましい選択肢のキャリアとなります。このコースでは、Hadoopのプラットフォームの開発と技術的な運用・保守、高い価値を持つ学生のためのこの技術の使用に徹底紹介です。

2.  コースフレーム構造デザイン思考の道

 

ビッグデータ、クラウドコンピューティングスパークマスターになりたい、ここを見て!私が読ん突きます

ルートが学習ビッグデータを有効にするJavaプログラマの50W年俸私が読んで突きます

人工知能、ビッグデータの動向と展望を   読んで私を突きます

最新かつ最も完全なビッグデータ交換システムパス!私が読んで突きます

2019年最新!ビッグデータエンジニアの仕事の給料、それは驚くべきでした私が読ん突きます

(1)アーキテクチャ:

コースは3つの主要セクションに分かれています。

パートI:学生が大規模なデータ技術の広範な応用を明確に理解を持っているように、全体のHadoopビッグデータ技術における重要な地位と技術の応用に焦点を当てます。このセッションでは、ビッグデータ技術の応用に焦点を当てています。

パートII:大規模なデータファイル・ストレージ・システムや分散ファイル・システムおよびアプリケーション・プラットフォームから特定のモジュール式のスピンオフのためのHadoop技術は、主要なHadoopの技術応用のツールや手法を導入する話だけでなく、メンテナンスの間で運用・保守主流の練習、学生は完全に理解し、Hadoopの技術の本質を把握するようにします。

パートIII:技術のより深い感覚印象の場合は参加者の間で、ビッグデータ分析アプリケーションの場合に焦点を当てます

(2)デザインのアイデア:

コースは徐々に、操作を練習する理論から設計する、ステップバイステップで、メインラインへのモジュラー教授法、ケーススタディです。

(3)およびエンタープライズフィットポイント:

このコースでは、ビッグデータと企業のリストラや開発戦略を組み合わせて、企業の発展の能力を強化するための技術のHadoopのアプリケーションを教えるに焦点を当て、大規模なエンタープライズデータサービスと業界のアプリケーション市場を中心に開発目標を展開し、操作やIT技術スタッフのメンテナンスは、強力なフィット感を持っています程度。

第二に、オブジェクト

ビッグデータ業界の利害関係者、事業者のIT運用保守エンジニアおよび情報技術担当者、または関心関係者の大規模なデータのための財務担当者に関連する情報の周りの企業や機関。

三つのターゲット

インストールビッグデータ処理プラットフォーム(Hadoopの、スパーク、ストーム)を習得し、技術インフラストラクチャを展開し、プラットフォーム、運用・保守の設定、アプリケーション開発、技術インフラと主流のビッグデータのHadoopプラットフォームの実用化を習得し、リアルタイム処理プラットフォームをスパーク、Hadoopの+スパークの使用大規模なデータストレージ管理技術産業及びマイニング解析は、嵐などのHadoopエコシステムの構成要素を、説明、HDFS、MapReduceの、HIVE、HBaseの、スパーク、GraphX、MLIB、サメ、elasticSearchおよび他の大規模データ・ストレージ管理、分散データベース、大規模なデータウェアハウス、ビッグデータと検索クエリは、大規模なデータマイニングや分散処理技術を分析します

、アウトライン

(1)カリキュラムの枠組み

時間

トレーニング

指導方法

初日

パートI:モバイルインターネット、大規模なデータ、関連技術の雲の説明

パートII:挑戦とビッグデータの開発の方向性

理論講義+ケーススタディ

午後

パートIII:大規模なデータファイル・ストレージ・システムや分散ファイルシステム技術プラットフォームとその応用

パートIV:HadoopのHDFSファイルシステムのベストプラクティス

理論講義+ケーススタディ+グループディスカッション

次の日

パートV:Hadoopの運用・保守管理とパフォーマンスチューニング

パートVI:NOSQLデータベースのHBaseとRedisの

理論講義+ケーススタディ+実用的なエクササイズ

午後

パートVII:クラスSQL文ツール--Hive

パートVIII:データマイニングモデリングSPARKの導入に基づいて、

理論講義+ケーススタディ+実用的なエクササイズ

三日目

パートIX:カフカの基本的な導入

パート10:大規模なデータの代表的なアプリケーション開発ケーススタディ:インターネットデータ操作

理論講義+ケーススタディ

午後

第11節:現在のデータセンターの変革と変換分析 - 例えば、国内および海外の事業者、インターネット企業、へ

セクション12:コースの概要と質問に答えます

アセスメント研修

理論講義+ケーススタディ+グループディスカッション

四日目

学生交流や産業試験

詳細はじめに

コースモジュール

コースのトピック

メインコンテンツとプレゼンテーションおよびケース

モジュール

モバイルインターネット、ビッグデータ、クラウドコンピューティング技術を導入します

1、データセンターとクラウドコンピューティング技術

2、スマートシティやクラウドコンピューティング技術

3、モバイルインターネット、大規模クラウドデータ関連の芸術

4、モバイル、クラウドコンピューティング産業チェーンのエコシステム

事業者、金融、銀行、Eコマース業界、小売業、製造業、政府の情報技術、インターネット、教育、情報技術と他の産業でのビッグデータ技術の5.アプリケーション

6、国内および国際的な主流のビッグデータソリューションを導入

図7に示すように、従来のデータベース・ソリューションを持つ大規模なデータ・ソリューションの現在の分析

8、ClouderaのHadoopのビッグデータ分析プラットフォームプログラム

ビッグデータエコシステム分析のため9、オープンソースプラットフォーム

モジュールII

課題やビッグデータの方向

1、ビッグデータの挑戦の時代

Ø戦略的意思決定能力

Ø技術の開発とデータ処理能力

Ø組織と運用能力

2、ビッグデータ時代の発展の方向

Øクラウド・コンピューティング・インフラストラクチャー

Øビッグデータは、資産の魂であります

Ø分析は、鉱業は手段であり、

Ø発見し、究極の目標を予測

3、様々な業界での大規模なデータ・マイニング・アプリケーション

Ø通信業界アプリケーションとケーススタディ

Øインターネット業界アプリケーションとケーススタディ

Ø金融業界のアプリケーションやケーススタディ

Ø販売業界アプリケーションのケーススタディ

モジュールIII

ストレージ・システムと分散ファイルシステムや大規模なデータファイルのアプリケーションプラットフォーム

1、Hadoopの開発プロセス

ØのHadoopビッグデータ・プラットフォーム・アーキテクチャ

大型データ処理のHadoopプラットフォーム機構作品のO系PBクラスのストレージ管理と分析

ØHadoopのコアコンポーネント分析

2、HDFS分散ファイルシステム

Ø概要、特徴、機能、利点

Ø適用範囲、適用状況

Ø動向

3、HDFS分散ファイル・システム・アーキテクチャおよび原理

Øキーテクノロジー

Ø 设计精髓

Ø 基本工作原理

Ø 系统架构

Ø 文件存储模式

Ø 工作机制

Ø 存储扩容与吞吐性能扩展

4、 分布式文件系统HDFS操作

Ø SHELL命令操作

Ø I/O流式操作

Ø 文件数据读取、写入、追加、删除

Ø 文件状态查询

Ø 数据块分布机制

Ø 数据同步与一致性

Ø 元数据管理技术

Ø 主节点与从节点工作机制

Ø 大数据负载均衡技术

Ø HDFS大数据存储集群管理技术

5、 Hadoop生态系统组件

Ø Storm

Ø HDFS

Ø MapReduce

Ø HIVE

Ø HBase

Ø Spark

Ø GraphX

Ø MLib

Ø Shark

模块四

Hadoop文件系统HDFS最佳实战

1、 HDFS的设计

2、 HDFS的概念

Ø 数据块

Ø namenode和datanode

Ø 联邦HDFS

Ø HDFS的高可用性

3、 命令行接口

4、 Hadoop文件系统

5、 Java接口

Ø 从Hadoop URL读取数据

Ø 通过FileSystem API读取数据

Ø 写入数据

Ø 目录

Ø 查询文件系统

Ø 删除数据

6、 数据流

Ø 剖析文件读取

Ø 剖析文件写入

Ø 一致模型

7、 通过Flume和Sqoop导入数据

8、 通过distcp并行复制

9、 Hadoop存档

Ø 使用Hadoop存档工具

Ø 不足

模块五

Hadoop运维管理与性能调优

1、 第二代大数据处理框架

Ø Yarn的工作原理及

Ø DAG并行执行机制

Ø Yarn大数据分析处理案例分析

Ø Yarn 框架并行应用程序实践

2、 集群配置管理

Ø Hadoop集群配置

Ø Hadoop性能调优与参数配置

Ø Hadoop机架感知策略与配置

Ø Hadoop压缩机制

Ø Hadoop任务负载均衡

Ø Hadoop 集群维护

Ø Hadoop监控管理

3、 HDFS的静态调优技巧

Ø HDFS 的高吞吐量I/O性能调优技巧

Ø MapReduce/Yarn的并行处理性能调优技巧

Ø Hadoop集群的运行故障剖析,以及解决方案

Ø 基于Hadoop大数据应用程序的性能瓶颈剖析与提

Ø Hadoop 大数据运维监控管理系统 HUE 平台的安装部署与应用配置

Ø Hadoop运维管理监控系统Ambari平台的安装部配置

Ø Hadoop 集群运维系统 Ganglia, Nagios的安装部署与应用配置

模块六

NOSQL数据库Hbase与Redis

1、 NOSQL基础

Ø CAP理论

Ø Base与ACID

Ø NOSQL数据库存储类型

 键值存储

 列存储

 文档存储

 图形存储

2、 HBase分布式数据基础

3、 安装Hbase

4、 Hbase应用

Ø HBase的逻辑数据模型,HBase的表、行、列族、列、单元格、版本、row key排序

Ø HBase的物理模型,命名空间(表空间)、表模式(Schema)的设计法则

Ø HBase 主节点HMaster的工作原理,HMaster的高可用配置,以及性能调优

Ø HBase 从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优

Ø HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构剖析

Ø HBase表设计与数据操作以及数据库管理操作

Ø HBase集群的安装部署、参数配置和性能优化

5、 HBase分布式数据库简介、发展历程、应用场景、工作原理、以及应用优势与不足之处

Ø HBase分布式数据库集群的主从式平台架构和关键技术剖析

Ø HBase伪分布式和物理集群分布式的控制与运行配置

Ø HBase从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优

Ø HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构剖析

Ø HBase表设计与数据操作以及数据库管理操作

Ø HBase集群的安装部署、参数配置和性能优化

Ø ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署应用实战

Ø ZooKeeper集群的原理架构,以及应用配置

6、 Redis内存数据库介绍,以及业界应用案例

Ø Redis内存数据库集群架构以及核心技术剖析

Ø Redis 集群的安装部署与应用开发实战

模块七

类SQL语句工具——Hive

1、 安装Hive

2、 示例

3、 运行Hive

Ø 配置Hive

Ø Hive服务

Ø Metastore

4、 Hive与传统数据库相比

Ø 读时模式vs.写时模式

Ø 更新、事务和索引

5、 HiveQL

Ø 数据类型

Ø 操作与函数

6、 表

Ø 托管表和外部表

Ø 分区和桶

Ø 存储格式

Ø 导入数据

Ø 表的修改

Ø 表的丢弃

7、 查询数据

Ø 排序和聚集

Ø MapReduce脚本

Ø 连接

Ø 子查询

Ø 视图

8、 用户定义函数

Ø 写UDF

Ø 写UDAF

模块八

数据挖掘SPARK建模基础介绍

 

1、 Spark简介

Ø Spark是什么

Ø Spark生态系统BDAS

2、 Spark架构

Ø Spark分布式架构与单机多核架构的异同

3、 Spark集群的安装与部署

Ø Spark的安装与部署

Ø Spark集群初试

4、 Spark硬件配置

Ø Spark硬件

Ø Spark硬件配置流程

模块九

Kafka基础介绍

1、 Kafka介绍

2、 kafka体系结构

3、 kafka设计理念简介

4、 kafka通信协议

5、 kafka的伪分布安装、集群安装

6、 kafka的shell操作、java操作

7、 kafka设计理念*

8、 kafka producer和consumer开发

9、 Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战

10、 Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战

11、 Hadoop与DBMS之间数据交互工具Sqoop的应用实践,

12、 Sqoop导入导出数据以及Sqoop集群部署与配置

13、 Kettle 集群的平台架构、核心技术、部署配置和应用实战

14、 利用Sqoop实现 MySQL 与 Hadoop集群之间

模块十

大数据典型应用与开发案例分析:互联网数据运营

1、 案例1:贵州数据交易中心

Ø 交易所交易形式:电子交易

Ø 交易所服务:大数据交易、大数据清洗建模分析、大数据定向采购、大数据平台技术开发

Ø 大数据交易安全性探讨分析

Ø 数据交易中心商业模式探讨分析

2、 案例2:大数据应用案例:公共交通线路的智能规划

Ø UrbanInsights:为公交公司提供基于订阅访问的大数据工具以及大数据咨询服务

Ø Urban Insights数据源、数据收集、数据仓库、数据分析——设计运营线路

Ø Urban Insights通过互联网数据的运营

3、 讨论:浙江移动大数据应用与开发方向

模块十一

当前数据中心的改造和转换分析-以国内外运营商互联网公司为例

1、 流商业大数据解决方案比较

2、 主流开源云计算系统比较 

3、 国内外代表性大数据平台比较 

4、 各厂商最新的大数据产品介绍

5、 案例分析

Ø Facebook的SNS平台应用

Ø Google的搜索引擎应用

Ø Rackspace的日志处理

Ø Verizon成立精准市场营销部

Ø TelefonicaDynamicInsights推出的名为“智慧足迹”的商业服务

Ø 中国联通的“移动通信用户上网记录集中查询与分析支撑系统”

 

おすすめ

転載: blog.csdn.net/spark798/article/details/93491267