ビッグデータのロードマップの最も詳細な研究[カスタム]

 

I.取得準備
1、Linuxオペレーティング基礎

Linuxのはじめに、Linuxのインストール:VMware Workstationの仮想化ソフトウェアのインストールプロセス、CentOSの仮想マシンのインストール・プロセス
Linuxの一般的なコマンドの:使用と実践(ファイル操作、ユーザー管理や権限、無料の秘密の着陸は、一般的に使用されるコマンドについて説明し、一般的なコマンドの設定ネットワーク管理)
Linuxシステムのプロセス管理の基本原則や、PS、pkillは、トップなどの関連の管理ツールは、のようなホテルトップを使用、
Linuxのブートプロセス、実行レベルの詳細、chkconfigの詳細
VI、VIMエディタ:VI、VIMエディタの紹介、VI 、VIMアルト、および使用のショートカットキーが使用され
、Linuxのディスク管理、LVM論理ボリューム、NFS詳細な
レポートへのファイルのパーミッション、ファイルのパーミッションの操作:Linuxのシステムファイルのアクセス権の管理
LinuxのRPMパッケージ管理:導入RPMパッケージ、RPMのインストール、アンインストールなどの操作を
構築するためのyumコマンドで、yumのソース
のLinuxネットワーク、Linuxのネットワーク構成とファイアウォールの設定を維持:Linuxネットワークを
シェルプログラミングを:シェルへの導入、シェルスクリプトの準備
Linux上で共通のソフトウェアをインストールするには:インストールJDK、Tomcatをインストールし、MySQLをインストールし、ウェブプロジェクトの配備
13)Linuxの高度なテキスト処理コマンドカット、sedは、awklinux

14)タイミングタスクのcrontab

 

今日は、私たちが一緒にチュートリアルと共有するデータの大部分を入れて、それぞれの人が必要と少しの友人が+スカート199プラス427で学習教材を共有することができ、最終的に210個の数字はそれを望んでリンクする、自分のニーズに応じて選択することができます。

 

2、高い同時実行処理大規模なサイト

第4層のロードバランシング

A)LVSロードバランシングI負荷アルゴリズム、NATモード、ダイレクトルーティングモード(DR)、トンネルモード(TUN)
B)F5ロードバランサの概要

負荷分散七層
A)nginxのb)はアパッチ

並行性を向上させるためのTomcat、JVMの最適化

キャッシュの最適化
A)は、JavaのキャッシングフレームワークI. OSCacheの、Ehcacheの
B)キャッシュデータベースI。Redisの、memcachedの

LVS + nginxの+ Tomcatの+のRedis |千万の同時処理のバランスをとるmemcacheの2階建ての建物の負荷

Haproxy

小さな独立したファイルストレージ管理をFastdfs

RedisのキャッシングシステムA)Redisの基本的な使用b)はRedisのセンチネル可用性C)Redisの友人の推薦アルゴリズム

3、Luceneの基礎

Luceneの紹介

Luceneの転置インデックス原理

建設インデックスIndexWriter

検索IndexSearcher

質問

ソートし、濾過(フィルタ)

そして、索引チューニングを強調

4、Solrの基礎

Solrの何が
あなたがSolrの使用したい理由プロジェクト
のSolrの原則
にSolrのtomcatで実行するためにどのように
インデックスにSolrの使用方法と検索
クエリのSolrの様々な
Solrのフィルターを
Solrの一種の
強調表示さSOLR
統計のSolrのドメイン
統計のSolrの範囲は、
solrcloudクラスタのセットアップ
5、分散コーディネーションサービスのZooKeeper

はじめに、アプリケーションのシナリオ飼育係
のZooKeeperクラスタのインストールの展開
データノードとコマンドライン操作の飼育係の
JavaクライアントとイベントリスナーのZooKeeperの基本操作
飼育係のコアメカニズムとデータノード
のZooKeeperアプリケーション-分散共有リソースロック
のZooKeeperアプリケーション-動的なサーバーをオフライン知覚
飼育係のデータの一貫性の原則とリーダー選挙メカニズム
6、Javaの高度な機能を強化します

Javaのマルチスレッドの基礎知識
Javaのsynchronizedキーワードの詳細
で、スレッドプールとオープンソースソフトウェアで、Javaアプリケーションとの契約
では、Javaアプリケーションとの契約のニュースチームとオープンソースソフトウェア
のJava JMSテクノロジ
Javaの動的プロキシ反射

第二に、オフラインコンピューティングシステム
1は、Hadoopのクイックスタート
のHadoop背景
分散システム概要
オフラインデータ解析プロセスが導入されて
構築するクラスタを
予備的に使用してクラスタを

2、HDFS強化
HDFSの概念と機能
(コマンドラインクライアント)HDFSのシェルを操作
HDFS作業機構
機構作業名前ノード
APIのjava-操作
シェルスクリプトのコレクションの開発:ケース1

3、MapReduceの詳細
RPCフレームのHadoopカスタム
調製のMapReduceプログラミング明細書および実施例
のMapReduceがデバッグモード及び方法実行
プログラムのMapReduceの動作モードの内部機構
本体フレーム操作ワークフローMapReduceの
カスタムシリアル化メソッド定義されたオブジェクト
のMapReduceプログラミングケース

4、MapReduceは強化
発注のMapReduceを
カスタムパーティショナ
のコンバイナMapReduceの
詳細のMapReduce作業メカニズムを

5、MapReduceの戦闘
maptask並列メカニズム-ファイルスライス
並列処理セットのmaptask度
転置インデックス
共通の友人

使用して6、フェデレーションの導入とハイブ
のHadoopのHA機構
の設置展開HAクラスタ
オフラインのクラスタの動作データノード動的保守試験
ハンドオーバ管理のクラスタの動作名前ノードの状態維持試験
のバランスブロッククラスタオペレーションおよびメンテナンステスト
HDFS-APIは、HA変化
ハイブ約
ハイブアーキテクチャ
ハイブのインストールと展開
hvie早期使用

7、ハイブ強化し、水路を紹介し
、基本的な構文HQL-DDLを
基本的な構文DML-HQLは
HIVE参加
HIVEパラメータ
HIVEカスタム関数をと変換
HIVE HQL解析実行インスタンスを
HIVEベストプラクティスの注意事項
HIVE最適化戦略の
HIVE実際の例
水路導入
水路をインストールおよびデプロイメント
の場合:HDFSのにコレクションカタログ
ケース:HDFSにファイルを取り込みます

第三に、データ移行ツールSqoop

構成Sqoopため
Sqoop用いシェル
SqoopインポートA)DBMS HDFS-B)DBMS-ハイブC)DBMS-HBaseの
Sqoop-エクスポート
4は、水路がロギングフレームワーク分散

水路のはじめに-基本の
水路のインストールとテスト
水路展開
水路ソースの設定とテスト
水路シンクの設定とテスト
水路セレクタの設定とケーススタディの
水路シンクプロセッサ構成やケーススタディの
水路のインターセプタの構成やケーススタディ
水路AVROクライアント開発を
水路とカフカは統合
五メモリデータベースのRedis
Redisの特性、他のデータベースとの比較
のRedisをインストールする方法を
どのようにコマンドラインクライアントの使用方法
Redisの文字列型
のRedisはタイプハッシュ
のリストRedisのタイプ
のコレクション型のRedisの
JavaのアクセスRedisの使用方法を[アクセスRedisの、Scalaのアクセスa.python] Redisの
Redisのトランザクション(トランザクション)
Redisのパイプ(パイプライン)
Redisの持続(+ RDBのAOF)
Redisの最適化
からのマスタコピーRedisの
センチネルのRedisの可用性は
、CODIS戦闘twemproxy
redis3.xをクラスタのインストール構成
第六に、嵐と下流の統合アーキテクチャ

カフカは何ですか

カフカのアーキテクチャ

詳細カフカ構成

カフカのインストール

カフカのストレージ戦略

カフカのパーティション機能

カフカのパブリッシュおよびサブスクライブ

飼育係の調整と管理

Javaプログラミング操作カフカ

Scalaのプログラミング動作のカフカ

水路と統合カフカ

カフカと嵐の統合

マスターへのエントリから七、嵐

嵐の基本的な考え方

ストームアプリケーションのシナリオ

嵐とのHadoopのコントラスト

環境ストームインストールしたLinuxクラスタ準備

飼育係クラスタのセットアップ

ストームクラスタのセットアップ

ストームは、プロファイルの設定項目を説明します

クラスタのセットアップは一般的な問題を解決します

嵐共通のコンポーネントとプログラミングAPI:トポロジ、スパウト、ボルト

嵐グループ化戦略(ストリームグループ)

ストロムを使用WORDCOUNT例を開発

嵐ローカルプログラムモードのデバッグ、嵐のリモートデバッグプログラム

嵐のトランザクション処理

嵐のメッセージの信頼性とフォールトトレランスの原則

嵐バインディングメッセージ・キューカフカ:基本概念メッセージキュー(プロデューサー、コンシューマー、トピック、ブローカーなど)、メッセージキューカフカの使用シナリオ、ストームプログラミングAPIはカフカを結合

嵐トライデントコンセプト

トライデント状態原理

トライデント開発事例

ストームDRPC(分散型リモート呼び出し)の紹介

ストームDRPC戦闘を説明します

嵐とのHadoop 2.xの統合:糸の嵐

八、Scalaのプログラミング

Scalaのインタプリタ、変数、データタイプ、および共通
条件式スカラ、入力と出力、循環制御構造
スカラ関数、デフォルトパラメータ、可変長パラメータ
Scalaのアレイ、アレイのような長い、多次元配列となる
スカラマッピング要素基および他の操作
Beanプロパティ、二次構造、等を主要ビルダーを含むScalaのクラス、
オブジェクトに関連付けられたScalaのオブジェクト、シングルトンオブジェクト、拡張型、方法の適用
Scalaのパッケージを、導入および継承の概念
Scalaの特性
のスカラオペレータ
のScalaの高次関数
Scalaのセット
スカラデータベース接続
9、メモリ・コンピューティング・システムスパーク

スパーク導入
スパークシナリオは
スパークとHadoopのMR、嵐の比較と利点
RDD
変換
アクション
スパーク計算のPageRankの
リネージュ
スパークモデルプロファイル
スパークキャッシング戦略とフォールトトレランス
幅依存性と狭い依存
説明構成されたスパーク
構築するためにスパーククラスタを
一般的な問題へのソリューションを構築するために、クラスタ
原則コアスパークを共通のコンポーネントとRDD
データの局所性の
スケジュールタスク
DAGScheduler
TaskSchedulerの
読み込みスパークのソースコードを
、パフォーマンス・チューニングの
糸の原則にスパーク:スパークとHadoop2.x統合を
実用SparkStreaming 10、
プロフィールSparkStreaming
SparkStreamingプログラミング
戦闘:StageFulWordCount
水路は、ストリーミング・スパーク組み合わせ
カフカはと一緒に住んでいましたストリーミングスパーク
窓関数
ELKテクノロジー・スタックの導入を
インストールして使用ElasticSearch
分析フレームワークストーム
ストームプログラミングモデル、タプルのソースを、並行性の分析
嵐WORDCOUNTケース分析と共通API

XI、機械学習アルゴリズム
1、Pythonとnumpyのライブラリ
入門機械学習の
機械学習とPythonの
Python言語を-クイックスタート
Python言語を-詳細なデータタイプの
フロー制御文- Python言語
Python言語-機能使用して
Python言語-モジュールやパッケージ
phthon言語を-オブジェクト指向
のPython機械学習アルゴリズムライブラリ-numpy
マシン不可欠な数学を学ぶ-確率

2、一般的に使用されるアルゴリズム
KNN分類アルゴリズム-アルゴリズムの原則
分類アルゴリズムKNN -のコード
KNN分類アルゴリズム-手書き文字認識例
系譜バック分類アルゴリズム-アルゴリズム理論の
系譜バック分類アルゴリズム-アルゴリズムとデモ
ナイーブベイズ分類アルゴリズムを-アルゴリズム理論
ナイーブベイズ分類アルゴリズム-アルゴリズム
単純ベイズ分類アルゴリズム-スパム認識アプリケーションの場合は、
アルゴリズムの原則-クラスタリングアルゴリズム関数kmeans
関数kmeansクラスタリングアルゴリズム-アルゴリズム
クラスタリングアルゴリズム関数kmeans -の地理的クラスタリングアプリケーション
意思決定ツリー分類アルゴリズムを-原則アルゴリズム
決定木分類アルゴリズム-アルゴリズム

 

おすすめ

転載: www.cnblogs.com/wuxiaoxia888/p/11015662.html