初心者ホワイトビッグデータ学習ルート計画

図は、大規模なデータの簡略化したプロセスフロー図で、フローを処理するメインデータは、大きなメインリンクデータ収集、データ格納、データ処理、データ・アプリケーションを含みます。

言語の基礎

1. Javaの

フレームワークのJava言語の開発を使用したビッグデータフレームワークのほとんどは、ほぼすべては、Java APIを提供します。Javaはより多くの主流の背景の開発言語は、無料のオンライン学習リソースは、よりになりますです。あなたの本を通じて学習することに慣れている場合は、書籍は、ここであなたが始めるお勧めします。

「Javaプログラミング・ロジック」:人々が理解しやすい図書のJava入力システムを、書き国、包括的。

「Javaコア・テクノロジー」:最新の10版でボリュームIおよびII巻は2を持っている、ボリュームIIは、多くの章の内容はほとんど実際の開発に使用されていないので、選択、読み取ることができます。

ほとんどのJavaフレームワークは、たとえば、あなたがより1.7いくつかの可能性よりも1.8倍を使用して、スパークAPIを呼び出して、前に同じ機能を実現するために、より合理化されたコードを使用することが可能となる、関数型プログラミングを提供するJava 1.8によるものである、少なくともバージョン1.8が必要ですコードので、ここで追加の推奨読書の「Java 8戦闘」この本。

2.スカラ

ScalaはJava仮想マシン上で実行すると、あなたはJavaクラスライブラリのすべてとシームレスに動作できることを、有名なカフカは、Scalaの言語発達を使用することである統合オブジェクト指向と関数型プログラミングの概念静的型付けのプログラミング言語です。

なぜ私は、Scalaの言語を習得する必要がありますか?現在最もホットなコンピューティングフレームワークFLINKとスパークは、コードは、Java 8を使用するために必要な未満、開発のためにそれを使用して、インターフェイスScalaの言語を提供するため、これは、スパークとScalaはScalaの缶の助けを学習し、書かれた言語を使用することですあなたのより深い理解スパーク。同様に、小さなパートナーの本の学習習慣のために、ここでは2冊の入門本をお勧めします。

「高速学習スカラ座」

「Scalaのプログラミング」

ここで説明し、あなたの時間は限られている場合は、Scalaのビッグデータフレームワークを学ぶために行く前に学校を卒業する必要はありません。Scalaは、あなたが理解することができ、その後、スパークでのScalaを学ぶので、理解するのがより困難になる合理化するために十分かつ柔軟な、しかし複雑で、Java言語よりもわずかに大きく、そのような暗黙的な変換の概念として、また関与初期パラメータで暗黙的に行います暗黙的な変換は、Sparkソースコードの多くで使用される概念と類似しているからです。

Linuxの基礎知識

ビッグデータフレームワークは、通常のLinuxサーバーに展開、Linuxのいくつかの知識を持っていることが必要であるされています。Linuxの書籍は、より多くの有名な「鳥ブラザープライベートキッチン」シリーズの中で、このシリーズは非常に包括的かつ非常に古典的です。あなたはすぐに開始したい場合でも、そのウェブサイト上で無料の電子書籍版「こうしたAの研究、の点でLinuxの」ここにお勧め。

構築ツール

これは、自動化されたビルドツールは主にMavenをされているマスターする必要があります。ビッグデータのシーンでMavenは主に以下の三つの側面では、比較的一般的です。

JARプロジェクト管理パッケージでは、あなたがすぐにビッグデータアプリケーションの構築を支援します。

あなたのプロジェクトは、クラスタ環境を提出するJava言語やScalaの言語の開発、実行時に使用するかどうか、私たちは、コンパイル、パッケージにMavenを使用する必要があります。

ほとんどの大規模なデータソースの管理フレームワークを使用すると、インストールパッケージからソースコードをコンパイルする必要があるとき、あなたはMavenを使用する必要がある、Mavenを使用していました。

学習フレームワーク

1.フレームワークの分類

ビッグデータフレームワークの私たち以上に多く、ここでの分類の概要:

ログ収集フレームワーク:水路、Logstash、Kibana

分散ファイルストレージシステム:HadoopのHDFS

データベースシステム:MongoDBの、HBaseの

分散コンピューティングフレームワーク:

バッチフレームワーク:HadoopのMapReduceの

ストリーミングフレーム:嵐

混合処理フレームワーク:スパーク、FLINK

分析のフレームワーク:ハイブ、スパークSQL、FLINK SQL、豚、フェニックス

クラスタリソースマネージャ:HadoopのYARN

分散コーディネーションサービス:飼育係

データ移行ツール:Sqoop

タスクスケジューリングフレームワーク:アズカバン、Oozie

クラスタの展開と監視:Ambari、Clouderaのマネージャー

より多くの主流のビッグデータフレームワークは、上記されている上場、コミュニティは非常にアクティブで、学習リソースがより豊富です。はじめに、それは全体のビッグデータ・エコシステムの基礎となるものですので、他のフレームワークは、直接または間接的にHadoopに依存している、Hadoopのから学ぶことをお勧めします。そして、そのアプリケーションは、より広範であるので、スパークは、比較的早く現れ、あなたは、フレームワーク、スパークを計算学ぶことができるとFLINKは、より多くの主流のハイブリッド処理フレームワークでした。FLINK今日は多くの企業に好まれてきた優れた特性の数と、フレームの新世代の最も熱い混合プロセスです。どちらも、あなたの個人的な好みや実際の作業に応じて学習する必要があるかもしれません。

他のフレームについては、あなたの学習時間が限られている場合は、初めての研究のために推奨される、いかなる特定の順序はありません、このようなログ収集の枠組みとして、フレームマスターの同じタイプの缶を、学習上、多くは必要な唯一の初期学習があり、仕事の後、あなたがコレクションのログを記録することができ、仕事を習得して、対象の学習の必要性があります。

2.学習教材

ビッグデータの最も権威と最も包括的な研究材料は公式文書です。人気のビッグデータフレームワーク、反復更新されたバージョンのコミュニティで、よりアクティブな出版物が大幅に学習はこのような理由のための最良の選択肢ではない本を使用して、その実際のバージョンより遅れているので、高速です。比較幸い、公式文書が書かれているビッグデータフレームワークは、コンテンツの改善、優れている、着目し、補助説明と図を多く採用しています。もちろん、そこにいくつかの優れた図書は、時間のテストの後で、まだ非常に古典的で、ここではいくつかの個人的な読み取り古書は、以下のとおりです。

"HadoopのDefinitive Guideの" 2017

"カフカDefinitive Guideの" 2017

2015年「飼育係は、パクシからのコンセンサス原則と実践を分散しました」

2015「の原則の内部の深さ分析スパークスパークカーネルアーキテクチャの設計と実装」

「Spark.The.Definitive.Guide」2018年

"HBaseのDefinitive Guideの" 2012

「ハイブプログラミングガイド」2013

3.ビデオ学習教材

上面我推荐的都是书籍学习资料,很少推荐视频学习资料,这里说明一下原因:因为书籍历经时间的考验,能够再版的或者豆瓣等平台评价高的证明都是被大众所认可的,从概率的角度上来说,其必然更加优秀,不容易浪费大家的学习时间和精力,所以我个人更倾向于官方文档或者书本的学习方式,而不是视频。因为视频学习资料,缺少一个公共的评价平台和完善的评价机制,所以其质量良莠不齐。

开发工具

这里推荐一些大数据常用的开发工具:

Java IDE:IDEA 和 Eclipse 都可以。从个人使用习惯而言,更倾向于 IDEA ;

VirtualBox:在学习过程中,你可能经常要在虚拟机上搭建服务和集群。VirtualBox 是一款开源、免费的虚拟机管理软件,虽然是轻量级软件,但功能很丰富,基本能够满足日常的使用需求;

MobaXterm:大数据的框架通常都部署在服务器上,这里推荐使用 MobaXterm 进行连接。同样是免费开源的,支持多种连接协议,支持拖拽上传文件,支持使用插件扩展;

Translate Man:一款浏览器上免费的翻译插件。它采用谷歌的翻译接口,准确性非常高,支持划词翻译,可以辅助进行官方文档的阅读。

大数据(BIG DATA)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点:VOLUME(大量)、VELOCITY(高速)、VARIETY(多样)、VALUE(低价值密度)、VERACITY(真实性)。为什么要学习大数据?目前,全球数据呈现爆发增长、海量集聚的特点...

 

发布了83 篇原创文章 · 获赞 3 · 访问量 4257

おすすめ

転載: blog.csdn.net/juan333/article/details/104280797