ビッグデータの方向に行きたい、どのようなルートのを学習技術、学校では、ビッグデータは火、良い仕事、高賃金だと思います。。。。。。。彼らはビッグデータの方向を考えるこれらの理由のため、混乱している場合は、その後、私はお願いしたいことができ、あなたの職業は、コンピュータ/ソフトウェアのために、何で、あなたが興味を持って何ですか?コンピュータの専門家は、オペレーティングシステム、ハードウェア、ネットワーク、サーバーに興味を持っていますか?コードその関心を書いて、専門的なソフトウェア、ソフトウェア開発、プログラミングますか?または数学、統計は、特にデータや数字に興味があります。。
実際には、これはあなたがビルド/最適化/運用・保守/監視、ビッグデータの開発/設計/アーキテクチャ、データ分析/マイニングに3つのビッグデータプラットフォームを伝えたい方向です。、良い見通しである、容易なより多くのお金を私に聞かないでください。
それを引っ張って4Vは、ビッグデータの特徴:
-
大量のデータ、TB-> PB
-
以下のようなデータ、構造化、非構造化テキスト、ログ、ビデオ、画像、場所や多くのタイプ。
-
高い商業的価値が、膨大な量のデータの上の値は、データ分析と機械学習速く出土して、必要な;
-
高い処理適時、大量のデータは、もはやオフライン計算、それらに限定されない要件を処理します。
さて、ビッグデータ、ビッグデータのオープンソースフレームワークのこれらの形式的な特性に対処するため、そしてより強く、いくつかの一般的なものをリストアップするために:
ファイルストレージ: HadoopのHDFS、タキオン、KFS
オフライン計算: HadoopのMapReduceの、スパーク
ストリーミング、リアルタイムの計算:嵐、スパークストリーミング、S4、ヘロン
K-V、NOSQLデータベース: HBaseの、Redisの、のMongoDB
リソース管理: YARN、Mesos
ログ収集:水路、スクライブ、Logstash、Kibanaの
メッセージングシステムは:カフカは、StormMQ、ZeroMQ、のRabbitMQ住んでいた
:分析ハイブ、インパラ、豚、プレスト、フェニックス、SparkSQL、ドリル、FLINK、麒麟、ドルイド
分散コーディネーションサービス:飼育係の
クラスタ管理とは、監視: Ambari 、神経節、Nagiosは、ClouderaのManagerの
データマイニング、機械学習: Mahoutの、スパークMLLibの
データ同期: Sqoopの
タスクスケジューリング: Oozie
......
めまいは、右のそれの30種類以上、おろかマスターし、すべての使用は意志、私は多くはないと思います。
個人的に私のために、主な経験は、第二の方向(開発/設計/アーキテクチャ)であり、そして私のアドバイスそれに耳を傾けます。
第一章:Hadoopの知人
1.1百度とGoogleを学びます
かかわらず、何の問題も、最初の試みと独自の検索を解決します。
GoogleがBaiduのバーを使用し、乗り越え、より好ましいです。
1.2参考文献は、公式文書を優先しました
特にエントリに対して、公式文書は、常に文書のための最初の選択肢となります。
私は、最初のステップを参照してください、私は立つことができなかった、英語がライン上で即興で、これは主に知識人を従事していると信じています。
彼らはHadoopの1.3を実行してみましょう
Hadoopのは、大規模なデータストレージおよびコンピューティング血統と考え、今、ほとんどのオープンソースのHadoopビッグデータフレームワークまたはそれと非常に良好な適合性を頼ることができます。
次されているかを把握するためのHadoopについて、あなたは少なくとも必要性:
-
Hadoopの1.0、Hadoopの2.0
-
MapReduceの、HDFS
-
名前ノード、データノード
-
JobTracker、TaskTracker
-
糸、のResourceManager、ノードマネージャ
自分自身のHadoopを構築し、それはライン上に実行できるように、1段目と2段目を使用してください。
インストールされている管理ツールを使用していない、インストールパッケージをインストールするには、コマンドラインを使用することをお勧めします。
また:Hadoop1.0は、それが今のHadoop 2.0と、ラインを知っています。
Hadoopの1.4を使用してみてください
HDFSディレクトリ操作コマンド、
アップロード、ダウンロードファイルには、コマンド、
MapReduceのサンプルプログラムを実行して提出します。
、実行中のジョブを表示するには、HadoopのWebインターフェイスを開き、ジョブの実行ログを表示します。
Hadoopのシステムがログに記録どこ私は知っています。
1.5あなたは、彼らの原則を理解する必要があります
MapReduceは:分割統治する方法;
HDFS:データであり、コピーするものです。
最終的にはどのような糸がそれを行うことができるということです。
やってで最後に名前ノード;
最後にこのResourceManagerがやっています。
1.6書き込みのMapReduceプログラム
(コピーでもOKです)WORDCOUNTプログラム、書くこと、WORDCOUNTの例に従ってください
Hadoopのを実行するためにパッケージ化して提出を。
あなたは、Javaのではないでしょうか?シェル、Pythonはすることができ、Hadoopのストリーミングと呼ばれるものがあります。
あなたがしている深刻な上記の手順、お祝いの言葉を完了した場合は、片方の足はすでに入力されています。
第II章:より効率的なWORDCOUNT
SQL 2.1バーを学びます
あなたは、データベースを知っていますか?SQLは、あなたはそれを書くのか?
そうでない場合、SQLそれを学ぶしてください。
2.2 SQL版WORDCOUNT
WORDCOUNTの1.6、あなたが書いた(またはコピー)で数行のコードがありますか?
あなたは私を見て:
SELECT単語、単語BY WORDCOUNT群からCOUNT(1)。
これは、SQLは、行、またはコードの行数百ものに必要な数十をプログラミングの魅力である、私はこの1つを取得する必要があり、Hadoopの上のSQL処理とデータの分析の使用は、便利で効率的かつ親しみ、さらに多くの傾向です。計算またはオフラインリアルタイムコンピューティングフレームワークを加工するより多くの大きいデータであるか否かを積極的にSQLインターフェースを提供します。
2.3 SQLでのHadoop之ハイブ
ハイブとは何ですか?与えられた公式の説明は次のとおりです。
Apacheのハイブデータウェアハウス・ソフトウェアは、読み取り、書き込み、および分散ストレージに存在する大規模なデータセットを管理し、SQL構文を使用して照会が容易。
なぜハイブは、データウェアハウスのツールではなく、データベースツールですか?一部の人々は、基礎となるデータベースを使用して、データ・ウェアハウスは、論理的な概念であり、データウェアハウスを知らないかもしれない、データ・ウェアハウスは、2つの特性を有する:比較的安定し、最も包括的な履歴データ(質量)は、いわゆる相対的な安定性、ビジネス・システム・データベースを参照すると、データウェアハウスとは異なるめったに更新されず、削除されたデータウェアハウスへと、データは、頻繁にデータを更新され、クエリの数が多いであろう。ハイブは、これらの二つの特徴、ツール倉庫データの大容量データではなく、データベース・ツールに適ししたがって、ハイブを有します。
2.4インストール構成ハイブ
1.1およびインストール構成ハイブの1.2を参照してください。ハイブは、通常のコマンドラインを入力することができます。
ハイブ2.5を使用してみてください
、1.1と1.2を参照してくださいハイブにWORDCOUNTテーブルを作成し、2.2 SQL文を実行してください。
SQLタスクは、単にHadoopのWebインターフェースを実行している見つけることができます。
SQLクエリ結果と結果はMapReduceの1.4で一貫性があるかどうかを確認します。
2.6ハイブは、それがどのように動作するかです
明らかに書かれたSQL、なぜHadoopのWebインターフェースを参照してくださいには、MapReduceのタスクですか?
2.7は、ハイブの基本的なコマンドを学びます
、削除テーブルを作成し、
テーブルにデータをロードし、
ダウンロードデータハイブテーブル。
ハイブおよびコマンド構文の詳細については、1.2節を参照してください。
あなたが続いた場合の最初の章の流れの中で、「ビッグデータは、初心者の言葉の発達に書かれた」第二のフル真剣に、あなたはすでに、次のスキルと知識を持っている必要があり、再び消えて:
-
0とHadoop2.0の差。
-
MapReduceの原理(または1Gメモリのサイズ与えられている古典的なタイトル、ファイルの10Gの大きさ、言葉や統計現れるの10倍の数にJavaプログラムを使用する方法)。
-
HDFSは、読み取りと書き込みのデータが流れ、PUTデータをHDFSに、HDFSからダウンロードデータ。
-
私は、簡単なのMapReduceプログラムを書く問題を実行して、どこログを表示するには知っているだろう。
-
書き込み、単純なSELECT、WHERE、GROUP BYおよび他のSQL文。
-
ハイブSQLプロシージャは、実質的のMapReduceに変換しました。
-
ハイブCOMMON文:ローカルにテーブル内のデータをダウンロードし、テーブル、ドロップテーブル、テーブルにデータをロードし、パーティションを作成します。
以上の検討から、あなたが学んできた、分散ストレージフレームワークのHadoop HDFSは、大量のデータを格納するために使用することができ、提供されるHadoopのは、提供されるフレームワークを分散コンピューティング、MapReduceのは、それがデータや統計解析の膨大な量で使用することができますされてHDFSハイブは、SQLでのHadoopである一方で、ハイブは、SQLインタフェースを提供します。ハイブSQLの責任は、MapReduceのに翻訳し、唯一の、シンプルで親しみ書き込みSQL文に必要な開発者は、実行するために提出しました。
この時点で、あなたの「ビッグデータプラットフォームは、」これです:
そこで問題は、HDFSそれへのデータのどの膨大な量でしょうか?
第3章:他の場所でのHadoop上のデータを取得します
ここでまた、データ収集、それぞれのデータソースのHadoopに取得したデータを呼び出すことができます。
3.1 HDFS PUTコマンド
あなたの前にこれは前に使用している必要があります。
実環境でコマンドを入れて通常使用するシェル、Pythonや他のスクリプト言語で、比較的一般的です。
推奨マスター。
3.2 HDFSのAPI
HDFSは、書き込みデータへのAPIを提供し、彼らはHDFSへの書き込みデータにプログラミング言語を使用し、自身もAPIを使用してコマンドを置きます。
通常、実際の環境では、HDFSへの書き込みデータに少ないプログラミングAPIを使用して、他のフレームワークは、通常の方法をパッケージ化しています。たとえば、次のINSERT文でハイブ、saveAsTextfileのと上のようにスパーク。
提案の原則を理解し、デモを書きます。
3.3 Sqoop
Sqoopは次のようにHadoop / Hiveの伝統的なリレーショナルデータベースのOracle / MySQLの/ SQLServerの間のデータ交換のための主要なオープンソースのフレームワークです。
ハイブSQLは、MapReduceのに翻訳のように、のような、Sqoopを使用すると、Hadoopのと他のデータベースとの間でデータの交換を完了するために提出した稼動のMapReduce、Hadoopのに指定するパラメータを変換します。
自分のSqoop(Sqoop1、Sqoop2は、より複雑な使用することをお勧めします)をダウンロードして設定します。
一般的な設定パラメータとメソッドSqoopを特定します。
Sqoopは、HDFSからデータを同期するためにMySQLを使用して完了し、
MySQLのハイブテーブルから同期データを完了するために使用Sqoop。
PS:その後の選択は、データ交換ツールとしてSqoopを使用して決定された場合、それはマスターに推奨され、そうでなければ、理解するために使用され、デモすることができます。
3.4水路
「取得および送信フレーム」は、それがデータ収集及び伝送リレーショナルデータベースには適していないので、水路は、分散大規模なログ収集及び伝送フレームです。
水路は、ネットワーク・プロトコル、メッセージ・システムから、リアルタイムファイルシステムログを収集し、HDFSに送信されます。
あなたはこれらのデータソースからのビジネスデータ、およびリアルタイムの収集を必要としているのであれば、あなたは水路の使用を検討すべきです。
ダウンロードと設定水路。
水路は、連続的に付加的なデータを使用してファイルを監視し、HDFSにデータを転送します。
PS:水路構成や使用より複雑な、あなたは十分な関心と忍耐を持っていない場合、あなたは水路をスキップすることができます。
3.5アリオープンソースデータX
理由は、この導入は、我々が現在の交換を使用するツールのHadoopとリレーショナルデータベースのデータので、非常に使いやすい、以前に開発されたデータXに基づいています。
あなたは私のブログを参照することができ、「異種データソース大量データ交換ツール-TaobaoデータXのダウンロード及び使用。」
データXは現在、3.0バージョンを持っている多くのデータソースをサポートしています。
また、それより上の二次開発を行うことができます。
PS:利害関係者は、勉強して、それを使用し、Sqoopとそれを比較することができます。
あなたが真剣に上記の研究と実践を満たす場合は、この時点で、あなたの「ビッグデータプラットフォームは」次のようになります。
第4章:Hadoopの上のデータが別の場所で取得します
Hadoopの、ハイブとMapReduceの上のデータの後に、データ・ソースのHadoopに収集したデータは、分析に使用できる方法を見て。そして、次の質問はどのように完全にHadoopの分析からの結果は、他のシステムに同期され、アプリケーションは行きますか?システムが欲しいビッグデータを学ぶために、あなたはケリをJunyang学ぶためにビッグデータ交換技術に参加することができます:522 189 307、追加を歓迎し、コースを理解します
実際に、本明細書の方法と基本的に同一の第三章。
4.1 HDFSは、コマンドをGET
HDFS上のファイルは、ローカルでGET。マスターする必要があります。
4.2 HDFSのAPI
3.2。
4.3 Sqoop
。3.3
MySQLを同期HDFSに使用Sqoop完全なファイル、
使用Sqoopハイブ完了データテーブルは、MySQLへ同期されます。
4.4データX
3.5と。
あなたが真剣に上記の研究と実践を満たす場合は、この時点で、あなたの「ビッグデータプラットフォームは」次のようになります。
あなたは章IIIとIVのプロセスをたどってきた場合は、「2つのビッグデータ開発の初心者の言葉を書いた」重大なコンプリートなくなって再び、あなたはすでに、次のスキルと知識を持っている必要があります。
私たちは、オフラインで収集し、リアルタイムでの取得など、HDFS上の既存のデータを収集する方法を知っています。
あなたはすでにsqoopを知っている(またはデータXが)HDFSおよびその他のデータソース間のデータ交換のためのツールです。
あなたは既に水路は、リアルタイムログ収集として使用することができます知っています。
从前面的学习,对于大数据平台,你已经掌握的不少的知识和技能,搭建Hadoop集群,
把数据采集到Hadoop上,使用Hive和MapReduce来分析数据,把分析结果同步到其他数据源。
接下来的问题来了,Hive使用的越来越多,你会发现很多不爽的地方,特别是速度慢,
大多情况下,明明我的数据量很小,它都要申请资源,启动MapReduce来执行。
第五章:快一点吧,我的SQL
其实大家都已经发现Hive后台使用MapReduce作为执行引擎,实在是有点慢。
因此SQL On Hadoop的框架越来越多,按我的了解,最常用的按照流行度依次为SparkSQL、Impala和Presto.
这三种框架基于半内存或者全内存,提供了SQL接口来快速查询分析Hadoop上的数据。关于三者的比较,请参考1.1.
我们目前使用的是SparkSQL,至于为什么用SparkSQL,原因大概有以下吧:
使用Spark还做了其他事情,不想引入过多的框架;
Impala对内存的需求太大,没有过多资源部署;
5.1 关于Spark和SparkSQL
什么是Spark,什么是SparkSQL。
Spark有的核心概念及名词解释。
SparkSQL和Spark是什么关系,SparkSQL和Hive是什么关系。
SparkSQL为什么比Hive跑的快。
5.2 如何部署和运行SparkSQL
Spark有哪些部署模式?
如何在Yarn上运行SparkSQL?
使用SparkSQL查询Hive中的表。
PS: Spark不是一门短时间内就能掌握的技术,因此建议在了解了Spark之后,可以先从SparkSQL入手,循序渐进。
关于Spark和SparkSQL,可参考 http://lxw1234.com/archives/category/spark
如果你认真完成了上面的学习和实践,此时,你的”大数据平台”应该是这样的:
第六章:一夫多妻制
请不要被这个名字所诱惑。其实我想说的是数据的一次采集、多次消费。
在实际业务场景下,特别是对于一些监控日志,想即时的从日志中了解一些指标(关于实时计算,后面章节会有介绍),这时候,从HDFS上分析就太慢了,尽管是通过Flume采集的,但Flume也不能间隔很短就往HDFS上滚动文件,这样会导致小文件特别多。
为了满足数据的一次采集、多次消费的需求,这里要说的便是Kafka。
6.1 关于Kafka
什么是Kafka?
Kafka的核心概念及名词解释。
6.2 如何部署和使用Kafka
使用单机部署Kafka,并成功运行自带的生产者和消费者例子。
使用Java程序自己编写并运行生产者和消费者程序。
Flume和Kafka的集成,使用Flume监控日志,并将日志数据实时发送至Kafka。
关于Kafka,可以参考 http://lxw1234.com/archives/category/kafka
如果你认真完成了上面的学习和实践,此时,你的”大数据平台”应该是这样的:
这时,使用Flume采集的数据,不是直接到HDFS上,而是先到Kafka,Kafka中的数据可以由多个消费者同时消费,其中一个消费者,就是将数据同步到HDFS。
如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
-
为什么Spark比MapReduce快。
-
使用SparkSQL代替Hive,更快的运行SQL。
-
使用Kafka完成数据的一次收集,多次消费架构。
-
自己可以写程序完成Kafka的生产者和消费者。
从前面的学习,你已经掌握了大数据平台中的数据采集、数据存储和计算、数据交换等大部分技能,而这其中的每一步,都需要一个任务(程序)来完成,各个任务之间又存在一定的依赖性,比如,必须等数据采集任务成功完成后,数据计算任务才能开始运行。如果一个任务执行失败,需要给开发运维人员发送告警,同时需要提供完整的日志来方便查错。
第七章:越来越多的分析任务
不仅仅是分析任务,数据采集、数据交换同样是一个个的任务。这些任务中,有的是定时触发,有点则需要依赖其他任务来触发。当平台中有几百上千个任务需要维护和运行时候,仅仅靠crontab远远不够了,这时便需要一个调度监控系统来完成这件事。调度监控系统是整个数据平台的中枢系统,类似于AppMaster,负责分配和监控任务。
7.1 Apache Oozie
1. Oozie是什么?有哪些功能?
2. Oozie可以调度哪些类型的任务(程序)?
3. Oozie可以支持哪些任务触发方式?
4. 安装配置Oozie。
7.2 其他开源的任务调度系统
Azkaban:
https://azkaban.github.io/
light-task-scheduler:
https://github.com/ltsopensource/light-task-scheduler
Zeus:
https://github.com/alibaba/zeus
等等……
另外,我这边是之前单独开发的任务调度与监控系统,具体请参考《大数据平台任务调度与监控系统》.
如果你认真完成了上面的学习和实践,此时,你的”大数据平台”应该是这样的:
第八章:我的数据要实时
在第六章介绍Kafka的时候提到了一些需要实时指标的业务场景,实时基本可以分为绝对实时和准实时,绝对实时的延迟要求一般在毫秒级,准实时的延迟要求一般在秒、分钟级。对于需要绝对实时的业务场景,用的比较多的是Storm,对于其他准实时的业务场景,可以是Storm,也可以是Spark Streaming。当然,如果可以的话,也可以自己写程序来做。
8.1 Storm
1. 什么是Storm?有哪些可能的应用场景?
2. Storm由哪些核心组件构成,各自担任什么角色?
3. Storm的简单安装和部署。
4. 自己编写Demo程序,使用Storm完成实时数据流计算。
8.2 Spark Streaming
1. 什么是Spark Streaming,它和Spark是什么关系?
2. Spark Streaming和Storm比较,各有什么优缺点?
3. 使用Kafka + Spark Streaming,完成实时计算的Demo程序。
如果你认真完成了上面的学习和实践,此时,你的”大数据平台”应该是这样的:
至此,你的大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。
第九章:我的数据要对外
通常对外(业务)提供数据访问,大体上包含以下方面:
离线:比如,每天将前一天的数据提供到指定的数据源(DB、FILE、FTP)等;
离线数据的提供可以采用Sqoop、DataX等离线数据交换工具。
实时:比如,在线网站的推荐系统,需要实时从数据平台中获取给用户的推荐数据,这种要求延时非常低(50毫秒以内)。
根据延时要求和实时数据的查询需要,可能的方案有:HBase、Redis、MongoDB、ElasticSearch等。
OLAP分析:OLAP除了要求底层的数据模型比较规范,另外,对查询的响应速度要求也越来越高,可能的方案有:Impala、Presto、SparkSQL、Kylin。如果你的数据模型比较规模,那么Kylin是最好的选择。
即席查询:即席查询的数据比较随意,一般很难建立通用的数据模型,因此可能的方案有:Impala、Presto、SparkSQL。
这么多比较成熟的框架和方案,需要结合自己的业务需求及数据平台技术架构,选择合适
的。原则只有一个:越简单越稳定的,就是最好的。
如果你已经掌握了如何很好的对外(业务)提供数据,那么你的“大数据平台”应该是这样的:
第十章:牛逼高大上的机器学习
关于这块,我这个门外汉也只能是简单介绍一下了。数学专业毕业的我非常惭愧,很后悔当时没有好好学数学。
在我们的业务中,遇到的能用机器学习解决的问题大概这么三类:
-
分类问题:包括二分类和多分类,二分类就是解决了预测的问题,就像预测一封邮件是否垃圾邮件;多分类解决的是文本的分类;
-
聚类问题:从用户搜索过的关键词,对用户进行大概的归类。
-
推荐问题:根据用户的历史浏览和点击行为进行相关推荐。
大多数行业,使用机器学习解决的,也就是这几类问题。
入门学习线路:
数学基础;
机器学习实战(Machine Learning in Action),懂Python最好;
SparkMlLib提供了一些封装好的算法,以及特征处理、特征选择的方法。
机器学习确实牛逼高大上,也是我学习的目标。
那么,可以把机器学习部分也加进你的“大数据平台”了。