ビッグデータは、ビッグデータのスキルのようなものを持っているか、いない仕事の経験のために、大規模データの開発に従事したい、学校になりましたか?どの程度まで?

以下は、大規模データの開発に関連する仕事に従事している私はあなたの助けを期待、スキルを持っている必要があります。

ジャワ

我々は、すべてのJavaの方向するJavaSE、JavaEEの、JavaMEの、ビッグデータがその方向を学ぶことを学ぶことを知っていますか?サーブレット、JSP、Tomcatの、Strutsの、春、Hibernateは、MyBatisのは、使用中のビッグデータ技術の方向にJavaEEの技術はあまりないですしているようにちょうどちょうどあなたがそれを理解する必要があり、その上でのJava Standard Editionの使用するJavaSEを学ぶ必要がありますもちろん、JavaデータベースまたはJDBCは、それをマスターしなければならないように、接続する方法を知っています。

一部の学生は、これらの悪いを言っているわけではないが、最終的に仕事は一般的ではありません、これらはあなたとの時間の多くを学ぶことが、私は見ていない学ぶない理由を、私はここに学び、休止状態またはMybitesは、ああ、データベースに接続することができると言いますあなたのエネルギーが十分にあるこれら二つのことを処理するビッグデータへの使用者、もちろん、あなたは、これらの2あなたは、Javaデータベース操作のご理解を向上させることができるように、APIを学ぶだけではなく、原則を休止状態またはMybites学ぶことができますコア技術は、Java JDBCプラス利用の様々な反射です。


彼らは成長し、成長するように大規模なデータフィールドに栄養素を描きたいです。シェア方向、次の大きなデータ交換や共有リソース・グループ870097548前に最初のアクションを共有し、学びたいことを歓迎、切り替えたい、とあなたは、高度な学習に参加します。


Linuxの

ビッグデータソフトウェアは、Linux上で実行されているので、Linuxのように、固体のいくつかを学ぶために、あなたがより良いのHadoop、ハイブ、HBaseのを理解できるように、あなたはすぐに非常に参考になりますビッグデータ技術を習得にLinuxを学ぶために、火花や他のビッグデータのソフトウェア動作環境とネットワーク環境の設定は、あなたはそれが簡単に理解し、大規模なデータクラスタを構成するために読むことができるようにシェルスクリプトを学び、はるかに少ないピットを踏むことができます。あなたはまた、より高速ビッグデータ技術の習得のための新たな未来を作ることができます。

また、ビッグデータ技術を学ぶ必要があると言う良い基盤を持って、あなたは私が書いた順番を学ぶことができます。


Hadoopの

これは、今人気のビッグデータ処理プラットフォームは、ビッグデータとほぼ同義となっているが、これは学ぶために必須です。ファイルは上記に格納されているよう我々はコンピュータのハードディスクなどのデータを保存する場所をいくつかのコンポーネントHDFS、MapReduceの糸を含んでのHadoopは、HDFSは、MapReduceのデータ処理が計算され、それがどんなに多くのデータという特徴を有していますただそれには、データを終えることができるようになりますが、それは、バッチデータと呼ばれているので、時間が速くないかもしれない時間を与えます。

YARNの重要なコンポーネントは、私たちが持っていないような私たちはより良い大型ストレージHDFSの利点を活用し、より多くのリソースを節約することができるようにビッグデータのエコシステムは、Hadoopの上で実行することができるようになります他のどのソフトウェアでのHadoopプラットフォームの概念の実施形態でありますクラスタを構築し、その上に既存のHadoop糸の上に直接それを実行するための単一の火花。


実際には、あなたがデータと大したことを理解することを学ぶことができますが、まだ終わりでは「ビッグデータ」であるかもしれない、これらのコンポーネントのHadoopのは非常に明確な考えていない、私はこのもつれに聞いていません。その作業の後、あなたは、より多くのあなたの頭痛、時間にあなたが素敵な大きなデータを感じることはありません、シーンの多くは、大規模データのT / Tの何百数十人に遭遇しています。これがあるので、もちろん、そう、大規模なデータ処理を恐れてはいけませんどこ値、HTML5のPHPとDBAの行くの羨望のJavaEEのに従事していた人たちようにします。


あなたはノードビッグデータを学ぶとして、あなたが学ぶことができる場所を覚えておいてください。


飼育係


これは、すべてをフィットワンサイズで、HAのHadoopのインストールは、それが後のHBaseを使用することになる、それを使用します。一般的にはアップ、情報は一般的に1M以上の比較的小さいではありません、ちょうどそれが正しくインストールされている、個人的に私たちのために、それに依存する同社のソフトウェアを使用している、相互協力に関するいくつかの情報を格納するための通常の実行を使用していますその上に。

V2-be259042ed15bada39ac69215b4b0fc2_hd.jpgV2-be259042ed15bada39ac69215b4b0fc2_hd.jpg

MySQLの

私たちは、ビッグデータが処理されたのを学び、その後、使用する際ハイブがインストールされますので、MySQLのデータベース処理ツールに小さなデータを学び、MySQLはどの程度その層に知っておく必要がありますか?あなたは、アクセス権を設定するには、単純なものrootのパスワードを変更して、データベースを作成し、稼働して、インストールしたLinux上に置くことができます。構文ハイブと、これは非常に似ているので、ここでは主なものは、SQL構文を学ぶことです。


Sqoop


这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。


Hive


这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。


Oozie


既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。


Hbase


这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。


Kafka


这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了。


因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。

V2-e0be0b66c069c3e1b3de082c72b78f1b_hd.jpgV2-e0be0b66c069c3e1b3de082c72b78f1b_hd.jpg

Spark


它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。


おすすめ

転載: blog.51cto.com/14516202/2432585