ビッグデータの一般的な用語[ターン]

今日では、ビッグデータに関する情報を検索する際、時折にhttps://blog.csdn.net/dashujudaka/article/details/82980532その転載今、長い間、私の心の中の疑問を解決するため、いくつかの大規模なデータに共通する概念を見て以上、これは不法行為バーと呼ばれていません。

Linuxの場合:ビッグデータソフトウェアは、Linux上で実行されているので、Linuxのように、固体のいくつかを学ぶために、ハイブあなたはすぐにあなたがより良いのHadoopを理解することができ、非常に参考になりますビッグデータ技術を習得にLinuxを学ぶために、動作環境やネットワーク環境の設定HBaseの、火花や他の大規模なデータ・ソフトウェアは、理解し、大規模なデータクラスタを設定しやすくすることができ、このようなスクリプトを読むことを学ぶことができるようになりますはるかに少ないピットシェルを踏むことができます。あなたはまた、より高速ビッグデータ技術の習得のための新たな未来を作ることができます。
 
 
Hadoopのは:それは今で人気のビッグデータ処理プラットフォームは、ビッグデータとほぼ同義となっているので、これは学ぶために必須です。ファイルは上記に格納されているよう我々はコンピュータのハードディスクなどのデータを保存する場所をいくつかのコンポーネントHDFS、MapReduceの糸を含んでのHadoopは、HDFSは、MapReduceのデータ処理が計算され、それがどんなに多くのデータという特徴を有していますただそれには、データを終えることができるようになりますが、それは、バッチデータと呼ばれているので、時間が速くないかもしれない時間を与えます。
YARNの重要なコンポーネントは、私たちが持っていないような私たちはより良い大型ストレージHDFSの利点を活用し、より多くのリソースを節約することができるようにビッグデータのエコシステムは、Hadoopの上で実行することができるようになります他のどのソフトウェアでのHadoopプラットフォームの概念の実施形態でありますクラスタを構築し、その上に既存のHadoop糸の上に直接それを実行するための単一の火花。実際には、あなたがデータと大したことを理解することを学ぶことができますが、まだ終わりでは「ビッグデータ」であるかもしれない、これらのコンポーネントのHadoopのは非常に明確な考えていない、私はこのもつれに聞いていません。その作業の後、あなたは、より多くのあなたの頭痛、時間にあなたが素敵な大きなデータを感じることはありません、シーンの多くは、大規模データのT / Tの何百数十人に遭遇しています。これがあるので、もちろん、そう、大規模なデータ処理を恐れてはいけませんどこ値、HTML5のPHPとDBAの行くの羨望のJavaEEのに従事していた人たちようにします。
 
 
 
飼育係は:これは、1つのサイズはすべてに合う、HAのHadoopのインストールは、それを使用する場合、それは後のHBaseを使用します。一般的にはアップ、情報は一般的に1M以上の比較的小さいではありません、ちょうどそれが正しくインストールされている、個人的に私たちのために、それに依存する同社のソフトウェアを使用している、相互協力に関するいくつかの情報を格納するための通常の実行を使用していますその上に。
 
MySQLは:使用する際ハイブがインストールされますので、私たちは次の学びのMySQLデータベース処理ツール、小さなデータを処理し、大量のデータを研究、MySQLはLinux上でそれをレイヤーすることができますどの程度知っておく必要がありますか?インストールされ、稼働して、アクセス権を設定するには、単純なものrootのパスワードを変更して、データベースを作成します。構文ハイブと、これは非常に似ているので、ここでは主なものは、SQL構文を学ぶことです。
 
Sqoop:これは内部のHadoopでのMySQLにデータをインポートするために使用されます。もちろん、あなたも同じである、もちろん、圧力MySQLを使用して本番環境に注意を払うMySQLデータテーブルファイルとしてエクスポートして、HDFS上に置くに直接これを行うことができます。
 
ハイブ:この事は、SQL構文のためになり、それが人工物である、それは非常に簡単になり、のMapReduceプログラムを書くのは難しいことではないでしょう、あなたが大規模なデータを処理することができます。豚は、一部の人々はそれを言う?そ​​れにはほとんど把握それ豚。
 
Oozie:以来、ハイブを学んだ、と私はあなたがこの事を必要と確信している、それはあなたがあなたのハイブやMapReduceの、スパークスクリプトの管理を支援することができ、あなたはプログラムが正しく、あなたが警察にミスを犯し、あなたが再役立つかどうかを確認することができます試験手順は、最も重要なのは、また、タスクの依存関係を設定するのに役立ちます。私はあなたがそれを愛すると確信していますか、スクリプトの多くを見て、そして濃密crondは糞したいの一種ではないと感じています。
 
HBaseの:これはNOSQLデータベース内のHadoopエコシステムは、彼のデータは、キーと値の形式で格納され、それはデータの複製のために使用することができるので、キーは、MySQLを格納することができるデータと比較し、ユニークであります大ロット。そこで彼は、多くの場合、プロセスが完了した後に大規模なデータ転送先を格納するために使用されます。
 
カフカ:これはチケットのキューアップは、あなたがまた、なぜあなたはそんなに私を与えるか、処理、あなたが呼び出すことがないように他の学生とのコラボレーションをキューイングする必要がある多くのデータを知っていない理由キューがあり、ツールのキューを使用することは比較的容易である??あなたが取るために1を使用するときに、彼はビッグデータに従事していなかったので、私はオーバー扱わどのように、あなたは彼を責めることはありません(たとえば、数百Gファイルなど)のデータが、あなたは彼に話すことができる私は、キューにデータを置きます彼はすぐに行き、彼のプログラムを最適化するためにcrestfallen文句はないだろうが、それは彼のものであるため、対処します。代わりに、あなたは問題を与えます。もちろん、我々はまた、あなたは水路ツールはコールと一緒に使用することができ、単純なデータ処理を提供するように設計され、さまざまな書き込みされ、リアルタイムのオンラインデータストレージを行うか、HDFSにするには、このツールを使用することができますA(例えばカフカのような)受信者データ。
 
スパーク:それはMapReduceのベースのデータ処理速度の欠点を補償するために使用され、それがメモリにロードされたのではなく、特にハードも遅い死遅い進化を読み取​​る計算されたデータにより特徴づけられます。反復のために特に適した、アルゴリズムの流れは特にそれをお粥ました。これはScalaで書かれています。彼らはJVMを使用しているので、スカラ座やJava言語は、それを操作することができます。
 
機械学習(機械学習、ML):複数のフィールドは、確率論、統計、近似理論、凸解析、アルゴリズムの複雑さの理論と他の科目を含む、学際的です。これは、人工知能の中核である、人工知能のアプリケーションのすべての分野を通じて、知的な基本的な方法のコンピュータを作ることです、それは主にではなく、包括的な解釈より誘導の使用、です。機械学習アルゴリズムは、固定の基本一緒に学ぶことは比較的容易に比較します。
 
ディープ学習(ディープラーニング、DL):コンセプトは、人工ニューラルネットワークは、近年急速に発展しているの深さの研究から来ています。アプリケーションの例としては、深い学習AlphaGo、顔認識、画像検出されています。国内外の希少な才能があるが、深さが速く、アルゴリズムの更新を学ぶことは比較的困難である、私たちは教師の学習体験を追跡する必要があります。

おすすめ

転載: www.cnblogs.com/yjh123/p/10972351.html