私は、方向を回すの良いプログラムや展望ビッグデータを選択したいと思いますか?S齧るVCX
今日は、プログラミングやビッグデータのための専門の解釈を見てください。
雇用面では、ビッグデータおよびプログラミングのあらゆる紛争を投稿していないし、実際にビッグデータのジョブも全くプログラミングのスキル要件の低いを持っていません。通常、我々はビッグデータ技術を話している、一般的に開発者のHadoopのエコシステムを指します。
時間が経つにつれて、ビッグデータ業界はまた、多くの変更されている、と今の焦点は、大規模なAIデータからずれていると、大規模なデータ業界は、開発の比較的安定期に入りました。実際には、非常に簡単に理解するために、データやプロセスデータのためのソリューションの欠如前に、今ではAIデータの方向は、使用の結果を出力しています。
インフラ、ETL、データの可視化、データ分析:仕事の性質から、大規模なデータ位置を大まかに4つのカテゴリに分類します。
インフラ
データの異なる性質のために、企業はデータアーキテクチャと設計方法ので、導入された部品は、設計、構築する必要がある誰か異なっており、適切なインフラを維持し、異なっています。
それは別の会社のHortonworksと合併する前にこのセクションでは、実際には、彼らは2をマージ、などCDHようになりました多くの商業的用途があるにも市場の反応のいくつかを示しています。ラムダアーキテクチャを使用建築アプローチの多くは、ここでは詳しく説明しません
ETL
抽出・変換・ロード・略語であるETLは、別のシステムガイド1つのシステムからのデータは、一部のデータが加工プロセスをインポートします最も一般的なケースであり、いくつかの拡張データ、データクリーニング、データを行います定期的な仕事。あなたがビッグデータの開発に興味がある場合は、ケリをグループ学ぶために、あなたがビッグデータ交換技術を結合することができるシステムビッグデータを学びたい:458デジタル345デジタル782を、学習リソースへのアクセスをコースの説明についてはさらに、私的な手紙の管理者を歓迎
これは非常に一般的な作業は、実際には、大規模な開発者のデータの大半は一つのことをやっている、唯一の違いは、何人かの人々、何人かの人々が仕事のこの部分で行うか、あるいは実現したことがないということであることを彼らビッグデータのETL作業が仕事です。必然的に、共通のデータソースとして、主にデータベース(通常はリレーショナルデータベース)、ログデータから作業のこの部分、
ビジネスデータベースは、ビジネス・データは、設計OLAPのデザインに従います、と後で私たちはに関し、設計データ、より高速な処理時間と引き換えに、より多くの冗長性、遵守するデータの可視化とデータ解析OLTPデータを呼び出しますETLの間の変換
常に方法の非構造化データが常に存在するログ構造化データに変換する必要がある、MySQLのバイナリログと、ログ処理に起因することができるなどのような相関関係がある
すべてのすべてで、仕事のこの部分、退屈であるが、しかし非常に重要かつ不可欠。
データの可視化
データの可視化は、データ分析、データ解析、多くの企業に起因することができますが、これだけは、それが特に記載されて、終わりました
例:データの可視化
データ分析
このようML / DLシステムなどの既存のデータ、以前のデータの要約の分析は、そのような和解など決済システム、だけでなく、将来の行動を予測する、の使用は、データ分析であります
==================================
Q&A
ビッグデータはどのようなプログラミング言語を必要としますか?
あなたは、インフラストラクチャおよびETL部門に従事したい場合は、主にJava +スカラ、Pythonのサプリメントに基づきます。
あなたは、データの視覚化に従事したい場合は、要求は、フロントエンドであってもよいし、HTML + JS + CSS
あなたはクラスの分析に従事したい場合は、既存のビッグデータアーキテクチャの分析に基づいて、また、Java +スカラ座、Pythonのサプリメントをベース。あなたは、AI / MLに従事している場合は、メインステージのPython、C ++(Tensorflow基本となる実装、など)、補足。
マスターは、彼がすべてどうなるかを選択するよう求めたことがありません!
ビッグデータは、一般的に技術を使用しますか?
私たちは、一般的に言っシステムにおけるビッグデータは、技術インフラストラクチャとETLのHadoopエコシステムクラスに基づいていると言います。
Hadoopの、Hadoopのは、以下の3つのコンポーネント、MapReduceの+ HDFS + YARNは、現在、非常に小さな手書きのMapReduceを持っており、Hadoopのが共通に使用することができますは、HDFS(分散ファイルシステム)、糸(リソーススケジューリングシステム)であります
ハイブは、HadoopのMapReduceの動作のためのトップ・オペレーティング・システムとして理解することができ、一般的なツールを倉庫バッチ大量のデータを扱うために使用
豚、だけでなく、稀にで新しくオープンしたプロジェクトに見られないよう
スパーク、大規模データ処理と高速メモリベースの設計(あなたがフォーカスを描きたい)は、汎用コンピューティングエンジン
FLINK、嵐、スパーク蒸しフロー算出(ここで、フォーカスを描画するために)
水路、ログ収集
HBaseの、カサンドラ分散データベースなど
カフカ、メッセージシステム(ここではフォーカスを描画するために)