最近、一部の学生は非常にこの位置のためのビッグデータ開発エンジニアを理解していないことが判明し、私は簡単にしたい、などのエンド表情で、同社の現在のインターネットデータの開発ビッグデータ開発エンジニアが何であるかを説明するだろうか?そして、一般的なJavaやPHPは、職場でどんな違いを設計しますか?
ビッグデータ開発は何ではないでしょうか?
レベルのデータが到達する数百万の量は、億レベルのデータは、大きな展開はないが、唯一のデータベース(リレーショナルmysqlの、のSQLServer、Oracleおよびその他の非リレーショナルのmongoのRedisなど)を使用してください。
クエリ、データと出力レポートには、データベース・システムからビッグデータビジネス開発ではありません。
エンド(ページ、H5、携帯電話のネイティブの)データベースへのレポートデータレコードを埋設は、ビッグデータの開発ではありません。
ビッグデータ開発は何ですか?
1.ビッグデータ技術開発ニーズ
次のようにZhaopinこの位置のビットビッグデータ開発エンジニア、ほんの数ポイントの位置を検索する、ショットは以下のとおりです。
だから、今の意義の範囲内でのインターネット会社ビッグデータの開発に使用するツールです:Hadoopの、ハイブ、HBaseの、スパーク 、カフカとそうで。
2.ビッグデータ開発は行うには
単語を合理化するには、このです:統計
PVとUV:それは、指標の2種類に合理化されて
PVとUVの統計指標:単語を合理化
PCインターネット時代、(のような:シーナ、網易、捜狐)各ポータルは、自分のサイトが今日何回か(PV)が開かれていることを懸念している、今日多くの人々 (UV)があるが、サイトを訪問しました。もう少し複雑な例:システムが欲しいビッグデータを学ぶためにあなたがケリJunyangを学ぶためにビッグデータ交換技術に参加することができ、:522 189 307
ページ上のボタンまたはどのように多くの接続をクリックした人の数倍
ページのヒートマップ(より多くの地元、より深刻なカラーチャートをクリックしてください)
モバイルインターネットの時代には、モバイルアプリケーションに焦点を当てて開かれ、回数は、ユーザーがすべての人の関心事であるが、それに加えて、よりによる携帯電話の画面の制限に他の非常に重要なデータの多くよりも、情報の流れは、モバイル時代の主流となっています。
ストリーム内の記事は、ユーザーによる多くの記事がクリックされたか、どのくらいの露出:主なポータルは、非常に自分のニュースクライアントを懸念しています。各記事は、長い時間のために読ん企業はコンテンツのようなユーザーにお勧めする方法を見つけるので、記事の詳細ユーザーがクリックするので、長く、企業だけ高い広告収入をクライアントの時間を使います。
3.これらのことを行う方法
ウェブサイト、記事のモバイルクライアントの暴露、またはこれらのデータをクリックしての閲覧行動が非常に大きいため、数十億の基本単位は、再生します。したがって、このようなAの方法で、データベースへの伝統的な統計情報は、この統計的な作業を行うことはできません。(例:ワードプレスのブログ、記事を読んで、すべてのユーザーが、MySQLは、この記事を読んで+1の数が更新されます)
だから、ビッグデータこれらの指標で統計情報を記録することです。
たとえば、次のようにログのバックグラウンドサービス(Apacheのは、Tomcatのは、WebLogic、nginxのログ)
たとえば次の図は、私の個人的なウェブサイトのApacheのサービスは、ログにアクセス。
このサイトの冒頭で/年(赤)をログに記録するURLフィールドの数記事のページ数が倍サイトの番号の先頭に(青)に/カテゴリ行、行数をアクセスしているが、分類ディレクトリがアクセスされています。
もちろん、私のこのログは、統計ではありません統計が各ログの現在のユーザーの一意の識別を記録した後、デエンファシスを行う必要があるので、ユーザー数、ユーザー数は、重複除外の数はユーザの数であるが、ここで何の報告はユーザを一意に識別しません。
どのようにその数は、一般的なインターネット企業の数は、ページを所有しているか、または一意に識別するために、クライアント上でユーザーを作成し、自分のログサーバにレポートするためのイニシアチブを取るん。
ビッグデータにおける主な困難の嘘:
大きすぎるログは、(インターネット企業のポイントとして大として、ビジネスラインが大きく、その後、いくつかのログトン日トンの毎日数十を持って、トン数百人が何の驚きではありません)、あなたは、前述のようにビッグデータ技術を習得する必要がありますHadoopのに、ハイブと上のようにします。
データの適時オフライン計算から、一般的にゼロ、ログは毎日完全に受信される前の日は、前日のデータポイントが完了して計算することができ、カウント?これは、各企業の個々の要件によって異なります。
データの精度。それは、関連する技術を習得するために、リアルタイムで、リアルタイムで計算されている場合(これが最も重要な仕事は、大規模なデータ統計を開発することである、統計データ、許可されている場合....です)。たとえば、次のオンラインウェブサイトの数は5分ごと。
:監視監視監視監視ミッションは、失敗したデータを出力するかどうか、出力データの異常かどうかをしています。
障害回復障害回復障害回復:タスクが対処方法失敗した場合。何らかの理由で夜02時までのデータは、13時のデータをバックアップする方法、ありませんでしたので、リアルタイムタスクなど。
比較ビッグデータの開発や一般的なビジネス展開
充電システム、例えば、人事システム(出席、給与計算、など):ビッグデータの開発を転送する前に、それは、ビジネスシステムのJavaのために使用されてきました。
業務システムの開発や大規模データの開発の私の個人的な理解についてのトーク:
ビジネスシステム:
ボトムライン:様々なCRUD操作のデータベース。
難易度は、に焦点を当てています。
(:基本給、5回の保険の支払い、出席のボーナス、高い補助金、償還、賞与、残業手当.....というように計算されるように、賃金の計算など)の複雑な操作を理解します。
こうしたフェイスブック、淘宝網と他のサイトの高い同時圧力など、サイトの安定したオンラインサービスの正常な動作を維持します。
ビッグデータ開発
ボトムライン:文字列の算術演算のすべての種類。
難易度が重いです。
データの適時。このようなリアルタイムデータとして、あなたはデータが完全に夜に20時に計算した場合、これらの10分のユーザーの午前12時〜12時10分番号を知りたい、何の意味もないでしょう。別の例として、我々は経験している必要があります、これを使用すると、特定の記事をポイントすると、携帯電話でニュースを磨くし、その後すぐに記事のたくさんの前に出て戻ってくる、ニュースを磨くために継続し、同様の記事をクリックしてくださいあなたが何か大きなポイントを持っていることを勧告することができるタイムリーにあなたにあなたのクリックに基づいています。
データの精度。このことの重要性は自明です
安定性と災害復旧データ。