ビッグデータの概念のビッグデータの時代

ビッグデータ:一定の時間枠内で、キャプチャ、管理および従来のソフトウェアツールで処理できないデータの収集を指し、新しいモデルは、より強力な意思決定力を持つために必要とされ、洞察力とプロセスの最適化機能は、大規模な、高い成長率の力を発見し、多様な情報資産

ビット、バイト、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB:基本ユニットは、順序指定された最小のビット、すべてのユニットです。

1バイト= 8ビット1キロバイト= 1024バイト= 8192ビット1メガバイト= 1024キロバイト= 1,048,576バイト1ギガバイト= 1024メガバイト= 1048576キロバイト1 TB = 1024ギガバイト= 1048576メガバイト1 PB = 1024 TB = 1,048,576 JP 1 EB = 1024 PB = 1,048,576 TB 1 ZB = 1024 EB = 1,048,576 PB 1 YB = 1024 ZB = 1,048,576 EB 1 BB = 1024 YB = 1,048,576 ZB 1 NB = 1024 BB = 1,048,576 YB 1 DB = 1024 NB = 1,048,576 BB

主に、解決するための大規模なデータストレージおよび大量のデータの計算問題を分析します

V2-d4338145397ac4ede3a1dd615e7d973e_hd.png

特長2つの大きなデータ

図1に示すように、多数。でもTBへの大規模なデータの第1の特徴多くの人々のニーズを満たすために、小さなMBレベルMAP3、MAP3最初の時代から、「ビッグ」として反映が、時間が経つにつれて、過去GBからストレージユニット、今PB、EBレベル。情報技術の急速な発展に伴い、データが爆発します。ソーシャルネットワーキング(マイクロブログ、ツイッター、フェイスブック) - モバイルネットワーク、インテリジェンスのさまざまなツール、サービスツールは、データのソースとなっています。300TB以上の約10万人のユーザーの毎日の生産フェースブックログデータ、商品取引淘宝網のデータは、約400万人の会員20TBについて毎日を生成しました。インテリジェントなアルゴリズム、強力なデータ処理プラットフォームと統計、分析、予測、データなどの大規模リアルタイム処理に新たなデータ処理技術のための緊急の必要性。

2、および多様。データソースの広い範囲は、多様性の形でデータのサイズを決定します。データのいずれかの形式が効果を持つことができ、最も広く使用されている、そのような淘宝網、網易のクラウド音楽、見出し今日として推薦システム、で、これらのプラットフォームは、より一層の事のようなユーザーをお勧めし、ユーザーにログデータによって分析されます。データが明確にデータを構造化された、イメージ、オーディオ、ビデオなどのいくつかの明白な構造化データは、あるデータの因果関係が弱いログ、我々は手動でマークする必要があります。

図3に示すように、高速。大規模なデータ非常に迅速に、主にインターネット伝送による。生活の中で誰もが個人が毎日、大量のデータに多くの情報を提供していることを意味し、インターネットと不可分です。そして、それは小さな歴史的なデータ・ストレージ・ロールに資金がかかるため、これらのデータは、タイムリーな治療を必要としていることはプラットフォームのために、非常に価値がある、そしておそらくそれから遠く、ここ数日、または月にのみデータを保存しますデータは晴れ、またはコストがかかりすぎることになります。このような状況を踏まえ、大規模データの処理速度が非常に厳格な要件である、サーバリソースの多くはデータを処理して計算することがあり、多くのプラットフォームは、リアルタイム分析を行う必要があります。データは、優位性を持っている高速ですすべての時間を、生成されました。

4、値。これは、ビッグデータの中心的な特徴です。現実の世界で生成されたデータ、貴重なデータのごく一部。伝統的な小さなデータと比較すると、ビッグデータは機械学習、無関係の多数からの各種のデータによる人工知能による最大の価値は、将来の傾向やパターンの貴重なデータ分析や予測を掘ることです深さ分析やデータマイニング方法、最終的には、社会的なガバナンスを改善し、生産性を高め、科学的な研究成果を促進し、新たな法律や新しい知識の発見、およびなどの農業、金融、ヘルスケア、様々な分野で使用されます、

HADOOPの背景

1.1 HADOOPとは何ですか

はじめに公式サイトのhadoop.apache.com - >読み取りがBaiduの翻訳を使用することができます

ApacheのHadoopのは、信頼性の高い、スケーラブルな分散コンピューティングのオープンソースソフトウェアの開発です。ApacheのHadoopのソフトウェアライブラリは、大規模なデータセット(大量のデータ)の処理を分散マシンのクラスタ間で簡単なプログラミングモデルの使用を可能にするフレームワークです。これらのモジュールは、次のとおりです。

•Hadoopの共通:他の一般的なツールのHadoopのモジュールをサポート。

•Hadoopの分散ファイルシステム(HDFS™):アプリケーションデータへの高スループットのアクセスを提供する分散ファイルシステム。

•Hadoopの糸:ジョブスケジューリングフレームワークおよびクラスタリソース管理。

•のHadoopのMapReduce:糸のためのシステムをベース大規模なデータセットの並列処理。

前記各モジュールは、それ自身の独立した機能を有しており、モジュール間に互いにが関連付けられています。

大まかに言えば、Hadoopが通常より広範な概念の--HADOOPの生態系を指し、

V2-c66e96ca6f1916c6da8ceac9d82d12f0_hd.png

1.2のHadoop背景

プロトタイプは、2002年には、Apache Nutchは、Nutchのは、検索エンジンのオープンソースのJava実装で始まりました。それは我々が独自の検索エンジンを実行するために必要なすべてのツールを提供しています。フルテキスト検索とWebクローラーを含みます。Nutchの設計目標は、ウェブクロール、インデックス作成、クエリや他の機能を含む大規模なネットワーク全体の検索エンジンを構築することですが、ページ数の増加に伴い-------深刻なスケーラビリティの問題に遭遇した、クロール- 「どのような質問のページの保存とインデックス数十億を解決するために。」

•2003年にGoogleが学術論文の技術Googleのファイルシステム(GFS)を発表しました。GFSは、専用のファイルシステムを設計し大量のデータを格納するために、Googleのファイルシステム、Google検索会社です。

•紙の2004 NutchのベースのGoogle創業者ダグ・カッティングでのNDFと呼ばれるGFS分散ファイル・ストレージ・システムを実現しています。

PS:2003- 2004年、GoogleはGFSの詳細を開示し、MapReduceはミニチュア版、DFSおよびMapReduceの仕組みを実現した2年間の基礎ダグ・カッティング、一緒に時間を惜しまするために、考えた:Nutchの

•2004年にGoogleが技術的な学術のMapReduceを公開しています。MapReduceは大規模なデータセット(1TBより大きい)パラレル解析アルゴリズムのためのプログラミング・モデルです。

•2005年にダグは、切削やMapReduceのに基づいて、Nutchの検索エンジンは、機能を実装しています。

v2-3bd8933af1525c5ae34f8e3ebc650131_hd.png

国内および外国のHadoopアプリケーション紹介

• 大型网站Web服务器的日志分析:一个大型网站的Web服务器集群,每5分钟收录的点击日志高达800GB左右,峰值点击每秒达到900万次。每隔5分钟将数据装载到内存中,高速计算网站的热点URL,并将这些信息反馈给前端缓存服务器,以提高缓存命中率。

v2-095ed1887489f7ab6c13156dd48a5651_hd.png

• 运营商流量经营分析:每天的流量数据在2TB~5TB左右,拷贝到HDFS上,通过交互式分析引擎框架,能运行几百个复杂的数据清洗和报表业务,总时间比类似硬件配置的小型机集群和DB2快2~3倍。

V2-f2f8160741aab4d3df323a40434c832a_hd.png

1.5 国内HADOOP的就业情况分析

可以联网查智联

大数据方面的就业主要有三大方向:

• 数据分析类大数据人才 对应岗位 大数据系统研发工程师

• 系统研发类大数据人才 对应岗位 大数据应用开发工程师

• 应用开发类大数据人才 对应岗位 大数据分析师

大数据技术生态体系

v2-4e7dc080bdc7ab2f87ffb4867ee8b387_hd.png

上图中涉及到的技术名词解释如下:

1)Sqoop:sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql)间进 行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。

2)Flume:Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚 合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

3)Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统,有如下特性:

(1)通过 O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以 TB 的消息 存储也能够保持长时间的稳定性能。  (2)高吞吐量:即使是非常普通的硬件 Kafka 也可以支持每秒数百万的消息 (3)支持通过 Kafka 服务器和消费机集群来分区消息。

(4)支持 Hadoop 并行数据加载。

4)Storm:Storm 为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时

处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm 也可被用于“连

续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式

输出给用户。

5)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数据进行计算。

6)Oozie:Oozie 是一个管理 Hdoop 作业(job)的工作流程调度管理系统。Oozie 协调作业 就是通过时间(频率)和有效数据触发当前的 Oozie 工作流程。

7)Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库, 它是一个适合于非结构化数据存储的数据库。

8)Hive:hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张 数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。 其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专 门的 MapReduce 应用,十分适合数据仓库的统计分析。

9)Mahout:

Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用 例:  推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。 聚集:收集文件并进行相关文件分组。 分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确 的归类。

频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。

10)のZooKeeperは:飼育係Googleのチャビーは、オープンソース実装です。これは、大規模な分散システムのための信頼できると調和システムであり、利用可能な機能が含まれます:コンフィギュレーション・メンテナンス、ネームサービス、分散同期、グループ・サービスを。ZooKeeperの目標は、より良い、複雑なエラーが発生しやすい重要なサービス、ユーザーにシステムのインタフェースで効率的なパフォーマンス、機能性と安定性を使用して簡単にカプセル化することです。


おすすめ

転載: blog.51cto.com/14249543/2416114