ビッグデータの特性と開発プロセス

大きなデータ(ビッグデータ)は、データの集合である:データの量は、高速成長、従来の工具データ、処理、記憶及び計算データセット内の特定の時間に収集することができません。

著者は次があると考えている、それがビッグデータと呼ばれているのデータを5つの特性(4V + 1O) すなわちを、:

データの量(ボリューム):第1の特徴は、記憶及び計算は非常に大きい、コレクションを含む大量のデータです。測定の単位を開始することは、少なくとも大きなデータP(T番目1000)、E(T番目億)またはZ(T番目の100億)です。

タイプ品種(品種):第二の特徴は、タイプ及び多様性の源です。など、構造化、半構造化および非構造化データ、特定のパフォーマンスのネットワークログ、オーディオ、ビデオ、写真、位置情報を含む、データのデータ処理能力の多くの種類が前方に高い要求を入れました。

低密度の値(値):第三の特徴は、データ密度の比較的低い値、又はセントーサに波が、貴重です。インターネットの普及や物事のインターネット、どこでも情報知覚、情報の洪水が、低密度の値、およびどのようにマシンの値に強力なデータ・マイニング・アルゴリズムでビジネスロジックを組み合わせることで、ビッグデータの時代は、ほとんどの問題を解決するために必要とされています。

高速エイジング(ベロシティ):第4の特徴データのより速い成長率は、処理速度が速い、タイムクリティカルな要件です。例えば、検索エンジンは、ユーザーのクエリに数分前にニュースを必要とするアルゴリズムが勧告を完了するために、可能な限りリアルタイムを必要と勧告をパーソナライズすることができます。これは、伝統的なビッグデータマイニングの重要な機能は異なっています。

データは、(オンライン)オンラインである:データは常にオンラインで、かつ機能ビッグデータの最大の伝統的なデータとは異なる計算、いつでも呼び出すことができます。今、私たちがビッグデータについて話していることがちょうど大きくない、より重要なバックグラウンドでのインターネットの急速な発展の特徴であるオンラインデータの変更、です。例えば、タクシーのためのツールは、リアルタイムオンラインデータでタクシー運転手と顧客データは、このデータは理にかなっています。ディスクが配置され、オフラインになっているされている場合は、データはビッグオンラインビジネスの価値よりもはるかに少ないです。

 

 

ビッグデータの機能について、特に多くの場合、大規模なオンラインデータの特性を見落として、多くの人々が大量のデータがデータであることと思うのでデータは、オンラインであることを強調する。オンラインデータだけ、ユーザーが製品に接続したり、顧客が理にかなっているときに生成されたデータ。そのようなユーザは、プッシュコンテンツアプリケーションを最適化するために効率的にいくつかのデータ処理における消費者(データマイニングまたは処理によるデータ解析)の後に、特定のインターネットアプリケーション、消費者に送信されるデータの時間的挙動を使用している場合など、ほとんどのユーザーは、コンテンツを見たいユーザーにプッシュするだけでなく、ユーザーの利便性を高めます。

ビッグデータイベントの開発プロセス

2005年のHadoopプロジェクトの誕生。 Yahooの最初にWeb検索プロジェクトの問題を解決するために使用されたHadoopの、そして後でその高い効率化技術の導入と会社のApache Software Foundationのオープンソースアプリケーションになりました。Hadoopの自体は製品ではありませんが、これらのソフトウェア製品を達成するために一緒に複数のソフトウェア製品で構成されるエコシステムは完全に機能し、柔軟なビッグデータ分析です。技術的な観点から、それは二つの重要なHadoopのサービスで構成されていますHadoopの分散ファイルシステム(HDFS)を使用して、信頼性の高いデータ・ストレージ・サービス、およびMapReduceの並列データ処理サービスと呼ばれる高性能技術の使用。2つのサービスの共通の目標は、現実の土台に構造化し、複雑なデータの両方のメイク、高速で信頼性の高い分析を提供することです。

2008年末には、「ビッグデータ」はアメリカのコンピュータサイエンスの研究者、および周知の一部が認識されてきたコミュニティ・アライアンス(コンピューティング・コミュニティ・コンソーシアム)を計算するために、業界団体、白書影響力のある「ビッグデータ・コンピューティングを発表:ビジネス、科学と社会の分野で革命的な突破口を作成します。」ビッグデータが本当に重要なのは、データそのものではない、新しい用途と新しいアイデアである:それは、人々の思考がデータ処理機に限定し、提案されていないことができます。この組織は、ビッグデータの代理店のコンセプトを提案する最初であると言うことができます。

2009年にインド政府は、バイオメトリックアイデンティティ管理のためのデータベースを構築するために、国連グローバルパルスプロジェクトは、価格クラスをスパイラル疾患の発生から、ソースデータの分析と予測問題に携帯電話やソーシャル・ネットワーキング・サイトの使用方法を検討しています。

2009年には、米国政府はさらにData.govサイトを開始する方法でデータへの扉を開くために、このサイトを公開し、政府のさまざまなデータを提供しています。以上44,500ボリューム・データ・セットのサイトを追跡するために、いくつかのウェブサイトやスマートフォンのアプリを確保するために使用され、その後、製品への便から特定のエリアの失業率の情報を呼び出し、アクションは、英国全体にケニアから政府に影響を与えました彼らはまた、同様の取り組みを開始しています。

2009年には、ヨーロッパ有数の研究図書館と情報科学技術研究機関の一部は、インターネット上で科学的データを取得の容易性を向上させることに努めパートナーシップを確立します。

2010年2月、バセスクケニー・カーは「エコノミスト」に14までの大規模なデータの特別報告書を公表し、「どこでもデータ、データが。」世界がデジタル情報の膨大な量を想像することはできません持っている」、およびコミュニティへの科学界からの素晴らしいスピード経済成長で、政府部門からの芸術に、多くの側面には、このことを感じている:クンケルはレポートで述べました。コンピュータ科学者や技術者の情報の種類の膨大な量の影響は、現象の新しい用語を作成しました:「ビッグデータ」クンケルは、このようにビッグデータのトレンドデータサイエンティストの時代に最初の洞察力の一つとなっています。

2011年2月、IBMのワトソンのスーパーコンピュータは、スキャン、分析(テキストの程度2億量)毎秒のデータの4TB量を、することができ、有名なアメリカのテレビクイズ番組「Jeopardy状態」で「危険状態」の2人の人間を倒します選手と勝利。その後、ニューヨーク・タイムズ紙は、この瞬間は、「ビッグデータ・コンピューティングの勝利。」であること

2011年5月、世界的に有名なコンサルティング会社マッキンゼー(マッキンゼー・アンド・カンパニー)ケン・錫グローバル・インスティテュート(MGI)は報告書を発表- 「ビッグデータは:革新は、競争と生産性の次のフロンティアは、」ビッグデータは懸念し始めましたこれは、初めてすべてのプレゼンテーションの局面およびデータの展望のための専門組織です。報告書では、ビッグデータは、すべての産業に、今日のビジネス機能に浸透していることを指摘し、生産の重要な要因となっています。膨大な量のデータのマイニングや使用のために人々は、生産性の伸びと消費者余剰の波の新しい波の到来を示しています。報告書はまた、コレクションの容量と速度を向上させる生産データから、「ビッグデータ」ということと大幅に言及-より多くの人々 、デバイスやセンサーがデジタルネットワーク、生成、送信、共有、アクセスデータによって接続されているとおり容量も革命をもたらしてきました。

2011年12月、環境省は5カ年計画で物事を発行し、情報の処理技術は、4つの主要な技術革新プロジェクトの一つとして提案されてきた大量のデータストレージを含む、データマイニング、画像インテリジェントビデオ解析、されていますこれは、ビッグデータの重要な部分です。

2012年1月、スイスのダボスで開催された世界経済フォーラムでは、ビッグデータ(トピックの一つ、「ビッグデータ、ハイインパクト」の会議で発表した報告書であるビッグデータ、ビッグインパクト)新しいデータがなったことを発表しましたお金や金などの経済的な資産クラス、同じ。

2012年3月には、オバマ政権は、ホワイトハウスのウェブサイトで、「ビッグデータ研究開発イニシアティブ」を発行したこのイニシアチブは、ビッグデータの時代の重要な特性となっているマーク。2012年3月22日、オバマ政権は、ビッグデータの分野$ 200万ドルの投資を発表し、ビッグデータ技術は翌日呼び出す会議で、国家科学技術戦略を分割するビジネス慣行から上昇し、「将来の新政府のデータ定義油の競争、「ビッグデータ技術の分野、国家の安全保障と将来の問題。そして彼は、競争力の国家レベルは国の大きさ、活動の一環として、反射、および、それがデータを所有して使用する機能を説明することになると述べ、国民のデジタル主権を所有し、データの制御を実施します。デジタル主権は国境、沿岸防衛、防空、スペース別の偉大なパワーゲームを次します。

2012年4月には、19日に米国のソフトウェア会社のSplunkが正常にNASDAQに上場しました、最初にリストされている大規模なデータ処理会社となりました。引き続き米国経済の沈滞を考えると、株式市場は、バックグラウンドで揮発性のまま、取引のSplunkの最初の日は特に顕著であっ倍以上に高騰の最初の日に非常に感銘を受けました。Splunkは、大規模なデータ監視および分析サービスソフトウェアプロバイダーのリーディングプロバイダである、2003年に設立されました。Splunkは成功したビッグデータに焦点を促進するために、だけでなく、ITが大規模なデータレイアウトをスピードアップするためにベンダーを促進するために資本市場に上場します。

2012年7月には、ニューヨークの国連は、大規模なデータ・政府に白書を発表し、それは政府がより良いサービスを提供し、人々を守るためにビッグデータを使用する方法をまとめています。、価格とより良いサービスに焦点を当てた個人データとクラウドソーシングの情報、およびプライバシーを提供するために、例えば、欲求によって:このホワイトペーパーでは、個人、それぞれの役割、動機やニーズの公共部門と民間部門のデータ・エコシステムに示して退出電力需要と提案し、サービスを向上させる目的で公共部門、効率を改善し、そして、そのような統計データ、デバイス情報、健康指標、および税や消費者情報などの情報を提供し、需要のプライバシーと出口権限を提唱し、民間部門のための顧客の認知度とトレンド予測の目的を改善し、より多くの注意を払うように集計データ、情報の消費量と使用、および機密データの所有権やビジネスモデルを提供しています。白書はまた、人々が社会人口統計学の前例のないリアルタイム分析に、新旧のデータを含め、今日使用できるデータ・リソースの偉大な富と指摘しました。政府は、利用可能なデータ資源の合理的な分析を表示することができれば、国連はまた、アイルランドと米国でのソーシャルネットワーキングの活動の成長に失業率の上昇の初期の兆候として機能することができ、例えば、迅速な対応「への両方の数」となります。

アリババグループの経営に設定するビッグデータの価値を活用する2012年7月、「チーフ・データ・オフィサー、」ポスト、包括的「データ共有プラットフォーム」戦略を推進する責任、および大規模なデータ共有プラットフォームを発表- 「ポリスパイア」 Lynxのために、淘宝網のデータプラットフォーム上での電力プロバイダや電気の供給業者や他のサービスプロバイダは、クラウドサービスを提供しています。その後、2012年にアリババジャック・マーの取締役会の会長、ネット「会議でのスピーチを、2013年1月1日からの変換プラットフォーム、財務データと3つの事業を再構築すると発表しました。馬は強調し:.「我々は予測データセットを持っている場合は、GPSやレーダーを装備し、企業のように、あなたが海に自信になります。」だから、アリババグループは、国や小規模のために共有し、大規模なデータマイニングしたいと考えています価値を提供する企業。この動きは、企業のビッグデータ管理にアップグレードする最初の国内企業で非常に重要なマイルストーンです。alibabaのは、データを介して企業の業務データの操作を提案する最初のものです。

2014年4月、世界経済フォーラムは「戻ってリスクビッグデータ」するテーマは、「グローバル情報技術レポート(13編)。」をリリース これは、ICT政策のさまざまな今後数年間で一層重要になると報告しています。以下では、活発な議論が機密データとネットワークの制御やその他の問題になります。ますますアクティブなグローバルデータ業界は、政府が経済発展を促進する上でビッグデータの重要性を実現するために来るように、革新的な技術の進化の開発と応用を加速し、公共サービスの向上、人々の幸福を改善し、さらには国家の安全保障に。

2014年、ホワイトハウスは、グローバルホワイトペーパー「ビッグデータ」「ビッグデータの2014年調査報告書を発表する可能性があります。機会、値の守護者をつかみます」。報告書では、特にそうでない分野では、このような改善をサポートしていない既存の機関と市場では、社会の進歩を促進するために、データの使用を奨励すると同時に、また、保護のためのアメリカ人を保護するために、適切なフレームワーク、構造や研究を必要とします個人のプライバシーや公正確保や確固たる信念の差別を防ぎます。

 

大規模なデータ関連技術の開発

ビッグデータ技術は、低コスト、高速取得、処理及び分析技術は、超大規模データの様々な値を抽出することで、次世代の技術およびアーキテクチャです。ビッグデータ技術が新興国や発展している、私たちは大量のデータを処理させるより安く、より簡単かつ迅速にデータアシスタント良い使用になった、あるいはビジネスモデル多くの産業、ビッグデータ技術の開発を変更するには、6つの主要な方向に分けることができます。

(1)在大数据采集与预处理方向。这方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IBM的Data Stage)。

(2)在大数据存储与管理方向。这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统和分布式数据库相关技术的发展正在有效的解决这些方面的问题。在大数据存储和管理方向,尤其值得我们关注的是大数据索引和查询技术、实时及流式大数据存储与处理的发展。

(3)大数据计算模式方向。由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询分析计算(如Hive)、批处理计算(如Hadoop MapReduce)、流式计算(如Storm)、迭代计算(如HaLoop)、图计算(如Pregel)和内存计算(如Hana),而这些计算模式的混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。

(4)大数据分析与挖掘方向。在数据量迅速膨胀的同时,还要进行深度的数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的R Hadoop版、基于MapReduce开发的数据挖掘算法等等。

(5)大数据可视化分析方向。通过可视化方式来帮助人们探索和解释复杂的数据,有利于决策者挖掘数据的商业价值,进而有助于大数据的发展。很多公司也在开展相应的研究,试图把可视化引入其不同的数据分析和展示的产品中,各种可能相关的商品也将会不断出现。可视化工具Tabealu 的成功上市反映了大数据可视化的需求。

(6)大数据安全方向。当我们在用大数据分析和数据挖掘获取商业价值的时候,黑客很可能在向我们攻击,收集有用的信息。因此,大数据的安全一直是企业和学术界非常关注的研究方向。通过文件访问控制来限制呈现对数据的操作、基础设备加密、匿名化保护技术和加密保护等技术正在最大程度的保护数据安全。

互联网的发展是大数据发展的最大驱动力

截至 2014 年 6月,我国网民规模达 6.32亿,较 2013年底增加1442 万人,互联网普及 46.9%,即接近一半的中国人在使用互联网。互联网的增长速度超越了很多人的预期:4年前即2010年6月,互联网普及率为31.8%,而仅经历了四年,互联网的普及率增加了超过15%。

 

更为重要的是,CNNIC的数据还显示,截至2014年6月,我国网民上网设备中,手机使用率达83.4%,首次超越传统PC整体使用率(80.9%),手机作为第一大上网终端设备的地位更加巩固,手机使得上网变得更加随时随地,手机上网更加渗透到人们的日常工作和生活中。

因此,互联网普及使得网民的行为更加多元化,通过互联网产生的数据发展更加迅猛,更具代表性。互联网世界中的商品信息、社交媒体中的图片、文本信息以及视频网站的视频信息,互联网世界中的人与人交互信息、位置信息等,都已经成为大数据的最重要也是增长最快的来源。

强力推荐阅读文章

大数据工程师必须了解的七大概念

云计算和大数据未来五大趋势

如何快速建立自己的大数据知识体系

おすすめ

転載: blog.csdn.net/tttttt012/article/details/91471203