ビッグデータ技術システムの基本原理&&のNoSQLデータベース

1、NoSQLのは、生成された理由

　　リレーショナルデータベースは、その目的は、簡単な、分散、スケーラブルを構築することであるので（のNoSQLと呼ばれる）は、非リレーショナル・データベース構築、横方向に比較的弱い拡張分散大量データの増加に対処することは困難です効率的で新しいデータベース・システムを使用して簡単にできます。

2、NoSQLの機能

NoSQLのは、一般的に分散ファイルシステム、統合管理とデータテーブルのメンテナンス、かつ迅速に分散して書き込む単純なクエリ機能を提供します。

素敵な事業への1つの一般のNoSQLソフトウェアは、学生を必要とします
第二に、よく知られているソフトウェアは、オープンソースのNoSQLです

3、NoSQLの典型的なアプリケーション・シナリオ

膨大なログデータ、業務データ、または監視データの管理とクエリ
簡素化された特別なまたは複雑なデータモデル
データウェアハウス、データ・マイニング、OLAPシステムのバックエンド・システムまたはデータ・サポートとして

データウェアハウス：エンタープライズ管理と意思決定のサブジェクト指向、統合され、時間に関連する、非修正データセット。

データウェアハウスのデータソースは、均一なパターンにデータを変換する、例えば洗浄、抽出、変換動作として、動作する複数のデータ、及びデータ前処理から収集することができます。処理されたデータは、データ・コンテンツは、ビジネス及び運用の歴史的変化を反映し、データのサブジェクト指向統合、安定したセットを形成する、意思決定の必要性に応じて開催されます

データマイニング：データ便利な新モデルの集中型の検出プロセスから大量。

OLAP：オンライン分析処理、OLAPは、人事データ分析のためのデータ・ウェアハウス・アプリケーション、政策立案者や一般に基づいたシステムとして見られ、クエリおよび特定のビジネステーマのために大量のデータを分析することができます

OLTP：オンライントランザクション処理、ビジネスシステムのトランザクションベースの従来のリレーショナルデータベースの実装、すなわち使用。

データベース：ソフトウェアコンテナデータや倉庫の構成情報に応じてデータを格納し整理するデータの収集、

4、リレーショナルデータベースとNoSQLの間の差

リレーショナル・データベースは、トランザクションデータの整合性と一貫性を維持するために、データと同様に複雑な操作をサポートするために、より良いことができます
分散環境でのデータのシンプルな非リレーショナル・データベース管理およびクエリ

5、ビッグデータ技術システム

5.1の機能

大容量、多様化、高速、貴重な、フルラインのデータ：これは、いくつかの主要な機能が含まれています

多様性：データサービスが異なるビジネス、異なるデータ形式、異なる領域から同時にデータ処理システムの種類の多種多様を必要とし得ます。また、半構造化されてもよい（例えば、ログが）（例えば、動画や写真、など）と非構造化データを処理しています

5.2買収

大型データ取得処理：生データは、大規模な分散データ管理システムのプロセスにロードされます。集会の2つの方法があります。

オンラインコレクション：直接データソースの変更、生成され、大規模なデータシステムにロードされ、リアルタイムまたは準リアルタイム取得に新たなデータを監視します。ロードのプロセス：プッシュまたはプルモード、で、データ配信サービスイニシアチブは、データを表示し、データを取得します
オフラインコレクション：大規模データシステム、定期的な方法は、データソースからデータをアップロードします。

5.3メモリ

これは、分散アーキテクチャを使用し、ネットワーク経由でのアクセスを提供します。

DASは：直接接続ストレージ、ストレージデバイスは、サーバに直接ケーブルを介してです
NAS：ネットワークアクセスストレージ、ネットワーク、通常は標準のTCP / IPネットワークに接続された記憶装置。プロトコル（NFS）ネットワークファイル保存されたクライアントアクセスデータ
SAN：ストレージエリアネットワーク、多くの場合、光ファイバコネクタを使用して別のネットワーク・ストレージ・デバイス、。
クラウドストレージ：サービスoutとして保存。

クラウドストレージの利点：

ユーザーのストレージ機器と管理ソフトウェアを購入する不要になったが、ネットワークインタフェースリースストレージサービスを使用して
ユーザーは、もはやが、データのバックアップやシステムメンテナンスのためのクラウドストレージサービスプロバイダに支払うことによって、操作およびストレージシステムのメンテナンスを実行する必要がありません

クラウドストレージの一般的なタイプ

オブジェクトストア：コンテナへのデータ、データの各ブロックにアクセスするためにHTTPまたは安らか層界面のようなクライアントアプリケーションを使用して、メタデータ
ファイルストレージ：NASベースのサービスのクラウドモデルを達成するために、あなたが雇うことができ、メンテナンスフリーのネットワークファイルシステム
ブロックストレージ（ストレージボリューム）：仮想ドライブ文字がクラウドホスト機能に実装することができるマウント（例えば、仮想ストレージボリュームは、ディスクDのWindowsホストにマッピングされている）、及びホストミラーリングとスナップショットクラウドストレージおよびその他の機能
キーと値のペアのストレージ：クラウドプラットフォーム上のキーのNoSQLデータベースフォームの直接実装、無料のインストール、メンテナンスフリー、ユーザーが直接使用することができます
データベースのストレージ：クラウドプラットフォーム、リレーショナル・データベースへの直接実装
スナップショットの保存およびミラー化されたストレージ：ストアのスナップショットへのクラウドプラットフォーム上の仮想マシンイメージとインスタンス。通常、ブロックベースのストレージの実装
メッセージキュー格納：非同期メッセージは、分散システムにおける通信の重要な手段です。通常、メッセージの送信者は、受信のためのメッセージと待機を受け、安全な貯蔵容器にメッセージを送信します。

5.4 大数据的管理和使用

原因：将数据汇总到一处，很难实现且效率低下。

遵循“计算本地化”策略，所谓计算本地化，首先需要将数据存储在多个网络节点之上，各个节点既是存储节点也是处理节点。

查询和处理数据时，将查询指令或处理数据所需的程序分发都各个节点，每个节点只处理或分析一部分数据，最好是本节点的数据。程序随数据移动的并行处理的方式，在较短时间内完成了处理任务

NoSQL系统会自行实现分布式存储，例如MongoDB系统；HBase系统基于HDFS分布式文件系统构建，并将所有文件操作交给HDFS，自身只负责数据库表的操作

大数据的存储和管理实现了文件方式的大数据管理，但对大数据的使用存在困难，无法直接看出数据结构和关系，没有库表的概念

NoSQL等工具会对大数据实现表格化管理、快速查询支持，以及提供数据库系统的集群的监控、扩展等维护管理功能。

NoSQL在大数据业务中的基本功能就是实现：分布式数据组织、管理和分布式数据查询，有两种方式。

第一种是半结构化存储的大数据文件映射为表，即对文件进行纵向分割，对每个列定义其名称和属性，将这些名称属性作为元数据管理起来，即实现表格化管理。由于是分块存储，映射成表后，也可以实现分布式查询
第二种是要求数据按照自身所规定的格式进行存储，可能需要通过数据导入等方式将原始数据按照新的格式重新存储一遍

分布式环境下大数据可以的操作：预处理、数据统计分析、数据挖掘

　　预处理工具：Hadoop的MapReduce模块、Spark

　　大数据挖掘和机器学习引擎：hadoop的Mahout、Spark的Mlib、谷歌的TensorFlow

6、数据可视化

从形式上可以大致分为统计图形和主题图两类

7、大数据安全和治理

7.1 身份管理和访问控制

身份管理：对用户身份(凭证)的管理和身份认证。
访问控制：指按照用户的身份或属性来限制和管理用户对资源的访问权限

大数据场景下，数据存储在集群环境中，且集群节点随数据增长而添加。除了要解决客户端访问集群时的认证授权问题，还要解决集群间各节点的认证授权问题，以防止攻击者冒充某个服务节点。NoSQL数据库提供了基于用户名口令的认证与授权方式，实现客户端到服务器的认证授权，Hadoop等大数据系统提供了Kerberos认证的身份管理和权限管理，一方面提供对客户端的身份认证，另一方面提供节点或组件之间的身份认证

7.2 大数据加密

主要包括传输加密和存储加密

数据存储加密，常见的策略是将加密的数据上传到存储平台，使用时下载到本地再解密
传输加密，不仅要解决加密算法的问题，也要解决秘钥传输和身份认证等一系列问题，通过SSL协议和数据分块后进行透明加密等方式解决这些问题

Hadoop目前采用SSL协议和数据分块后进行透明加密等方式

隐私保护和准标识符保护