El principio básico del sistema de gran tecnología de datos de base de datos NoSQL &&

1, la razón genera NoSQL

  base de datos relacional es difícil de tratar con el aumento de los datos de masa, distribuidos extendido lateralmente relativamente débil, por lo construido bases de datos no relacionales (llamados el NoSQL), su propósito es construir un simple, distribuido, escalable, eficiente y fácil de usar el nuevo sistema de base de datos.

2, características NoSQL

NoSQL generalmente proporciona almacenamiento distribuido de datos, gestión unificada y el mantenimiento de tablas de datos, y distribuidos de forma rápida y escribir un simple capacidades de consulta.

  • Un conocido software de NoSQL al encuentro de negocios necesita estudiantes
  • En segundo lugar, el software bien conocido es de código abierto NoSQL

3, escenarios de aplicación típico NoSQL

  • masiva de datos de registro, los datos de negocio, o el seguimiento de la gestión de datos y consulta
  • modelos de datos complejos especial simplificado o
  • Como un almacén de datos, minería de datos, los sistemas de back-end sistema OLAP o soporte de datos

Almacén de datos : orientada a objeto, integrado, relacionada con el tiempo, conjunto de datos no modificables de la gestión empresarial y la toma de decisiones.

fuentes de datos del almacén de datos pueden ser recogidos de la pluralidad de datos operativos, y los datos de procesamiento de Pre, tales como operaciones de lavado, extracción y conversión, la conversión de datos en un patrón uniforme. Los datos procesados ​​se organizarán de acuerdo a las necesidades de toma de decisiones, la forma, integrada orientada a objeto, conjunto estable de datos, contenido de los datos refleja los cambios históricos en los negocios y operaciones

Minería de datos: de proceso de descubrimiento de grandes cantidades centralizados de datos nuevo modelo útil.

OLAP : Online Analytical Processing, OLAP se puede considerar como un sistema basado en las aplicaciones de almacenamiento de datos, los políticos y la general para el análisis de datos personal, consultar y analizar grandes cantidades de datos por temas específicos de la empresa

OLTP : procesamiento de transacciones en línea, a saber, el uso de las implementaciones tradicionales de bases de datos relacionales transacciones del sistema de negocio basado.

Base de datos : Colección A de datos, para almacenar y organizar los datos de acuerdo con la información de configuración de datos de contenedor de software o almacén

4, la diferencia entre la base de datos relacional y NoSQL

  • bases de datos relacionales son más capaces de mantener la integridad y la coherencia de los datos de transacción, así como para apoyar operaciones complejas en los datos
  • Sencillo no relacional de gestión de base de datos y consulta de datos en un entorno distribuido

5, el sistema de tecnología de datos grande

5.1 características

Contiene varias características importantes: gran capacidad, diversificada, de alta velocidad, valiosos, datos de línea completa

  • Diversidad: el servicio de datos puede requerir una gran variedad de tipos de sistemas de procesamiento de datos al mismo tiempo desde diferentes negocios, diferentes formatos de datos, diferentes áreas. También puede ser semi-estructurado (por ejemplo, registros) se procesan (por ejemplo, vídeos y fotos, etc.) y datos no estructurados

5.2 Adquisición

Large proceso de adquisición de datos: los datos en bruto se carga en el proceso de grandes sistemas de gestión de datos distribuidos. Hay dos formas de recolección:

  • colección en línea: monitorizar directamente los cambios de fuentes de datos, los nuevos datos en tiempo real o adquisición casi en tiempo real generados y cargados en el sistema de datos de gran tamaño. El proceso de carga: empuje o modo de extracción, es decir, la iniciativa de servicio de distribución de datos para ver los datos y obtener los datos
  • colección en línea: gran sistema de datos de forma periódica para cargar datos desde un origen de datos.

5.3 memoria

Se utiliza una arquitectura distribuida, y proporciona acceso a través de la red.

  • DAS: almacenamiento de conexión directa, dispositivos de almacenamiento es a través de un cable directamente al servidor
  • almacenamiento de acceso a la red, un dispositivo de almacenamiento conectado a la red, por lo general de una red TCP / IP estándar: NAS. los datos de acceso de cliente almacenada Protocolo de archivos (NFS) Red
  • SAN: red de área de almacenamiento, un separadas dispositivos de almacenamiento en red, a menudo utilizando un conector de fibra óptica.
  • almacenamiento en la nube: el almacenamiento como un servicio de salida.

Nube de almacenamiento ventajas:

  • Los usuarios ya no hay necesidad de comprar equipos de almacenamiento y software de gestión, sino a través del uso de la interfaz de red arrendada de servicios de almacenamiento
  • Los usuarios ya no tienen que llevar a cabo la operación y mantenimiento de sistemas de almacenamiento, pero mediante el pago al proveedor de servicios de almacenamiento en la nube para la copia de seguridad de datos y el mantenimiento del sistema

Los tipos más comunes de almacenamiento en la nube

  • almacenes de objetos: los datos en un recipiente, usando una aplicación de cliente como http o interfaz de capa reparador para acceder a cada bloque de datos y metadatos
  • Archivo de almacenamiento: modelo de nube servicio basado en NAS para lograr, se puede contratar, Sistema libre de mantenimiento de archivos de red
  • Bloque de almacenamiento (volumen de almacenamiento): montar una letra de unidad virtual puede ser implementada en la función de anfitrión nube (por ejemplo, un volumen de almacenamiento virtual está asignado en el disco D ventanas anfitrión), y el reflejo de host y el almacenamiento de instantáneas nube y otras funciones
  • Clave-valor de almacenamiento par: aplicación directa de la base de datos NoSQL forma clave en la plataforma en la nube, libre de la instalación, sin necesidad de mantenimiento, los usuarios pueden utilizar directamente
  • almacenamiento de base de datos: aplicación directa en una base de datos relacional plataforma en la nube
  • el almacenamiento de instantáneas y almacenamiento duplicado: imágenes de máquinas virtuales e instancias en la plataforma de nube para almacenar instantáneas. Por lo general, la aplicación de almacenamiento basado en bloques
  • tiendas de cola de mensajes: un mensaje asíncrono es un medio importante de comunicación en un sistema distribuido. Por lo general, el remitente del mensaje envía un mensaje a un contenedor de almacenamiento seguro, recibir el mensaje y espera para el receptor.

5.4 大数据的管理和使用

原因:将数据汇总到一处,很难实现且效率低下。

遵循“计算本地化”策略,所谓计算本地化,首先需要将数据存储在多个网络节点之上,各个节点既是存储节点也是处理节点 。

查询和处理数据时,将查询指令或处理数据所需的程序分发都各个节点,每个节点只处理或分析一部分数据,最好是本节点的数据。程序随数据移动的并行处理的方式,在较短时间内完成了处理任务

NoSQL系统会自行实现分布式存储,例如MongoDB系统;HBase系统基于HDFS分布式文件系统构建,并将所有文件操作交给HDFS,自身只负责数据库表的操作

大数据的存储和管理实现了文件方式的大数据管理,但对大数据的使用存在困难,无法直接看出数据结构和关系,没有库表的概念

NoSQL等工具会对大数据实现表格化管理、快速查询支持,以及提供数据库系统的集群的监控、扩展等维护管理功能。

NoSQL在大数据业务中的基本功能就是实现:分布式数据组织、管理和分布式数据查询,有两种方式。

  • 第一种是半结构化存储的大数据文件映射为表,即对文件进行纵向分割,对每个列定义其名称和属性,将这些名称属性作为元数据管理起来,即实现表格化管理。由于是分块存储,映射成表后,也可以实现分布式查询
  • 第二种是要求数据按照自身所规定的格式进行存储,可能需要通过数据导入等方式将原始数据按照新的格式重新存储一遍

分布式环境下大数据可以的操作:预处理、数据统计分析、数据挖掘

  预处理工具:Hadoop的MapReduce模块、Spark

  大数据挖掘和机器学习引擎:hadoop的Mahout、Spark的Mlib、谷歌的TensorFlow

6、数据可视化

从形式上可以大致分为统计图形和主题图两类

7、大数据安全和治理

7.1 身份管理和访问控制

  • 身份管理:对用户身份(凭证)的管理和身份认证。
  • 访问控制:指按照用户的身份或属性来限制和管理用户对资源的访问权限

大数据场景下,数据存储在集群环境中,且集群节点随数据增长而添加。除了要解决客户端访问集群时的认证授权问题,还要解决集群间各节点的认证授权问题,以防止攻击者冒充某个服务节点。NoSQL数据库提供了基于用户名口令的认证与授权方式,实现客户端到服务器的认证授权,Hadoop等大数据系统提供了Kerberos认证的身份管理和权限管理,一方面提供对客户端的身份认证,另一方面提供节点或组件之间的身份认证

7.2 大数据加密

主要包括传输加密和存储加密

  • 数据存储加密,常见的策略是将加密的数据上传到存储平台,使用时下载到本地再解密
  • 传输加密,不仅要解决加密算法的问题,也要解决秘钥传输和身份认证等一系列问题,通过SSL协议和数据分块后进行透明加密等方式解决这些问题

Hadoop目前采用SSL协议和数据分块后进行透明加密等方式

隐私保护和准标识符保护

Supongo que te gusta

Origin www.cnblogs.com/wendyw/p/12623978.html
Recomendado
Clasificación