El inventario más grande sistemática de la tecnología de datos, los datos se aprende la mitad Daniel

Hablando de grandes volúmenes de datos, muchas personas pueden hablar por un tiempo, pero si se le pregunta cuáles son la principal tecnología de grandes volúmenes de datos, se estima que muchas personas no pueden decir vinieron doce.

Para aprender de la máquina de visualización de datos, desarrollo de grandes volúmenes de datos ya ha tenido un árbol tecnología bastante madura, diferentes tecnologías tienen diferentes niveles de arquitectura técnica, sino también la aparición de nuevos términos técnicos cada año. Frente a dicha infraestructura compleja tecnología, una gran cantidad de primer contacto con grandes volúmenes de datos blancos casi siempre enormes proporciones.

De hecho, me gustaría saber qué datos grande es la tecnología básica es muy simple, nada más que tres procesos: el acceso a los datos, los datos de recuento, datos . Algunas personas podrían decir o pensar ciclo de vida de los datos demasiado vaga, grande desde el punto de vista, nada menos que cuatro términos simples: gran colección de datos, los datos de preprocesamiento grande, el almacenamiento de datos grandes, análisis de grandes volúmenes de datos , se unieron para formar datos de gran tamaño tecnología de la base del ciclo de vida, lo siguiente por separado:

Una gran colección de datos

adquisición de datos grande, es decir, masivas datos estructurados y no estructurados de diversas fuentes, la adquisición realiza.

  1. adquisición de bases de datos: populares son Sqoop y ETL, MySQL base de datos relacional tradicional y Oracle están también muchas compañías todavía actúan como una forma de almacenar datos. Por supuesto, la corriente de la fuente abierta Caldera y Talend en sí, pero los datos de contenido también integra una gran integrados, permitiendo que los datos entre hdfs, hbase e incorporar NOSQ la sincronización de bases de datos e integración.
  2. Red de recogida de datos: un tipo o por medio de una API abierta web rastreador sitio, para obtener los datos no estructurados o semi-estructurados de páginas web, y la recopilación de datos en los datos locales de su estructura unificada.
  3. colección de archivos: incluidas las tecnologías de captura y procesamiento de documentos en tiempo real de flujo, que la recopilación de registros y la adquisición gradual ELK-basan y así sucesivamente.

El inventario más grande sistemática de la tecnología de datos, los datos se aprende la mitad Daniel

ciclo de vida de adquisición de datos

En segundo lugar, la gran pre-procesamiento de datos

datos de gran tamaño preprocesamiento, en referencia a términos tales como "limpieza, llenado, suavizado, combinado, estandarizado, la comprobación de coherencia" y una serie de operaciones destinadas a mejorar los datos antes del análisis de datos, primero los datos en bruto realizadas recogieron calidad y sentar las bases para el trabajo posterior análisis. preprocesamiento de datos incluye cuatro partes: limpieza de datos, integración de datos, conversión de datos, estatuto datos . Desea que el sistema aprenda grandes volúmenes de datos , puede unirse a la gran tecnología de intercambio de datos para aprender abotonada Junyang: 522 189 307

El inventario más grande sistemática de la tecnología de datos, los datos se aprende la mitad Daniel

Ampliación de preprocesamiento de datos

  1. limpieza de datos: se refiere a las otras herramientas de limpieza ETL uso y, hay falta de datos (atributos de interés que faltan), los datos de ruido (datos actuales con error, o desviación de los datos de valor esperado), los datos de procesamiento de inconsistencias.
  2. Integración de datos: se refiere a los datos de diferentes fuentes de datos, combinados en un almacenamiento de base de datos unificada, método de almacenamiento, se centran en la solución de tres problemas: la coincidencia de patrones, redundancia de datos, detección de conflictos y el procesamiento de valores de datos.
  3. Conversión de datos: se refiere a los datos inconsistentes extraída presente en el proceso de tratamiento. También contiene el trabajo de limpieza a través de los datos, es decir, los datos anormales de acuerdo con las reglas de negocio de limpiar, para asegurar la exactitud de los resultados del análisis subsiguiente
  4. Estatuto de los datos: se refiere a la retención máxima sobre la base de los datos originales, la cantidad máxima de datos para agilizar la operación para obtener conjuntos de datos más pequeños, que comprende: un lado de recopilación de datos, reducción de la dimensión, la compresión de datos, estatuto numérica, el concepto de estratificación.

En tercer lugar, la gran almacenamiento de datos

almacenamiento de datos grande, la memoria se refiere al proceso en forma de una base de datos, para almacenar los datos capturados, que comprende tres rutas típicas:

1, la arquitectura MPP basado el nuevo clúster de base de datos

Uso de la arquitectura Shared Nada, combinado con la arquitectura MPP eficiente distribuye modelo, un gran número de datos técnicas de tienda de la columna, la indexación grano grueso, los datos clave para la industria de almacenamiento grande de datos expandidos de procesamiento de computación. Bajo costo, alto rendimiento, alta escalabilidad y otras características, ha sido ampliamente utilizado en el campo de las aplicaciones de tipo de análisis de negocios.

En comparación con la base de datos tradicional, basada en las capacidades de análisis de datos a nivel de PB productos MPP, tiene ventajas significativas. Natural, base de datos del MPP, se ha convertido en la mejor opción para una nueva generación de almacenamiento de datos empresariales.

2, basada en la expansión y la tecnología de envasado Hadoop

Hadoop basado expansión tecnológica y embalaje, y los datos de la escena son para una base de datos relacional convencional difícil de tratar (bueno en el manejo, datos semi-estructurados no estructurales (como para el almacenamiento de datos no estructurados y de informática), el uso de la característica de abierto y correlación Hadoop proceso ETL complejo de datos complejos modelos computacionales minería y, etc.), derivado de un gran proceso de la técnica relacionada de datos.

Con los avances en la tecnología, sus escenarios de aplicación se ampliarán gradualmente, en la actualidad la mayoría de los escenarios de aplicación típicos: para lograr el almacenamiento de datos de alta en Internet y por paquete de extensión Hadoop, el análisis de apoyo, lo que implica docenas de tecnologías NoSQL.

3, un gran datos de la máquina

Este es un análisis de los datos de gran tamaño diseñados de software y hardware productos de combinación. Se compone de un conjunto integrado de servidores, dispositivos de almacenamiento, sistemas operativos, sistemas de gestión de base de datos, así como la consulta de datos, el procesamiento, el análisis y la optimización del software pre-instalado, tiene una buena estabilidad y extensibilidad longitudinal.

El inventario más grande sistemática de la tecnología de datos, los datos se aprende la mitad Daniel

almacenamiento de datos de gran tamaño

En cuarto lugar, el análisis de gran minería de datos

A partir del análisis visual, la minería de datos, algoritmos de análisis predictivo, motor semántico, la gestión de calidad de los datos, los datos caóticos, el proceso de extracción, extracción y análisis.

1, el análisis visual

El análisis visual, en referencia a la ayuda de un medio gráfico de comunicar claramente y comunicarse eficazmente con las herramientas de análisis de información. Se utiliza principalmente en el análisis masivo correlación de datos, a saber, por medio de la plataforma de análisis de datos visual, para dispersar el análisis de correlación de datos heterogéneos, y hacer que el proceso completo gráfico de análisis.

Tiene una forma sencilla, clara e intuitiva, fácil de aceptar características.

El inventario más grande sistemática de la tecnología de datos, los datos se aprende la mitad Daniel

Visualización FineBI

2, algoritmos de minería de datos

algoritmos de minería de datos, a saber, mediante la creación de un modelo de minería de datos, y la prueba de los datos y cálculos, herramientas de análisis de datos. Es el núcleo teórico de análisis de datos de gran tamaño.

Una variedad de algoritmos de minería de datos, y debido a las diferentes algoritmos basados ​​en diferentes tipos de datos y formatos, estará mostrando un diferentes características de los datos. Pero, en general, para crear un modelo del proceso es similar a la que los datos suministrados por el usuario analiza en primer lugar, y después buscar patrones y las tendencias de un tipo particular de modelo de minería y crear parámetros óptimos definidos por los resultados del análisis y la aplicación de estos parámetros el sistema entero de los datos para extraer un modelo viable y estadísticas detalladas.

El inventario más grande sistemática de la tecnología de datos, los datos se aprende la mitad Daniel

funciones de minería de datos FineBI

3, el análisis predictivo

El análisis predictivo es una de las áreas más importantes de la aplicación del análisis de datos de gran tamaño, mediante la combinación de una variedad de funciones avanzadas de análisis (análisis especialmente estadístico, modelado predictivo, minería de datos, análisis de textos, análisis físico, optimización, de puntuación en tiempo real, aprendizaje de máquina, etc.) para lograr el propósito de la predicción de eventos inciertos.

tendencia apunta a ayudar a los usuarios analizar estructurados y datos no estructurados, patrones y relaciones, y para utilizar estos indicadores para predecir eventos futuros, constituyen la base para la acción.

El inventario más grande sistemática de la tecnología de datos, los datos se aprende la mitad Daniel

rendimiento esperado FineBI

4, un motor de semántica

motor semántico, se refieren a la operación mediante la adición de la semántica a los datos existentes, mejorar la experiencia del usuario de búsqueda en Internet.

5, la gestión de calidad de los datos

Se refiere a todas las etapas del ciclo de vida de los datos (planificación, adquisición, almacenamiento, distribución, mantenimiento, aplicación, muriendo, etc.) todo tipo de problemas de calidad de datos pueda surgir en la identificación, medición, monitoreo, alerta temprana y otras operaciones para mejorar los datos una serie de actividades de gestión de la calidad.


Lo anterior es de las grandes maneras, la tecnología marco de grandes volúmenes de datos en concreto hay muchos, he aquí algunos de ellos:

Archivo de almacenamiento: Hadoop HDFS, Taquiónica, KFS

cálculo fuera de línea: Hadoop MapReduce, la chispa

Streaming, en tiempo real cálculo: la tormenta, la chispa de Transmisión, S4, Garza

KV, la base de datos NoSQL: HBase, Redis, MongoDB

Gestión de recursos: hilado, mesos

la recopilación de registros: Canal de flujo, Scribe, Logstash, Kibana

sistema de mensajes: Kafka, StormMQ, ZeroMQ, RabbitMQ

Análisis: Colmena, impala, cerdo, Presto, Phoenix, SparkSQL, Taladro, Flink, Kylin, Druida

Servicios de coordinación distribuida: Zookeeper

la gestión de clusters y monitoreo: Ambari, ganglios, Nagios, Director de Cloudera

La minería de datos, aprendizaje automático: Mahout, la Chispa MLLib

La sincronización de datos: Sqoop

La programación de tareas: Oozie

······

Publicados 174 artículos originales · ganado elogios 3 · Vistas a 20000 +

Supongo que te gusta

Origin blog.csdn.net/mnbvxiaoxin/article/details/104829154
Recomendado
Clasificación