Cree una arquitectura de lago de datos desde cero

Autor: Zen y el arte de la programación informática

1. Introducción

Con el aumento en la cantidad de datos de Internet, la generación de datos masivos y la liberación de valor, y la amplia aplicación de tecnologías emergentes como la computación en la nube, los grandes datos y la inteligencia artificial, la arquitectura del lago de datos se ha convertido en una de las más populares. temas en el campo del análisis de datos empresariales. Este artículo presentará los conceptos básicos y la terminología del lago de datos desde tres aspectos: la definición, las características y la estructura de la arquitectura del lago de datos. Luego, mostrará a los lectores cómo usar herramientas de código abierto para construir un lago de datos a través de múltiples casos específicos. Finalmente, discutiremos la dirección futura y las perspectivas.

2. ¿Qué es un lago de datos?

Data Lake, el nombre en inglés de Data Lake, es un almacén de datos basado en la nube. En enero de 2014, Amazon Bezos anunció que incluiría oficialmente su marca comercial "Amazon Web Services Glacier" de activos de datos. La marca hace referencia al "lugar sagrado" de Amazon para almacenar, recuperar y analizar grandes conjuntos de datos en la nube. Hoy en día, los lagos de datos se han convertido en una herramienta importante para que las empresas realicen análisis de datos y tomen decisiones. La adquisición, el procesamiento y el análisis de datos suelen ser costosos, y un lago de datos puede reducir significativamente este costo al tiempo que brinda mejores capacidades de descubrimiento de valor. La arquitectura del lago de datos es una solución para almacenar y administrar de manera efectiva grandes conjuntos de datos durante la construcción de la infraestructura de big data. Según las estadísticas, el mundo genera más de 10 mil millones de datos todos los días, y el desarrollo de lagos de datos ha promovido en gran medida la liberación de valor de los datos. Las características de un lago de datos incluyen principalmente los siguientes aspectos:

  1. Diversidad de fuentes de datos: las fuentes de datos en la arquitectura del lago de datos incluyen no solo fuentes de datos de diferentes categorías, como bases de datos, sistemas de archivos, colas de mensajes y sistemas de registro, sino también otras fuentes de datos, como redes sociales, correos electrónicos e IoT. dispositivos, aplicaciones móviles, etc.;
  2. Gran escala de datos: la arquitectura del lago de datos puede ayudar a los usuarios a administrar datos masivos de manera efectiva, especialmente después de que se unen varias fuentes;
  3. El valor del análisis de datos y la toma de decisiones: la arquitectura del lago de datos puede ayudar a los usuarios a realizar análisis de datos y toma de decisiones de manera rápida y eficiente, y también puede proporcionar una gran cantidad de visualización, aprendizaje automático y otros servicios;
  4. Intercambio de datos y colaboración: Datos

Supongo que te gusta

Origin blog.csdn.net/universsky2015/article/details/132255984
Recomendado
Clasificación