lago de la primavera no es fácil, pero el lago casa todavía se puede hablar de datos ......

De hecho, el concepto de "lago de datos" desde hace mucho tiempo, si el tiempo se remonta a cerca de 2011.

Hoy en día, el lago de datos que a menudo hecho mencionado puede ser considerado como un repositorio centralizado seguro, cualquier usuario puede escalar para almacenar, gestionar, buscar y compartir todos los datos estructurados y no estructurados, proceso sin la arquitectura predefinida.

Jutilaiyue, los datos de la práctica actual de la vista del lago, centralizada en datos que básicamente se puede atribuir a tres tipos, a saber datos de alto valor de los sistemas de negocios estructurados y, aunque pocos datos y relaciones compleja, una gran operación de masa corporal y la clase de registro de datos de mantenimiento, a pesar de que el valor no es alto, pero indispensable en el funcionamiento normal de la infraestructura de TI de la empresa, y otros datos no estructurados en forma de audio, vídeo y otros conocidos en sí, sino más destacado el valor de polimerizarse y analizar la probabilidad es pequeña.

En general, los diferentes tipos de necesidades de datos con el dispositivo de almacenamiento diferenciado para ahorrar, y ahora necesitan ser puestos en una piscina puede ser una variedad de diferentes interfaces de completar la llamada, hicieron una gran cantidad de desafíos, pero el lago es de datos sólo para hacer frente a esto, proporcionar datos a las personas adecuadas a través de la laguna será a los datos de tiempo apropiados, sin tener que preocuparse por la gestión de diferentes lugares de acceso a los datos almacenados, sino que también proporcionan una fuerte protección de la confidencialidad y seguridad de los datos, por qué no?

Más datos acerca de los alrededores del Lago ¿Qué?

De acuerdo con una encuesta muestran datos que Aberdeen, organización y ejecución de los datos lago 9% mayor en el crecimiento orgánico de los ingresos de empresas similares. La razón, los datos no sólo puede resolver el problema del lago conveniente para el almacenamiento de datos, mientras que los métodos tradicionales para lograr el análisis de compatibilidad de almacenamiento de datos y probar nuevos tipos de análisis, tales como los archivos de registro, datos de navegación de los medios de comunicación social, y se almacena en nuevas fuentes de datos en los dispositivos conectados a Internet lago, como el aprendizaje de máquina, con el fin de tomar decisiones inteligentes.

Es concebible que el lago como una poderosa máquina de aprendizaje de base de datos y la inteligencia artificial, aprendizaje automático puede ayudar el uso de algoritmos estadísticos para aprender de los datos existentes, también conocido como el proceso de formación, para tomar decisiones sobre los nuevos datos. En concreto, durante el entrenamiento va a identificar patrones y relaciones en el modelo de datos, y el modelo de datos será la clave para la toma de decisiones inteligentes, por lo que el doble característica del lago es en realidad muy adecuado para los científicos e investigadores de datos para consulta de datos exploratorios y el análisis, algunas investigaciones, el servicio hacia el futuro.

Hablar mucho acerca de los datos en el lago impresionante, ya sea a nivel técnico, el lago y los datos ahora oft bases de datos, almacenes de datos e incluso cómo la relación entre conjuntos de datos en? Es bien sabido, una sola base de datos se encuentra en los datos de aplicación, en el que el almacenamiento de datos, hay puntos relacionales y no relacionales; base de datos de almacenamiento de datos es una forma optimizada para el análisis del sistema de transacción y la línea de aplicaciones de negocios datos relacionales, estructuras de datos pre-definidos y esquema para consultas SQL optimizar rápidamente, los resultados de los que se utilizan por lo general para las operaciones de informes y análisis.

De hecho, antes de que el concepto de los mercados de datos de almacenamiento de datos, así como, la mayoría de los datos sectoriales se pueden poner en él, pero pocos creen que más grano para la definición de un almacén de datos o de clase empresarial, a gran escala, la empresa de TI también no puede ser ignorada contenido, pero debido a los requisitos de almacenamiento de datos más limitado, no es capaz de adaptarse a la rápida evolución de los cambios de datos, era del lago serán transportados los datos han llegado; por el contrario, con diferencias significativas en el almacén de datos, los datos del lago principal de almacenamiento de datos de línea de aplicaciones de negocio programa de datos relacionales y aplicaciones móviles, dispositivos IO de datos no relacionales y los medios sociales. Cuando la captura de datos, estructuras de datos definidas o de esquema, puede almacenar todos los análisis de datos y el uso de diferentes tipos (por ejemplo, consultas SQL, análisis de grandes volúmenes de datos, búsqueda de texto completo, análisis en tiempo real y de aprendizaje automático) para obtener las vistas correspondientes.

En la base de datos completa y almacenamiento de datos, la cara de fuego de datos hoy en día en Taiwan, AWS Cloud Computing Zhang Xia, consultor jefe de estrategia corporativa, dijo, de hecho, los conjuntos de datos a largo plazo no están especializados datos de la industria, más como la era de Internet en la arquitectura de aplicación profesional sustantivo.

En resumen, los datos del lago emergieron con más fuerza gracias a la nube de tecnología informática para proporcionar almacenamiento masivo y la posibilidad de un gran número de convenientes, computación de alto rendimiento, en otras palabras, es precisamente porque la nube para traer innovaciones tecnológicas tienen un conjunto de datos a través del lago vaciar nacido.

Lago AWS los servicios de datos ¿Cuántos detalles vale la pena?

A medida que la nube se encuentra todavía en una edad temprana, AWS se ha abierto en este esfuerzo para el cambio tecnológico como el tema principal del drama de apertura, Qiazhiyisuan desde 2006, se ha pasado por más de una docena de años, ya que en este proceso datos de la exploración del lago es continuo y sin fin. En resumen , AWS Lago datos divididos orgánica en la importación de datos, análisis de datos y almacenamiento de datos y otras medidas importantes, acompañado por la aparición de un servicio correspondiente migración de datos de expertos, Amazon almacenamiento S3 y otros servicios, y Amazon basados en clases de análisis de juego RedShift y otros servicios, como si los datos situados en la misma una solución lago.

Vemos, los servicios de datos de AWS Lake basado principalmente en la construcción de un servicio de almacenamiento de objetos S3. Amazon S3 como una alta durabilidad, objetos de servicio de almacenamiento rentables puede apoyar un formato de datos abierta, mientras que el almacenamiento de la calculada se desacoplan, y se puede hacer con todos los análisis de matriz de integración de servicios arte AWS utilizado. Se entiende menos cristalino, Amazon S3 proporciona durabilidad 11 9 3 arquitectura disponible alta elasticidad región, y más opción de copia y separación región, y un almacenamiento prolongado independiente y potencia de cálculo, a fin de proporcionar los datos más Lake buena capa de almacenamiento.

Después de una cuidadosa investigación, se encontró que, de hecho, el ciclo de vida de datos contiene una gran cantidad de contenido, la necesidad de datos más primas para maximizar el diseño del control razonable para garantizar la calidad de los datos en la fuente. "Datos pueden ser almacenados en Amazon S3 a la cabeza, para ser tratado de acuerdo con el orden de los diferentes datos, características y la naturaleza, esto es una capacidad de gestión de ciclo de vida automatizados." Concluyó Zhang Xia.

Vale la pena mencionar que en el AWS enorme lago lleno de servicios de datos, hay un servicio de consulta interactiva llamada estilo único de AWS Athena. En cuanto a la especial, que se utiliza principalmente la arquitectura hoy en día muy popular no-servidor, se puede hacer sin tener que configurar o gestionar la infraestructura puede analizar fácilmente los datos utilizando SQL estándar directamente desde Amazon S3, y no hay procesos ETL complejos.

Se entiende, servicio de Athena utiliza Presto, que es un motor de SQL distribuido para ejecutar la consulta, usando Apache Hive para crear, modificar la colocación y la tabla de particiones y se pueden preparar de forma rápida, de acuerdo con las especificaciones de la colmena y declaraciones ANSI SQL DDL en el Editor de consultas declaración; también ser utilizado en el que la función de ventana de acoplamiento complejo y tipos de datos complejos. Athena se debe a que cuando el método de modo de lectura (esquema-en-lectura) llamado, por lo que fácilmente puede ser proyectada sobre los datos del esquema de destino al realizar una consulta.

Además, una parte importante de los mismos datos que el S3 Lago Amazon AWS pegamento con AWS Athena como también manchado hay servicio de tecnología de luz, no teniendo servidor de alojamiento, operación funcional, para los datos modernos proporcionan un análisis de datos y directorio de conversión servicio.

En general, este es un directorio de datos totalmente gestionada y ETL (extracción, transformación y carga) de servicios, se puede hacer para simplificar y automatizar la detección de datos, la transformación y el trabajo de programación de tareas difícil y requiere mucho tiempo. Después de todo, se observó que el uso de los datos del usuario en la arquitectura lago para la solución de análisis de datos, por lo general el 75% del tiempo dedicado a las tareas de integración de datos, es necesario extraer datos de diferentes fuentes de datos, a su normalización, y cargarlo en el almacenamiento de datos en lugar de AWS pegamento elimina la duplicación de toda la infraestructura de puestos de trabajo de ETL.

Crystal menos informado, AWS pegamento se puede reconocer en formato de datos de uso común y el tipo de datos de los clasificadores de pre-construcción (entonces) clasificadores fuente de datos de construcción a buscar directorio de datos, incluyendo CSV, Apache parqué, JSON similares; puede hacer a través de varios servicios para crear un repositorio de metadatos unificado, traen esquema de origen de datos para encontrar y utilizar el directorio de datos de definiciones nuevas y revisadas tabla de particiones y de relleno y hacer el mantenimiento de control de versión de esquema y, además, también puede utilizar sus capacidades para ETL completamente gestionada o la conversión de datos para convertirlo en un formato de columna, para optimizar los costes y mejorar el rendimiento. En general, crear puestos de trabajo de ETL al simplificar el proceso, AWS pegamento permite a los usuarios construir escalable, datos fiables plataformas de listas que puede abarcar miles de puestos de trabajo de ETL, con incorporado en la resolución de dependencias, programación, gestión de recursos y supervisión función, más fácil a través de una variedad de almacenamiento de datos, la recuperación y la gestión de todos los datos, sin manipulación manual.

Un poco más de preocupación, AWS pegamento puede y AWS y AWS Lambda funciones paso de estos servicios no-servidor juntos, y hacerlo en conjunto con la máquina de aprendizaje y tecnologías de inteligencia artificial, incluyendo la colaboración con Amazon SageMaker análisis predictivo automática más completa, lo que es más sorprendente. En este sentido, Zhang Xia dijo, tiene ahora más de 100 servicios de AWS para apoyar cualquier lago casos de uso de datos, más opciones de procesamiento de consulta de servidor-situ pueden acortar el tiempo para obtener resultados y conocimientos para reducir los costos.

"Con AWS pegamento en la zona lanzado formalmente AWS China (Ningxia) operado por los datos West nube, los clientes regionales de China pueden transferir fácilmente cualquier número de fuentes de datos y los datos de proceso de, integrar datos en los datos y se puede elegir una variedad de AWS Lago servicios de análisis y rápidamente comenzó a analizar todos los datos. "AWS vice presidente mundial y director de la Gran china Zhang Yi concluyeron.

Hablando en los servicios de datos de soporte de línea lago con más casos del caso, de hecho, ya en agosto pasado, AWS dio a conocer un nuevo servicio llamado AWS formación lago, aunque todavía no está puesto en uso en línea en China, pero es ampliamente preocupaciones de la industria, principalmente debido a que el servicio será simplificar los datos fuera del lago, en términos del proceso de creación de una gran cantidad de ayuda.

Por ejemplo, se crearon originalmente para trabajar dentro de unos meses puede ser completado dentro de unos pocos días, y completa la colección de la base de datos y objeto de almacén de datos y clasificar, mover datos al lago Amazon S3 nuevos datos, utilizando la máquina de algoritmos para la limpieza de los datos y la clasificación de aprendizaje y el acceso seguro a los datos sensibles y otros trabajos relacionados.

Los detalles técnicos, AWS formación lago mediante la identificación de una base de datos relacional existente o de datos NoSQL S3 y almacenada en los datos de la base y moverla hacia el lago; después de la captura de datos, catalogación y preparado para llevar a cabo el análisis, lo que permite a los usuarios mediante el análisis de la seguridad de acceso de autoservicio a los datos de su elección, además de otros servicios de AWS y las aplicaciones de terceros pueden acceder a los datos para lograr sus objetivos a través de la pantalla del modo de servicio. En este punto, los servicios de datos lago tres elementos más importantes, a saber, Amazon S3 / glaciar, AWS y AWS pegamento formación lago recogen toda marcha.

Después de tanto hablar de los detalles técnicos de AWS lago servicios de datos, presumiblemente más Dime muy preocupados por una cosa: ¿qué tipo de datos de masa corporal o de nivel empresarial para el uso del lago? En este sentido, Zhang Xia realmente pensar en todos los tamaños, así como el sector empresarial puede adoptar la idea de construir un conjunto de datos lago dentro de la plataforma de aplicaciones de datos, pero en comparación con las pequeñas y medianas empresas, las grandes empresas utilizan para hacer este análisis de datos cada vez más complejos solamente. lago AWS en el despliegue de los datos empresariales internos, por ejemplo, es la esencia de hasta 600.000 tareas de análisis más cotidianas que implican recomendaciones de los usuarios, la información operativa, así como el inventario de compra y otros sectores, para el análisis de datos eficiente y el servicio como la competitividad de la base Lago la fuerza continúa hasta nuestros días.

Además, de acuerdo con Jing poco conocida, en el año 2016 por los datos Cavendish establecidos en Hangzhou Factory Club, también se ha asociado con el uso de datos de AWS do Lago datos de servicios para los clientes que buscan una amplia variedad de productos en el mundo.

Ese día el procesamiento de 1,5 mil millones de una variedad de análisis de comportamiento, para movilizar el apoyo 180 tareas de análisis de datos con el fin de llegar a un lanzamiento de usuario del producto, análisis de operaciones interna y proveedores de innovación de gestión y otros objetivos. Por supuesto, de hecho, hay muchos ejemplos de este tipo, tales como los usuarios más de tres millones de pequeños AWS libro rojo utilizan grandes cantidades de almacenamiento de datos de datos de registro lago y fotos de la comunidad, comentarios, expresiones y otros datos no estructurados para analizar las preferencias del usuario; un mil nivel fluido millón de usuarios mediante el uso de los datos de AWS establecieron un gran lago " los chinos de la base de datos del habla Inglés ", el desarrollo de habla Inglés basada en esta evaluación, la escritura Inglés y la profundidad de los motores de puntuación de sistemas de aprendizaje adaptativo.

Desde 2011 hasta ahora, los datos de Lago fragmentados soluciones de código abierto a los actuales AWS servirá de integración clave uniformes, soluciones basadas en estándares, la aplicación de los más poderosos; cuando las cosas se pueden imaginar, 5G, la computación borde y así, cuando el estallido de nuevas tecnologías, lagos cosa para el almacenamiento de datos y análisis de datos sobre la discusión seria real y tomar una etapa crítica del estudio, durante el cual no habrá más inteligente minería de datos sorpresa como estaba previsto.

Publicados 254 artículos originales · ganado elogios 766 · vistas 270 000 +

Supongo que te gusta

Origin blog.csdn.net/sch881226/article/details/105092362
Recomendado
Clasificación