Con el servicio de exploración de lago de datos, hay varias decisiones "nuevas" para las empresas

Resumen: El servicio DLI totalmente administrado sin servidor es como el taxi compartido Didi que usamos todos los días: ya no necesitamos gastar costos fijos para comprar y mantener autos privados.

1. Tendencias y desafíos

1.1. Tendencia

A medida que la tecnología de la nube se vuelve cada vez más madura, las empresas se están trasladando gradualmente a la nube y el negocio de análisis de datos que ayuda a la toma de decisiones también ha experimentado cambios en los siguientes aspectos:

Transición de estructurado a diversificado : con la mejora de la tecnología de recopilación de datos y la reducción de precios de los dispositivos de almacenamiento, se recopilan y almacenan cada vez más datos semiestructurados y no estructurados, y mucha información clave, como tarjetas de identificación (imágenes) La información personal en, también debe estar involucrada en el análisis diario de datos.

Transición de una única fuente de datos a múltiples fuentes de datos : además de leer datos en bases de datos relacionales que almacenan información de datos comerciales, los servicios de almacenamiento de objetos que almacenan datos completos y los servicios de almacenamiento de datos que almacenan datos multidimensionales se encuentran entre cada vez más fuentes de datos. Necesito hacer algunas consultas conjuntas

Transición de análisis estadístico para el análisis predictivo : BI / informes son los más escenarios de aplicación común para el análisis de datos, y estos escenarios son más que resumir el pasado. Con la popularidad de la tecnología de inteligencia artificial, la forma de predecir tendencias futuras a partir de datos históricos se ha convertido en un contenido que los analistas de datos deben considerar.

1.2. Desafío

1.1.1. Diversidad

Los datos semiestructurados incluyen principalmente CSV, XML, JSON, etc., y los datos no estructurados incluyen principalmente imágenes, audio, video, etc. Estos datos no se pueden analizar directamente con una base de datos como los datos estructurados tradicionales, y deben convertirse en estructurados de acuerdo con ciertas reglas. Los datos se pueden analizar más. Por ejemplo, una tarjeta de identificación (imagen), la información en la tarjeta de identificación debe extraerse mediante el reconocimiento de imágenes y luego analizarse, todo el proceso es relativamente engorroso.

1.1.2. Varias fuentes de datos

Para lograr el almacenamiento y análisis más eficiente de datos con diferentes características, los datos se almacenan en diferentes servicios de almacenamiento. Los datos entre diferentes servicios de almacenamiento forman islas de datos. Si desea realizar algunas consultas conjuntas, debe realizar algunas consultas conjuntas en diferentes servicios de almacenamiento. Copiar datos entre ellos no solo es fácil para formar un almacenamiento redundante, sino que la sincronización de datos también es un problema.

1.1.3. Análisis predictivo

Si desea realizar un análisis predictivo, debe utilizar algoritmos de aprendizaje automático de IA. Actualmente, los marcos de aprendizaje automático de código abierto más populares incluyen principalmente TensorFlow, PyTorch, Keras, etc. Si los usuarios desean llamar directamente al marco de IA en el servicio, deben iniciar sesión manualmente en la máquina con anticipación e instalar uno por uno. Si posteriormente elimina / expande el clúster, debe instalarlo nuevamente.

2. Solución de lago de datos

2.1. Introducción a la solución

Cuando nació el servicio Huawei Cloud Data Lake Insight DLI, fue para ayudar a las empresas a resolver rápidamente estos desafíos de una manera liviana. El peso ligero mencionado aquí se refiere principalmente a dos aspectos:

 Recursos livianos: DLI proporciona dos tipos de recursos: recursos compartidos y recursos exclusivos. Se puede acceder a los recursos compartidos bajo demanda sin retención a largo plazo. Admite facturación basada en el volumen de escaneo y la hora CU (1CU = 1Core4GB).

 Desarrollo liviano: el SQL principal de DLI será el análisis de big data, el motor de procesamiento por lotes Spark y el motor de procesamiento de flujo Flink proporcionan capacidades de SQL, y más del 80% del desarrollo comercial diario de los usuarios se puede realizar directamente usando SQL

Data Lake Insight (DLI) es un servicio de análisis e informática de big data sin servidor que es totalmente compatible con los ecosistemas de Apache Spark y Apache Flink y realiza la integración de flujo por lotes. DLI admite motores multimodo. Las empresas pueden completar fácilmente el procesamiento por lotes y el procesamiento por secuencias de fuentes de datos heterogéneas solo mediante el uso de SQL o programas para extraer y explorar el valor de los datos.

2.2. Cómo resolver el desafío

2.2.1 AI SQL

Algunos operadores de IA están encapsulados en DLI y las capacidades de IA se pueden invocar directamente mediante SQL. Continuemos tomando el ejemplo de la tarjeta de identificación (imagen) anterior como ejemplo. DLI encapsula el operador que llama a OCR, llama a las capacidades de reconocimiento de imágenes de OCR a través de SQL y pasa la ruta de identificación y la información relacionada con ORC al construir la tabla, como:

CREATE TABLE id_cards(name STRING, age INT, city STRING)
USING OCR OPTIONS (
  path "obs://bucketName/id_cards",
  ocrApiUrl "/v1.0/ocr/plate-number",
  ocrEndpoint "https://ais.cn-north-4.myhuaweicloud.com",
  ocrRegion "cn-north-4")

Usar la tabla id_cards es lo mismo que usar una tabla normal, puede realizar directamente una consulta SELECT y DLI llamará automáticamente a la capacidad de OCR para analizar la tarjeta de identificación para obtener atributos relacionados. Al mismo tiempo, SQL se puede utilizar para un mayor análisis y procesamiento de los atributos relacionados obtenidos, tales como: obtener las clasificaciones de ciudades de los jugadores que cargan sus tarjetas de identificación para la autenticación del nombre real.

SELECT city, count(*) as c FROM id_cards GROUP BY city ORDER BY c

2.2.2 Consulta conjunta (origen cruzado)

DLI actualmente admite la mayoría de las fuentes de datos, como se muestra en la siguiente figura:

Los usuarios pueden usar SQL fácilmente para crear fuentes de datos relacionadas con tablas, como

Fuente de datos OBS, solo es necesario especificar el formato de almacenamiento de datos y la ruta de almacenamiento:

CREATE TABLE dli_to_obs (id INT, action STRING) USING CSV
OPTIONS (path "obs://bucketName/filePath")

Fuente de datos RDS, solo es necesario especificar la información de la URL de JDBC:

CREATE TABLE dli_to_rds
  USING JDBC OPTIONS (
  'url'='jdbc:mysql://to-rds-117405104-3eAHxnlz.datasource.com:3306',
  'driver'='com.mysql.jdbc.Driver',
  'dbtable'='rds_test.test1',
  'passwdauth' = 'xxx',
  'encryption' = 'true')

Una vez que las tablas de fuentes cruzadas correspondientes a las fuentes de datos se hayan creado en DLI, puede usar SQL para realizar consultas conjuntas directamente en estas tablas, como:

SELECCIONE t2.name, t1.action FROM dli_to_obs t1 JOIN dli_to_rds t2 ON t1.id = t2.id

Con la ayuda de la función de consulta conjunta, las empresas pueden crear fácilmente una visión unificada de la empresa y completar la exploración del valor de los datos y la innovación empresarial de forma más completa.

2.2.3 Soporte espejo personalizado ecológico K8S

DLI proporciona imágenes de IA que incluyen marcos de IA de código abierto como TensorFlow, PyTorch y Keras. Los usuarios pueden llamar directamente modelos relacionados en el código empresarial para su análisis. Al mismo tiempo, considerando que diferentes industrias tienen diferentes requisitos de marco. DLI también proporciona imágenes básicas con componentes Spark / Flink. Los usuarios pueden empaquetar los marcos que necesitan en función de las imágenes básicas y cargarlas en el servicio de imágenes de contenedor SWR. Cuando DLI ejecuta un trabajo, automáticamente extraerá la imagen con el nombre correspondiente del SWR. Este método evita que el usuario vuelva a instalar manualmente los paquetes dependientes y no se requieren operaciones adicionales para los nuevos nodos posteriores.

3. Resumen

El servicio DLI totalmente administrado sin servidor es como el taxi compartido Didi que usamos todos los días: ya no tenemos que pagar costos fijos para comprar y mantener automóviles privados. Además de las tres funciones de AI SQL, consulta conjunta y soporte para la duplicación ecológica personalizada de K8S, DLI también incluye administración de múltiples inquilinos a nivel empresarial, integración de flujo por lotes, expansión y contracción automáticas y otras características más. La próxima vez, trabajaremos juntos. Ven.

 

Haga clic para seguir y conocer la nueva tecnología de Huawei Cloud por primera vez ~

Supongo que te gusta

Origin blog.csdn.net/devcloud/article/details/108678469
Recomendado
Clasificación