Huawei se sitúa entre los principales fabricantes del mundo, con 17 ponencias seleccionadas para ICDE, la principal conferencia internacional de bases de datos

Este artículo es compartido por Huawei Cloud Community "Los principales fabricantes del mundo, Huawei GaussDB y GeminiDB, se seleccionaron 17 artículos para la principal conferencia internacional de bases de datos ICDE"  , autor: base de datos GaussDB.

Del 13 al 17 de mayo, se celebró en Utrecht, Países Bajos, la principal conferencia académica internacional sobre bases de datos, ICDE 2024. Huawei GaussDB y GeminiDB tienen 17 artículos seleccionados, convirtiéndose en el fabricante de bases de datos con mayor número de artículos seleccionados en el mundo. Nikolaos Ntarmos, Director del Laboratorio de Bases de Datos del Instituto de Investigación Huawei de Edimburgo, pronunció un discurso titulado "Huawei Cloud GaussDB, una mejor manera de crear bases de datos", presentando los resultados técnicos y comerciales de Huawei GaussDB a instituciones académicas y representantes de todo el mundo.

1.png

El nombre completo de ICDE es "IEEE International Conference on Data Engineering" (Conferencia internacional IEEE sobre ingeniería de datos), junto con SIGMOD y VLDB, es conocida como las tres principales conferencias en el campo de las bases de datos y es una de las principales conferencias académicas internacionales. conferencias en el campo de las bases de datos y goza de una gran reputación a nivel internacional y tiene una amplia influencia académica.

ICDE incluye los resultados de investigación más vanguardistas y de primer nivel en el campo de las bases de datos de las principales instituciones de investigación y empresas de tecnología. ICDE 2024 es la 40ª Conferencia Internacional IEEE sobre Ingeniería de Datos. La selección de los 17 artículos de Huawei es el resultado de la cooperación amistosa y los esfuerzos conjuntos entre el equipo de investigación científica de Huawei y equipos u organizaciones externos. A continuación se muestran extractos de algunos de los artículos seleccionados de Huawei en esta conferencia, y todos los artículos seleccionados se interpretarán temáticamente en el seguimiento.

GaussML: un sistema de aprendizaje automático en base de datos de un extremo a otro

El artículo "GaussML: un sistema de aprendizaje automático en base de datos de extremo a extremo" fue completado conjuntamente por la Universidad de Tsinghua, Huawei y ETH Zurich. Mejora el rendimiento del entrenamiento y la inferencia de algoritmos de aprendizaje automático en la base de datos para satisfacer profundamente la realidad de los usuarios. -análisis del tiempo. Este artículo fue muy elogiado por el equipo de revisión de la conferencia y creía que proponía un nuevo motor de aprendizaje automático.

El marco de aprendizaje automático en la biblioteca nativa, denominado GaussML, utiliza el entrenamiento de aprendizaje automático como operador de ejecución y utiliza las capacidades paralelas y distribuidas de la base de datos para demostrar las ventajas de rendimiento de la inferencia y el entrenamiento del aprendizaje automático que son más de 10 veces mayores que Productos similares en la industria. Sus principales capacidades incluyen:

En primer lugar, el artículo propone por primera vez la arquitectura de un motor de aprendizaje automático de IA nativo en la base de datos. El entrenamiento y la inferencia del algoritmo de aprendizaje automático se integran en el proceso de ejecución de SQL. El entrenamiento del aprendizaje automático se realiza con la ayuda del optimizador y la carga de la base de datos. gestión, procesamiento concurrente y capacidades paralelas distribuidas y máxima eficiencia en el razonamiento;

En segundo lugar, GaussML también crea la capacidad AutoML en la biblioteca, que puede ajustar los parámetros de forma adaptativa y corregir el modelo de acuerdo con los cambios de carga. Diseña una capacidad de ajuste automático del modelo de un extremo a otro para simplificar el costo del ajuste de los parámetros del modelo por parte del usuario y mejorarlo. la calidad del modelo en la base de datos.

En tercer lugar, GaussML logra capacidades de ajuste automático de extremo a extremo mediante la creación de procesos de inferencia y capacitación de aprendizaje automático nativo en la base de datos, creando un motor completo de aprendizaje automático en la biblioteca para respaldar el análisis inteligente en tiempo real del negocio del cliente. Este marco simplifica los costos de inferencia y capacitación en aprendizaje automático para los científicos de datos al proporcionar una interfaz similar a SQL, admite algoritmos de aprendizaje automático de uso común y satisface las necesidades de la gran mayoría de los clientes.

En resumen, el artículo propone un motor de aprendizaje automático completamente nuevo, que muestra excelentes ventajas de alto rendimiento en múltiples conjuntos de datos públicos y da un paso más hacia el desarrollo de la inteligencia de bases de datos.

GaussDB-Global: un sistema de base de datos distribuido geográficamente

El artículo "GaussDB-Global: un sistema de base de datos distribuido geográficamente" es el resultado de la investigación del equipo de tecnología de bases de datos Gauss de Huawei. En el artículo, se propone un método de procesamiento de transacciones distribuidas basado en un método de sincronización de reloj de alta precisión y se construye un sistema de base de datos global distribuido entre regiones GaussDB-Global. La implementación principal de este documento:

Primero, utilizando el método descentralizado de sincronización de relojes, el sistema de base de datos distribuido geográficamente resuelve el problema del cuello de botella en el rendimiento del administrador de transacciones centralizado y logra una transición perfecta de la gestión de transacciones centralizada a la gestión de transacciones distribuidas descentralizada. Proporciona un método de implementación más flexible y conveniente para lograrlo. Despliegue global de un conjunto de clusters.

En segundo lugar, con respecto a la lectura remota y el envío de registros a larga distancia de datos fragmentados, los sistemas de bases de datos distribuidos geográficamente admiten la lectura en réplicas asincrónicas, una fuerte coherencia, garantías de actualización ajustables y equilibrio de carga dinámico. Los resultados experimentales en clústeres entre regiones muestran que, en comparación con la línea de base centralizada, este método proporciona un rendimiento de solo lectura hasta 14 veces mejor y un rendimiento más de un 50 % mayor en el conjunto de datos estándar TPC-C.

QCFE: una ingeniería de funciones eficiente para la estimación de costos de consultas

El documento "QCFE: una ingeniería de características eficiente para la estimación de costos de consultas" fue completado conjuntamente por el Instituto de Tecnología de Harbin y los equipos de Huawei. Propuso un método de ingeniería de características eficiente (QCFE) para resolver el problema de la ingeniería de características en la evaluación de declaraciones de consultas existentes. Este método logra mejoras significativas en la eficiencia de la precisión del tiempo. Las principales contribuciones del artículo incluyen:

Primero, se propone el concepto de instantánea de características para integrar la influencia de variables ignoradas, como botones de bases de datos, hardware, etc., para mejorar la precisión del modelo de costos de consulta.

En segundo lugar, se diseña un método de reducción de características de propagación diferencial para mejorar aún más el entrenamiento del modelo y la eficiencia de la inferencia mediante la eliminación de características no válidas.

En tercer lugar, se introduce un diseño de plantilla SQL simplificado para mejorar la eficiencia del tiempo de cálculo de instantáneas de características.

En cuarto lugar, las ventajas de QCFE en cuanto a eficiencia de precisión de tiempo sobre los métodos existentes se demuestran en una amplia gama de pruebas de referencia, incluidas TPC-H, job-light y Sysbench.

En resumen, la innovación de esta investigación es que propone un método de ingeniería de características eficaz que puede mejorar significativamente el tiempo y la precisión de la estimación del costo de las consultas.

TRAP: Evaluación de robustez personalizada para asesores de índices a través de perturbaciones adversas

El artículo "TRAP: Evaluación de robustez personalizada para asesores de índices mediante perturbación adversa" fue investigado conjuntamente por la Universidad de Xiamen, la Universidad de Tsinghua y Huawei. Resuelve el problema de robustez de los asesores de índices existentes al proponer un marco de generación de carga de trabajo TRAP basado en la evaluación sexual. asuntos.

El marco TRAP es capaz de generar cargas de trabajo adversas efectivas para evaluar la solidez de los asesores de índices. TRAP tiene ventajas obvias en la evaluación de asesores de índices. El estudio encontró:

En primer lugar, a través de la generación eficiente de cargas de trabajo adversarias, se puede evaluar con precisión la solidez del asesor de índices, ya que estas cargas de trabajo no se desvían de la carga de trabajo original, pero se pueden identificar agujeros de rendimiento debido a la deriva de la carga de trabajo.

En segundo lugar, para diseñar un asesor de índices basado en el aprendizaje más sólido, el uso de una representación estatal detallada y estrategias de poda de candidatos puede mejorar el rendimiento.

En tercer lugar, para diseñar asesores de índices basados ​​en heurísticas más sólidos, es crucial considerar las interacciones de los índices y el uso de índices de varias columnas durante el proceso de selección del índice.

En conjunto, los hallazgos anteriores brindan información sobre el diseño y la evaluación de los asesores de índices y resaltan la importancia de evaluar los asesores de índices en aplicaciones prácticas.

Codificadores automáticos enmascarados de frecuencia temporal para la detección de anomalías en series temporales

El artículo "Codificadores automáticos enmascarados de frecuencia temporal para la detección de anomalías en series temporales" se publicó para ayudar a las bases de datos de series temporales a reducir las pérdidas al detectar anomalías con anticipación. Al diseñar un algoritmo de detección de anomalías del codificador automático enmascarado de tiempo-frecuencia (TFMAE) ligero basado en aprendizaje profundo, demuestra su buen rendimiento en múltiples conjuntos de datos públicos. Este artículo fue muy elogiado por el equipo de revisión de la conferencia y consideró que proponía un nuevo paradigma para la detección de anomalías temporales. Finalmente fue aceptado por ICDE 2024 sin modificaciones.

Como primer artículo sobre la detección de anomalías de tiempo mediante la comparación de máscaras de tiempo-frecuencia, la investigación se centra en los tres puntos siguientes:

Primero, se propone un criterio de comparación de detección de anomalías de series de tiempo basado en máscaras de dominio de tiempo y de frecuencia, que reemplaza el error de reconstrucción tradicional para determinar el umbral de detección de anomalías. Este es un criterio de juicio que no se ve afectado por los cambios de distribución.

En segundo lugar, se propone una estrategia de enmascaramiento en el dominio del tiempo basada en ventanas y una estrategia de enmascaramiento en el dominio de la frecuencia basada en amplitud para eliminar posibles observaciones y patrones anómalos en la secuencia. Por lo tanto, TFMAE es un modelo resistente al sesgo de anomalías.

En tercer lugar, los experimentos con cinco conjuntos de datos del mundo real y dos conjuntos de datos sintéticos muestran que TFMAE mejora tanto el rendimiento como la velocidad de detección.

En resumen, "Codificadores automáticos con máscara de frecuencia temporal para la detección de anomalías en series temporales" es el primer artículo sobre la detección de anomalías en series temporales mediante la comparación de máscaras de tiempo y frecuencia. Tiene un efecto de promoción práctico en amplias aplicaciones en las industrias médica, manufacturera, financiera y otras.

Las direcciones de investigación de los artículos seleccionados de Huawei en esta conferencia incluyen AI4DB, bases de datos de series temporales, optimización de consultas, entrenamiento y razonamiento de algoritmos de aprendizaje automático en bases de datos... Muchos logros científicos y tecnológicos se benefician de la exploración y práctica a largo plazo de Huawei en el campo. de tecnología de bases de datos de vanguardia, así como su cooperación global con las principales instituciones académicas, resuelven conjuntamente los problemas mundiales en el campo de las bases de datos, integran investigaciones innovadoras de vanguardia en la tecnología de productos a través de una integración profunda de la industria, la academia, la investigación y las aplicaciones. construir un ecosistema saludable de la industria de bases de datos y brindar a los clientes productos y servicios de bases de datos innovadores y competitivos.

En el futuro, Huawei continuará innovando y profundizando sus esfuerzos en el campo de las bases de datos, llevando a la industria a alcanzar nuevas alturas.

Haga clic para seguir y conocer las nuevas tecnologías de Huawei Cloud lo antes posible ~

 

Los recursos pirateados de "Qing Yu Nian 2" se cargaron en npm, lo que provocó que npmmirror tuviera que suspender el servicio unpkg: No queda mucho tiempo para Google. Sugiero que todos los productos sean de código abierto. time.sleep(6) aquí juega un papel. ¡Linus es el más activo en "comer comida para perros"! El nuevo iPad Pro utiliza 12 GB de chips de memoria, pero afirma tener 8 GB de memoria. People's Daily Online revisa la carga estilo matrioska del software de oficina: Sólo resolviendo activamente el "conjunto" podremos tener un futuro para Flutter 3.22 y Dart 3.4 . nuevo paradigma de desarrollo para Vue3, sin necesidad de `ref/reactive `, sin necesidad de `ref.value` Lanzamiento del manual chino de MySQL 8.4 LTS: le ayudará a dominar el nuevo ámbito de la gestión de bases de datos Tongyi Qianwen Precio del modelo principal de nivel GPT-4 reducido en un 97%, 1 yuan y 2 millones de tokens
{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/u/4526289/blog/11184782
Recomendado
Clasificación