Conversación con Yan Guihai | Para construir una red ferroviaria de alta velocidad para la circulación de datos, ¿puede la DPU hacer que la potencia informática se dispare?

Recientemente, Yan Guihai, fundador y director ejecutivo de Zhongke Yushu, fue invitado a participar en el podcast de Huatai Securities "Taidu VOICE" y mantuvo una discusión muy intensa y profunda con Liu Cheng, director de inversiones en innovación de Huatai, sobre uno de Los tres elementos de la inteligencia artificial, "poder de computación", diálogo sobre tecnología que quema cerebros.

En el programa, el Sr. Yan discutió los principios técnicos y los escenarios de aplicación de la unidad de procesamiento de datos (DPU) de una manera simple y fácil de entender. En cuanto a las dificultades y la importancia industrial de mejorar la potencia informática, explicó en detalle cómo DPU Como componente clave de la base de potencia informática, mejore la eficiencia conectando varios nodos informáticos y creando un grupo de recursos informáticos. Al mismo tiempo, también compartió la trayectoria empresarial de los científicos y enfatizó la importancia de la estrecha integración de la innovación tecnológica y la aplicación comercial en la promoción del desarrollo tecnológico.

La siguiente es una transcripción de la conversación:


01

La CPU y la GPU por sí solas no son suficientes. La DPU forma un "sistema ferroviario de alta velocidad" que conecta puntos en una red.

Liu Cheng de Huatai Innovation: Sr. Yan, ¿puede explicarnos de manera simple y detallada? Si la potencia informática es una base muy importante de ChatGPT, ¿qué papel desempeña la DPU en él?

Yan Guihai, Zhongke Yushu: La potencia informática proviene principalmente de la potencia informática, y la potencia informática proviene principalmente de chips, redes y diversas aplicaciones que generan datos y necesitan procesar datos. Por lo tanto, la base subyacente de la potencia informática son varios centros de datos, que se implementan en grupos de servidores y están equipados con diferentes equipos de red para conectar toda la infraestructura que puede calcular, almacenar y transmitir datos juntos para formar un todo orgánico. Esto es lo que llamamos la base de potencia informática.

En la base de potencia informática, tenemos muchos tipos diferentes de unidades de procesamiento (PU), como la unidad central de procesamiento (CPU), la unidad de procesamiento de gráficos (GPU) más comunes, así como sistemas operativos y diversas aplicaciones que utilizamos todos los días. Sin embargo, para los modelos actuales a gran escala o algoritmos complejos de inteligencia artificial, es necesario conectar una gran cantidad de nodos de potencia informática a un enorme conjunto de potencia informática, y depender únicamente de la CPU y la GPU no es suficiente. Entonces, ¿quién los conectará? En él jugará un papel muy importante la unidad de procesamiento de datos (DPU), responsable de conectar todos los nodos informáticos para formar un grupo de recursos informáticos.

Si se compara una unidad de procesamiento (PU) con una ciudad, entonces la DPU es equivalente al sistema ferroviario de alta velocidad de la ciudad. Ahora podemos viajar entre Beijing y Nanjing el mismo día, algo que antes era inimaginable, pero ahora contamos con un sistema de transporte eficiente. Del mismo modo, cuando se aplica a la infraestructura de potencia informática, también necesitamos mejorar aún más la eficiencia entre nodos y conectar toda la potencia informática en segmentos y redes. La DPU desempeñará el mismo papel que el actual sistema ferroviario de alta velocidad.

b0e5104dcbbfe2e9af37fbfe65510d22.jpeg


02

El índice de eficiencia energética es una dimensión de evaluación importante de la potencia informática

Liu Cheng de Huatai Innovation: Teniendo en cuenta la vanguardia actual de la tecnología de la información, como la computación en la nube, la computación oriental y occidental, las redes de potencia informática, etc., ¿puede explicarles a todos la importancia de la potencia informática para diversas industrias?

Yan Guihai, Zhongke Shushu: La metáfora más directa es entender la potencia informática como electricidad. Supongamos que hoy si no tenemos teléfonos móviles ni computadoras, sentirá que no se puede realizar el trabajo. La razón es que su trabajo se basa en grandes cantidades de datos. La potencia informática actual no se trata sólo de procesar datos. Muchas veces, incluso si no se emiten instrucciones explícitas para estos datos, hay un enorme sistema detrás para clasificar los datos y extraer su valor. La aplicación en cada uno de nuestros teléfonos móviles le enviará activamente mensajes específicos según la escena en la que se encuentre ahora. La potencia informática consumida por estas empresas que procesan datos en segundo plano puede ser mayor que la potencia informática consumida por las tareas que usted realmente especifica. El procesamiento detrás de esto es el proceso en el que entra en juego la potencia informática.

En realidad, existen muchos criterios de evaluación para la potencia informática, uno de los más importantes es el índice de eficiencia energética. Para escenarios que requieren centros de datos para respaldar las operaciones comerciales, utilizar potencia informática que sea más económica y energéticamente eficiente definitivamente tendrá más ventajas que utilizar potencia informática con mayor consumo de energía.

Desde la perspectiva de la clasificación de la potencia informática, podemos referirnos a escenarios como la predicción del tiempo, la simulación de terremotos, la simulación de colisiones de túneles de viento, etc., como aplicaciones de supercomputación, que dependen en gran medida de cálculos masivos y tienen estrictos requisitos de eficiencia, pero no tienen requisitos elevados. para redes externas demasiado alto. Además, el modelo Chat GPT actualmente popular se denomina aplicación informática inteligente, que obviamente requiere un centro de datos a gran escala para el entrenamiento y la inferencia de modelos. Además, también existen algunos requisitos especiales de potencia informática en el campo de big data, como un sistema que admite 1 millón de personas agitando sobres rojos. Este tipo de potencia informática es diferente de las dos potencias informáticas anteriores. No es lo mismo para cada usuario, es grande, pero necesita manejar una gran cantidad de usuarios que acceden al servicio al mismo tiempo y sus requisitos de concurrencia son muy altos.


03

La demanda del mercado y los escenarios de implementación son el trasfondo para que iniciemos la industrialización.

Huatai Innovation Liu Cheng: También quiero volver a su intención original de iniciar un negocio y hablar sobre la industria. Antes de fundar Zhongke Yushu, usted era un científico. En ese momento descubrió algunos problemas comunes en la industria. ¿Quiere resolverlos a través de un punto de entrada como DPU? ¿Puede hablarnos sobre el progreso actual de DPU en función de su intención original de iniciar el negocio?

Yan Guihai de Zhongke Yushu: Cuando trabajábamos en DPU, primero prestamos atención a la demanda. En el proceso de estudio de los sistemas informáticos, notamos que cada vez más empresas operan con costos crecientes en infraestructuras como los centros de datos tradicionales. La tasa de utilización de la CPU del centro de datos, después de estar equipado con varias infraestructuras de nube, todavía está ocupada entre un 20% y un 30% incluso en estado inactivo, lo que demuestra que al menos entre un 20% y un 30% de todo el sistema se ha vuelto compatible. La potencia informática consumida por estas infraestructuras es el llamado "impuesto" del centro de datos.

Lo que es más grave es que esta situación no solo es un problema de consumo de recursos, sino que también reduce directamente el rendimiento. Por ejemplo, descubrimos que en la computación en la nube, el retraso en la comunicación entre diferentes máquinas es mucho mayor que el retraso en la comunicación entre máquinas físicas. Este aumento de latencia se debe a una amplia virtualización de la red. La aparición de DPU tiene como objetivo resolver directamente este problema de rendimiento.

Vemos una demanda particularmente rígida por el lado de la demanda. Todos sabemos que los sistemas de negociación de valores y los sistemas de control de riesgos tienen requisitos de demora muy altos, porque el control de demoras desempeña un papel clave en la liquidez y la eficiencia operativa de todo el mercado comercial. El retraso se reduce del nivel de milisegundos al nivel de microsegundos, lo que equivale a una diferencia de 3 órdenes de magnitud. No podemos confiar únicamente en la simplificación del software de capa superior, sino que debemos obtener soporte técnico sobre enlaces de hardware y pilas de protocolos de red. Para estos requisitos, es difícil que los sistemas informáticos tradicionales los admitan directamente. Por lo tanto, creemos que este problema se puede resolver utilizando componentes como unidades de procesamiento de datos (DPU) cerca de la red.

La madurez tecnológica es necesaria para garantizar que nuestros productos pasen de la etapa de innovación a productos maduros. Cuando comenzamos a desarrollar DPU alrededor de 2018, básicamente se daban las condiciones necesarias. Lo único que falta es educación de mercado, porque DPU no existía en el pasado, y ahora necesitamos que la comunidad de usuarios comprenda y reconozca la importancia de DPU, para no tener demasiadas dudas sobre la madurez de este nuevo e innovador. producto. Para que el mercado y los clientes confíen en DPU, es necesario presentar algunos casos reales. Sólo así nuestra DPU podrá ingresar con éxito al mercado desde la etapa de investigación y desarrollo.

38905c7fae0a0757058ff9faea1db060.jpeg


04

Deje que la CPU haga el trabajo de la DPU,

Equivale a pedir al personal de I+D de la empresa que realice un trabajo administrativo.

Liu Cheng de Huatai Innovation: Usted acaba de mencionar el tema del "impuesto" a los centros de datos, ¿es posible cuantificarlo?

Yan Guihai, Zhongke Yushu: Alrededor de 2016, el equipo de investigación de Google hizo estadísticas sobre la utilización del servidor en Google Cloud y descubrió que el valor del impuesto total del centro de datos era de aproximadamente entre el 25% y el 30%. Estos datos llevan a la gente a creer que este negocio por sí solo puede provocar que los gastos generales de rendimiento alcancen entre el 20 y el 30%.

Nosotros mismos hemos realizado experimentos similares. Dado que los datos de la red deben procesarse, los datos deben capturarse de la red y colocarse localmente para que los utilicen las aplicaciones locales. Este proceso requiere que la CPU ejecute un programa de descompresión, que es el protocolo de red. La potencia informática se consume cuando se ejecuta el protocolo y la necesidad de esta potencia informática depende de la velocidad de los paquetes de datos. Si la velocidad del paquete es alta, es posible que la CPU requiera más núcleos de procesador para procesarlo. Y si hay menos paquetes de datos, es posible que no se necesite tanta potencia informática.

Si el enlace de datos de 25G se utiliza por completo, se necesitarán aproximadamente cuatro o cinco procesadores Xeon para procesarlo. Por ejemplo, para una computadora de escritorio de alto rendimiento con 8 núcleos, si se va a acceder a una aplicación de red de ancho de banda completo, aproximadamente la mitad de los núcleos se pueden usar para el procesamiento de la red. En realidad, esto supone un gasto general enorme.

Liu Cheng de Huatai Innovation: Para las CPU, la nube y la virtualización son una carga, y necesitan descargar esta carga a la DPU para resolverla.

Yan Guihai, Zhongke Yushu: Se puede entender de esta manera. También tenemos el punto de vista de que la nube y la virtualización no son los "culpables" de generar impuestos a los centros de datos, creemos que es un costo que hay que pagar. Al igual que si quieres colaborar con 100 máquinas, estas no colaborarán automáticamente, se puede entender que cuando una organización quiere trabajar de manera eficiente, debe soportar una cierta cantidad de gastos generales, es decir, costos de gestión. Este coste de gestión es necesario e inevitable. Se trata simplemente de quién quieres que asuma esas tareas. Parece una sobrecarga si dejas que la CPU se encargue de ello. Pero si separa estas funciones de la CPU y deja que sean manejadas por componentes más adecuados para completar estas tareas, la sobrecarga se reducirá considerablemente.

Al igual que una empresa, siempre necesita personal y departamentos administrativos, si el personal de I + D de la empresa se encarga de contratar personas todos los días, la eficiencia será muy baja. Pero si encuentra un departamento de recursos humanos dedicado a hacer este trabajo, será más eficiente.


05

A través de la "combinación de blando y duro",

Lograr una "baja latencia" acercándose al límite

Liu Cheng de Huatai Innovation: Hasta donde yo sé, además de productos de hardware, Zhongke Yushu también tiene productos de software, como la plataforma de desarrollo de software HADOS y la plataforma de desarrollo informático de latencia ultrabaja NDPP. ¿Por qué una empresa de chips invierte tanta energía en software?

Yan Guihai, Zhongke Yushu: Hay muchos tipos de chips en sí, y los diferentes tipos de chips tienen diferentes características, especialmente los chips a nivel de sistema como los DPU, que dependen en gran medida del software. A diferencia de los dispositivos terminales como los chips Wi-Fi y Bluetooth, la DPU, la GPU, la CPU y otros chips son más complejos. No basta con evaluar el rendimiento de un chip mediante pruebas de puertos y pruebas de señal, porque lo más importante es cómo permitir que otros lo utilicen de forma eficaz. Para garantizar el flujo fluido de la llamada conexión de "última milla", creemos que el sistema de software subyacente de la DPU debe desarrollarse cuidadosamente.

La filosofía de Zhongke Yushu siempre ha sido centrarse tanto en equipos de software como de hardware. No solo buscamos la optimización del chip en términos de rendimiento de la pantalla principal, latencia, área y consumo de energía, sino que también esperamos que pueda conectarse sin problemas con las bibliotecas y el middleware existentes. La razón por la que se puede lograr una conmutación tan fluida es porque hemos realizado una conexión de capa de software muy completa en la parte inferior. Por lo tanto, necesitamos invertir muchos recursos de investigación y desarrollo de software para lograr este objetivo.

Liu Cheng de Huatai Innovation: ¿Puede contarnos más sobre qué fabricantes espera incorporar los productos de Zhongke Yushu en su software o hardware, como bases de datos, sistemas operativos, nubes, etc.?

Yan Guihai de Zhongke Yushu: En realidad, se trata de la cuestión de la ecología del producto. Las categorías principales que acaba de mencionar se pueden resumir como software de terminal. El software de terminal representa algunos de los principales actores de nuestro ecosistema general de aplicaciones, como los sistemas operativos. Cuando desarrollamos una DPU, esta debe estar adaptada y compatible con el sistema operativo actual, incluidos todos los tipos de CPU y GPU utilizados por la plataforma informática bajo el sistema operativo. La DPU debe ser compatible una por una para garantizar que los usuarios del sistema operativo sistema Se pueden utilizar sin sensación. Para DPU, este es el mejor estado.

Además, existen algunos sistemas de aplicación básicos, como las bases de datos. Tradicionalmente, si desea mejorar el rendimiento de la base de datos, necesita tener potentes capacidades de ajuste de hardware. De hecho, si miramos hacia atrás en el desarrollo de bases de datos y sistemas operativos, podemos ver que se desarrollaron de manera relativamente independiente, lo que significa que los usuarios de bases de datos o la propia comunidad de desarrollo de bases de datos también tienen fuertes capacidades de ajuste de hardware. En este sentido, esperamos que muchas funciones de red de alto rendimiento y otras funciones de la DPU puedan exponerse a la interfaz de ajuste de este software básico del sistema. Por ejemplo, en una base de datos distribuida, podemos colocar una tabla en un nodo remoto y llamarla utilizando el mecanismo DMA admitido por la DPU para mejorar el rendimiento.

Por lo tanto, este es otro caso en el que es necesario exponer la funcionalidad a los proveedores de software de tecnología subyacente. El software básico requiere interfaces de nivel inferior y les da espacio para ajustar el rendimiento. Por eso queremos reunir todo eso en un solo sistema.

Huatai Innovation Liu Cheng: Desde el nivel de software o hardware, ¿qué productos de software y hardware tiene Zhongke Yushu para diferentes escenarios u diferentes objetos de uso?

Yan Guihai de Zhongke Yushu: La plataforma de desarrollo informático de latencia ultrabaja NDPP es un caso muy típico para nosotros. Nuestra "N" es Nano (nanosegundo), y también esperamos que el retraso final del producto sea cercano a los nanosegundos. Como plataforma de desarrollo informático de latencia ultrabaja, está dirigida principalmente a algunos escenarios que son muy sensibles a la latencia, lo que significa que las aplicaciones del lado de la red pueden crear aplicaciones centrales basadas en nuestra plataforma de desarrollo de latencia ultrabaja. En esta plataforma, le proporcionamos muchos enlaces físicos de baja latencia, lo que equivale a construir un sistema de conmutación de circuitos para nuestros clientes. Al comunicarse, ya no necesita enviar telegramas, sino que puede realizar llamadas telefónicas directamente, lo cual es mucho más rápido que antes.

ad2c8ea9a343c10f354193c269417beb.jpeg


06

La innovación científica y tecnológica lidera nuevas tendencias en el desarrollo económico

Zhongke Yushu Yan Guihai: Como inversor en tecnología dura, ¿cuál es su principal fuerza impulsora? ¿Cuál es la principal lógica de inversión?

Liu Cheng de Huatai Innovation: La tecnología dura es un tema que no ha recibido suficiente atención, pero es muy importante. La principal línea de inversión futura estará cada vez más impulsada por la tecnología dura. El poder de innovación de China ha entrado en parte en la zona de aguas profundas, y el cambio en los temas de inversión está estrechamente relacionado con los antecedentes generales y las necesidades del desarrollo económico de China. Hace veinte años, China se dedicaba principalmente a modelos económicos tradicionales, como la fabricación y el procesamiento de los materiales suministrados, y el tema de la inversión en tecnología dura no era destacado. Porque en ese modelo, las ganancias regresan más rápido, la inversión es más fácil y la producción es mayor. Sin embargo, a medida que su desarrollo económico avanza a un nivel superior, China se está transformando gradualmente en una economía impulsada por la innovación, el conocimiento y la tecnología, que es el resultado inevitable del desarrollo de una economía.

Creo que es un error perseguir simplemente lo frío o lo caliente, lo mismo se aplica a la dirección técnica. Sin experimentar la alternancia de frío y calor y palizas repetidas, será difícil encontrar consenso en el desarrollo tecnológico, y será difícil desarrollar tecnologías que realmente puedan resolver los problemas del mercado y satisfacer las necesidades. Esta alternancia de frío y calor puede ocurrir innumerables veces y, al final, solo pueden surgir aquellas empresas que realmente puedan resolver los problemas de los clientes y tengan valor. Estas empresas seguirán puliendo en el proceso alternativo de frío y calor, al igual que las impurezas del hierro se eliminan durante el proceso de fabricación de acero, para que se pueda fabricar acero. Múltiples alternancias de frío y calor pueden promover el desarrollo de la industria.

Supongo que te gusta

Origin blog.csdn.net/yusur/article/details/131250139
Recomendado
Clasificación