Inspur Information publica pautas de diseño para toda la industria para promover el desarrollo de potencia informática diversificada de IA generativa con especificaciones abiertas

Con el rápido desarrollo de la IA generativa, la inteligencia artificial se utiliza ampliamente en todos los ámbitos de la vida, la demanda de potencia informática de la IA ha aumentado considerablemente y la tendencia a la diversificación de los chips de IA se ha vuelto prominente, lo que ha planteado desafíos como el alto desarrollo de chips. costos y dificultad en el uso de múltiples chips. Recientemente, Inspur Information lanzó la "Guía de diseño de servidores de IA estandarizados de aceleración abierta" (en lo sucesivo, la "Guía") para toda la industria. La "Guía" se basa en la rica experiencia en prácticas de ingeniería y desarrollo de productos de Inspur Information en el campo de la computación acelerada abierta, proporcionando una referencia para las tarjetas aceleradoras de IA y el diseño de sistemas, acortando en gran medida el ciclo de adaptación de las tarjetas aceleradoras de IA y los servidores de IA, y promoviendo La IA generativa diversificó la potencia informática y ayudó a los usuarios a aprovechar las enormes oportunidades en la industria informática generadas por la explosión de la IA generativa.

La demanda de potencia informática de IA se ha disparado y el problema de la diversificación de chips debe resolverse con urgencia

Actualmente, la tecnología de IA generativa se está desarrollando rápidamente, liderando una nueva ola de innovación en IA. Lo que sigue es un aumento en la demanda de potencia informática generativa de IA, lo que impulsa la transformación y mejora de la industria de la potencia informática. Henessy y Patterson introdujeron el concepto de arquitecturas específicas de dominio (DSA) en "La nueva era de oro de la arquitectura informática" hace unos años, es decir, a medida que la evolución de la tecnología informática general se ralentiza gradualmente, es necesario centrarse en problemas específicos. o Las arquitecturas informáticas personalizadas por dominio se han vuelto cada vez más importantes. Los chips informáticos de IA diseñados sobre la base de la idea de DSA han demostrado capacidades de procesamiento más allá de los chips de uso general bajo cargas de trabajo de inteligencia artificial específicas, lo que ha promovido en gran medida el desarrollo de chips de IA diversificados.

Actualmente, cientos de empresas en todo el mundo han invertido en el desarrollo de nuevos chips de aceleración de IA, pero esto también ha traído nuevos desafíos. Las principales manifestaciones son que el rendimiento, el consumo de energía y la escalabilidad de una sola máquina son mayores, y la plataforma de potencia informática es más grande, lo que plantea requisitos más altos para la interconexión entre tarjetas, el ancho de banda de la red y la latencia. La cantidad de datos comunicados entre tarjetas de aceleración está aumentando y la comunicación PCIe P2P tradicional por sí sola ya no puede cumplir con los requisitos de los modelos de aprendizaje profundo a gran escala.

Para resolver estos problemas, las empresas de chips han lanzado sucesivamente sus propias tarjetas aceleradoras de IA en forma PCIe CEM no estándar, que admiten un mayor consumo de energía y capacidades de interconexión entre tarjetas más sólidas. Sin embargo, los diferentes fabricantes adoptan diferentes rutas técnicas, lo que da como resultado diferentes chips que requieren plataformas de hardware de sistema personalizadas. El desarrollo de la plataforma del sistema suele tardar entre 6 y 12 meses. Los sistemas patentados de hardware informático de IA tienen largos ciclos de desarrollo y altos costos de I+D, lo que obstaculiza seriamente la innovación en I+D y la promoción de aplicaciones de nuevos chips de aceleración de IA.

Nace la arquitectura OAI para modelos de redes neuronales profundas a ultra gran escala

La Open Computing Organization OCP lanzó una arquitectura de sistema Open Accelerated Computing (OAI) específicamente para la capacitación de modelos grandes en 2019. El acelerador en forma de tarjeta Mezz tiene mayores capacidades de interconexión y disipación de calor, y puede transportar chips con mayor potencia informática. Al mismo tiempo, tiene una escalabilidad entre nodos muy fuerte y se puede expandir fácilmente a plataformas de kilo y diez mil tarjetas para respaldar el entrenamiento de modelos grandes. Esta arquitectura es una arquitectura informática naturalmente adecuada para el entrenamiento de redes neuronales profundas a muy gran escala.

Sin embargo, en el proceso de implementación industrial, las tarjetas aceleradoras desarrolladas por muchos fabricantes todavía tienen inconsistencias en las interfaces de hardware, protocolos de interconexión y ecosistemas de software que son incompatibles entre sí, lo que resulta en largos ciclos de adaptación e inversiones en personalización para nuevos sistemas de tarjetas aceleradoras de IA. El alto costo de implementación ha provocado una brecha cada vez mayor entre el suministro de energía informática y la demanda de energía informática. La industria necesita urgentemente una plataforma de potencia informática más abierta y una potencia informática más diversa para respaldar la capacitación de modelos grandes.

Además, debido a los diferentes estándares de conexión y acceso de los distintos tipos de chips de IA, los usuarios también encontrarán diversos problemas, como la adaptación del sistema, el controlador del chip, la interconexión, la gestión del consumo de energía, la transmisión segura, la facilidad de uso, etc. Sistemas de chips de IA: este problema hace que los usuarios enfrenten enormes desafíos al implementar múltiples sistemas de potencia informática de chips de IA.

Desde el sustrato de aceleración abierto hasta la implementación de la plataforma de potencia informática de kilocalorías, el camino de Inspur Information hacia la potencia informática diversificada

La diversificación de los chips y la fragmentación del ecosistema de los chips son desafíos que deben resolverse en el camino hacia el desarrollo de la inteligencia artificial. Con base en esta información, Inspur Information ha estado diseñando planes desde 2018, continuando promoviendo el establecimiento de especificaciones de aceleración abierta (OAM) y la innovación tecnológica de productos, esforzándose por ayudar a los fabricantes de chips a reducir los ciclos de adaptación y los costos de investigación y desarrollo desde el nivel de arquitectura del sistema, ayudando los usuarios sean más rápidos y más eficientes. Utilice cómodamente múltiples potencias informáticas de IA.

La primera tarea de Inspur Information es crear un sustrato acelerador universal UBB que sea compatible con una variedad de chips OAM y desarrollar sistemas informáticos sobre esta base. En 2019, Inspur Information desarrolló el primer sistema informático acelerado abierto MX1. MX1 adopta un alto ancho de banda, fuente de alimentación dual y otras tecnologías. El sistema de 21 pulgadas puede admitir una variedad de aceleradores de IA que cumplen con las especificaciones OAM. El ancho de banda total de interconexión del chip alcanza los 224 Gbps y proporciona tres completamente conectado (completamente conectado) e híbrido. Interconexión dimensional HCM (Hybrid Cube Mesh) Dos topologías de interconexión permiten a los usuarios diseñar de manera flexible soluciones de interconexión de chips basadas en las necesidades de comunicación de chips para diferentes modelos de redes neuronales.

Después del lanzamiento de MX1 , la demanda del mercado demostró que la implementación a gran escala de múltiples chips requiere el soporte de servidores completos, por lo que Inspur Information invirtió en la investigación y el desarrollo de servidores OAM. En 2021, Inspur Information lanzó el primer servidor OAM de la industria, NF5498A5, que integra 8 tarjetas aceleradoras OAM y 2 CPU de alto rendimiento en un chasis de 19 pulgadas, con un ancho de banda de interconexión de 448 GB/s entre tarjetas. En 2022, se lanzará el servidor OAM refrigerado por líquido "Qiantang River" para realizar la refrigeración líquida de 8 aceleradores OAM y dos CPU de alta potencia. La tasa de cobertura de refrigeración líquida supera el 90%. El OAM refrigerado por líquido construido sobre la base de "Qiantang River", solución de centro de computación inteligente, el valor PUE de la plataforma kilocalcal es inferior a 1,1 en funcionamiento estable. Este año, se lanzó una nueva generación de servidor AI acelerado abierto NF5698G7, que admite 8 aceleradores Gaudi 2 de interconexión de alta velocidad OAM. Basado en enlaces PCIe Gen5 completos, la capacidad de interconexión H2D se multiplica por 4, lo que proporciona un potente entrenamiento e inferencia de modelos grandes. capacidades.

Al mismo tiempo, en respuesta a los problemas de gestión y programación de múltiples chips, Inspur Information lanzó la plataforma de inteligencia artificial AIStation, que puede programar de manera eficiente más de 30 chips de IA. Al adaptarse a las especificaciones de acceso a la potencia informática del chip de IA proporcionadas por Inspur Information, los chips de IA pueden acceder rápidamente a la plataforma AIStation, lo que ayuda a los usuarios a reducir la dificultad de usar y administrar múltiples chips de IA.

Las múltiples soluciones de productos de potencia informática de IA de Inspur Information han sido reconocidas por muchos usuarios y se han implementado en múltiples centros informáticos inteligentes, admitiendo con éxito múltiples modelos masivos y de gran escala, como GPT-2, Source 1.0 y la predicción de estructuras de proteínas de desarrollo propio. en el laboratorio La capacitación eficiente y la implementación de aplicaciones inteligentes de asistencia para la escritura de poesía permiten a las personas experimentar la súper inteligencia del lenguaje del modelo grande fuente 1.0 y acelerar la implementación de aplicaciones de IA generativa.

Publicar las "Directrices" para toda la industria para abordar los desafíos de la IA generativa con especificaciones abiertas

Con base en su rica experiencia en I + D y práctica de ingeniería de productos de computación múltiple, Inspur Information lanzó recientemente la "Guía de diseño de servidores AI de especificación de aceleración abierta" para toda la industria, con la esperanza de ayudar a la industria a desarrollar eficientemente tarjetas aceleradoras de AI que cumplan con las normas abiertas. especificación de aceleración y acorta significativamente el tiempo necesario para El ciclo de adaptación del servidor de IA proporciona a los usuarios soluciones de productos de potencia informática de IA que mejor se adaptan a los escenarios de aplicación.

La "Guía" señala que el diseño de servidores de IA abiertos, acelerados y estandarizados debe seguir cuatro principios de diseño principales, a saber, diseño orientado a aplicaciones, diverso y abierto, ecológico y eficiente, y coordinado. Sobre esta base, se deben adoptar métodos de diseño como el diseño colaborativo multidimensional, las pruebas integrales del sistema y la evaluación y optimización del desempeño.

Específicamente, el sistema informático generativo de IA es un grupo de potencia informática altamente integrado. La "Guía" proporciona un diseño de referencia completo de software y hardware desde nodos hasta clústeres, guiando a los fabricantes de sistemas y chips para llevar a cabo una colaboración integral y multidimensional en las primeras etapas de planificación para minimizar el contenido de desarrollo personalizado.

Durante la prueba integral del sistema, Inspur Information detalló los problemas encontrados en la práctica de innovación en el campo OAM y los incluyó en la "Guía" para mejorar la estabilidad y confiabilidad del nuevo sistema de I+D. La "Guía" clasifica de manera integral los puntos de prueba en términos de estructura, disipación de calor, presión, estabilidad, compatibilidad de software, etc. para ayudar a los usuarios a realizar pruebas más completas y rigurosas y minimizar las fallas durante la producción, implementación y operación del sistema. mejorar la estabilidad del sistema y reducir el impacto de los puntos de interrupción en la continuidad del entrenamiento.

La IA generativa requiere un mayor rendimiento de los sistemas informáticos. La "Guía" también presenta la experiencia real de optimización de pruebas de Inspur Information para ganar el campeonato en el punto de referencia mundial de IA autorizado MLPerf y otras pruebas. La "Guía" proporciona los puntos e indicadores clave para el rendimiento básico, el rendimiento de interconexión y las pruebas de rendimiento del modelo, y señala los puntos clave para el entrenamiento de modelos grandes y el ajuste del rendimiento de inferencia para garantizar que el servidor de IA con especificación de aceleración abierta pueda soportar eficazmente la actual Modelos grandes convencionales y aplicaciones innovadoras.

Al enfrentar los desafíos de potencia informática que plantea la IA generativa, Inspur Information se adherirá al concepto de apertura y código abierto, trabajará con socios ascendentes y descendentes en la cadena industrial, acelerará la implementación de múltiples soluciones de productos de potencia informática de IA y ayudará a los usuarios a crear sistemas eficientes. y plataformas estables de potencia informática de IA, iluminan el futuro de la IA generativa y promueven más industrias para acelerar la transformación inteligente.

Supongo que te gusta

Origin blog.csdn.net/annawanglhong/article/details/133190263
Recomendado
Clasificación