La industria financiera está marcando el comienzo de la era de los grandes modelos y la construcción de una infraestructura informática y de almacenamiento es la clave del éxito.

A finales del año pasado nació ChatGPT, que sorprendió a los usuarios de todo el mundo con sus potentes y precisas capacidades de generación y comprensión del lenguaje natural.

Desde entonces, todos los ámbitos de la vida han participado en concursos de investigación y desarrollo de modelos a gran escala, lo que ha desencadenado una nueva ronda de innovación tecnológica. Esto es especialmente cierto en la industria financiera. Cómo construir nueva potencia informática e infraestructura de almacenamiento para la era de los grandes modelos y realizar la migración de las capacidades de los grandes modelos al campo financiero se ha convertido en un tema candente entre las instituciones financieras.

¿En qué escenarios son útiles los grandes modelos financieros?

Como nueva infraestructura para la IA, los modelos grandes tienen una amplia gama de escenarios de aplicación en la industria financiera.

En la recepción , el servicio al cliente inteligente es una de las direcciones de aplicación más comunes de la IA en el campo financiero. ¿Aún recuerdas a Jarvis, el mayordomo de la IA de la película Iron Man? El gran modelo financiero mejorará en gran medida el nivel profesional y las capacidades de servicio de los administradores de cuentas, reducirá significativamente los costos operativos de los administradores de cuentas y permitirá que todos tengan un administrador de cuentas profesional en línea las 24 horas similar a Jarvis.

En el middle office , los grandes modelos de IA tienen la oportunidad de cambiar la forma de adquisición de conocimientos, creación de contenido, reuniones y comunicación, desarrollo y prueba de códigos dentro de las instituciones financieras, mejorar la eficiencia de la oficina interna e incluso desencadenar cambios en los modelos de prueba de I+D, y de manera integral. mejorar la eficiencia operativa interna de las instituciones financieras.

En segundo plano , los modelos grandes se convertirán en características estándar de las bases de tecnología inteligente, lo que reducirá significativamente el umbral para las aplicaciones de tecnología inteligente. Solo se necesita una pequeña cantidad de datos anotados para permitir que la tecnología inteligente cubra una amplia gama de escenarios.

En resumen, los grandes modelos de IA tienen excelentes capacidades en generación y creación de contenido, abstracción y resumen de información, comprensión de conocimientos y preguntas y respuestas, interacción y diálogo naturales, etc., y tienen amplias perspectivas de aplicación en la industria financiera.

Con una escala de 10.000 tarjetas y billones de parámetros, los modelos grandes tienen “umbrales altos”

La iteración rápida de modelos grandes requiere el soporte de una infraestructura de almacenamiento y potencia informática eficiente.

Por un lado, la potencia informática es el motor de los modelos grandes. La capacidad de los modelos lingüísticos y visuales y los correspondientes requisitos de potencia informática se están expandiendo rápidamente. Detrás del desarrollo de grandes modelos financieros está el apoyo de una enorme potencia informática. Si utilizamos el "equivalente de potencia informática" (PetaFlops/s-día, PD), es decir, la cantidad total de potencia informática consumida por una computadora que ejecuta petaflops por segundo durante un día, para medir la potencia informática total requerida para las tareas de inteligencia artificial El entrenamiento de modelos grandes requiere cientos o incluso miles de soporte de potencia informática PD, lo que también significa enormes costos de potencia informática.

La potencia informática es el elemento central en el desarrollo de grandes modelos.

Por ejemplo, GPT-3, lanzado por OpenAI en 2020, requiere al menos decenas de miles de GPU A100 para potencia informática , y la potencia informática total para el entrenamiento de un modelo consume aproximadamente 3640 PD. Para otro ejemplo, el modelo grande en idioma chino "Fuente" lanzado por Inspur Information tiene casi 250 mil millones de parámetros de modelo y consume 4000 PD de potencia informática. Por poner otro ejemplo, la potencia informática actual equivalente a GPT-4 y PaLM-2 ha alcanzado decenas de veces la de GPT-3. Sin mencionar que Gemini, el gran modelo multimodal de próxima generación desarrollado por Google, tiene un volumen de entrenamiento que supera el GPT-4 en 5 veces.

El rápido aumento del consumo de energía informática de la IA y los presupuestos limitados de TI han puesto a la mayoría de las instituciones financieras en un dilema: quieren construir modelos grandes, pero carecen de recursos, la presión de los costos y el talento es escaso; si no construyen modelos grandes, pueden Sólo siéntate y observa cómo se pierden las oportunidades.

En este sentido, dividir y conquistar puede ser un enfoque viable. La llamada división consiste en dividir los modelos grandes en modelos grandes generales y modelos grandes de la industria. Las instituciones financieras no necesitan construir un modelo grande general por sí mismas, sino que se basan en el modelo grande general de un tercero, y se centran en construir modelos grandes industriales sobre esta base. Según el "Informe de investigación sobre arquitectura de capacidades y sistemas estándar de modelos grandes de la industria" publicado por la Academia de Tecnología de la Información y las Comunicaciones, los modelos grandes en general carecen de conocimiento profesional y datos de la industria, y los costos de construcción y capacitación son altos, lo que dificulta su logro comercial. usar. Para resolver mejor los problemas de industrias específicas, en este momento histórico surgieron grandes modelos industriales. Los modelos a gran escala de la industria pueden satisfacer las necesidades de escenarios específicos, brindar mejores servicios de alta calidad a la industria y promover la transformación y mejora inteligentes de la industria.

Guo Lei, experto en productos de servidores de IA de Inspur Information, dijo: "Las instituciones financieras pueden concentrar recursos en grandes modelos industriales, no 'cavar una zanja de un metro de profundidad en mil metros de tierra', sino 'cavar mil metros en un lugar de un metro'"de profundidad'".

Cuatro etapas de entrenamiento de modelos grandes.

Específicamente, la primera etapa del entrenamiento de modelos grandes es la etapa de preentrenamiento no supervisado. El ciclo de entrenamiento a menudo dura desde decenas de días hasta varios meses, lo que requiere miles de tarjetas GPU para calcular simultáneamente, consume una enorme potencia informática y el tiempo de entrenamiento es muy de largo El modelo es el modelo de lenguaje básico. Las instituciones financieras pueden obtener capacidades lingüísticas básicas mediante el uso de plataformas de código abierto o la cooperación de terceros (como el modelo grande "fuente" de Inspur Information). Las etapas segunda a cuarta son la etapa de ajuste fino supervisado, el entrenamiento del modelo de recompensa y el aprendizaje por refuerzo. Estas tres etapas requieren docenas o incluso cientos de tarjetas GPU para realizar cálculos al mismo tiempo. Se compara la escala del consumo de energía informática y el tiempo de entrenamiento. con los de la primera etapa han disminuido significativamente, por lo que las instituciones financieras pueden capacitarse en estas tres etapas y construir grandes modelos con ventajas en la industria financiera.

Por otro lado, la potencia informática por sí sola para modelos grandes está lejos de ser suficiente y también depende de la escala y la calidad de los datos.

La ventaja de los modelos grandes radica en su capacidad para recopilar, extraer y analizar cantidades masivas de información, que está fuera del alcance de los humanos.

Evolución de escalas de parámetros de modelos grandes.

En los últimos años, el número de parámetros de los modelos generales grandes ha aumentado rápidamente. En 2016, OpenAI lanzó la plataforma de aprendizaje por refuerzo Gym. En 2018, GPT-1 lanzó 117 millones de parámetros de modelo. Después de iteraciones continuas, la escala de parámetros de GPT-4 alcanzó 1,76 billones. Desde que Google lanzó la arquitectura Transformer (65 millones de parámetros) en 2017, ha lanzado sucesivamente BERT (300 millones de parámetros en 2018) y T5 (11 mil millones de parámetros en 2019), y la escala de parámetros ha aumentado gradualmente. Recientemente, Google lanzó el modelo generalista PaLM-E, que es el modelo de lenguaje visual más grande del mundo hasta el momento y contiene 562 mil millones de parámetros.

En las industrias verticales, el conjunto de datos de un gran modelo financiero debe incluir conocimientos profesionales en direcciones tales como informes de investigación financiera, acciones, fondos, bancos, seguros, etc., basados ​​en el gran modelo general. datos en el proceso de formación y orientación financiera Realizar preformación específica y puesta a punto en diversos campos para mejorar su desempeño en el ámbito vertical financiero.

Al mismo tiempo, la multimodalidad y la intermodalidad se han convertido en la norma, y ​​los tipos de datos de los grandes modelos financieros se han vuelto más abundantes. Entre ellos, los datos no supervisados, es decir, los datos originales, el formato de datos pueden ser páginas web, texto o datos de voz, los datos supervisados, es decir, los datos etiquetados, pueden estar en formato json o Query. Además, para brindar a los inversores servicios como opiniones de mercado en tiempo real y predicción de riesgos, las instituciones financieras deben procesar de manera eficiente datos financieros como noticias de la industria financiera, transacciones bursátiles e incluso comentarios sociales. Estas nuevas demandas y características enormes, multimodales y en tiempo real de los datos financieros son difíciles de afrontar para el almacenamiento centralizado tradicional y requieren una nueva arquitectura de almacenamiento distribuido elástica y flexible para respaldarlas.

Se puede ver que con la evolución de los grandes modelos financieros, toda la arquitectura del centro de datos cambiará. Las soluciones de pila completa, desde servidores de IA hasta almacenamiento y redes, deben adaptarse a las necesidades de la era de los grandes modelos.

¿Cómo se puede “guardar, calcular rápidamente y transmitir de manera estable” la infraestructura?

Sólo cuando los datos puedan almacenarse, la potencia informática pueda calcularse rápidamente y las redes puedan transmitirse de manera estable, la infraestructura digital podrá aprovechar plenamente el valor de los elementos de datos, promover la aplicación de grandes modelos e impulsar la prosperidad y el desarrollo de nuevos formatos comerciales.

En este sentido, basándose en la estrategia de computación inteligente, Inspur Information promueve la innovación de productos desde cuatro aspectos: potencia informática, algoritmos, datos e interconexión, y crea una base sólida para modelos grandes.

En términos de potencia informática , Inspur Information ha creado una solución de sistema de potencia informática de modelo grande líder en términos de construcción de clústeres de potencia informática, programación e implementación de potencia informática y desarrollo de modelos de algoritmos a través de prácticas de innovación de modelos a gran escala con cientos de miles de millones de parámetros para ayudar a la capacitación y el desarrollo de modelos grandes. Entre ellos, la última generación del servidor de entrenamiento de IA de arquitectura convergente NF5688G7 utiliza la GPU de arquitectura Hopper, que mejora el rendimiento medido del modelo grande casi 7 veces en comparación con la plataforma de la generación anterior. También es compatible con la última solución de refrigeración líquida, que puede lograr un menor consumo de energía y costos operativos del clúster. El PUE es inferior a 1,15. Tomando como ejemplo un centro de computación inteligente con 4.000 tarjetas, puede ahorrar 6,2 millones de kilovatios-hora de electricidad y reducir 1.700 toneladas de carbono por año.

En términos de almacenamiento , la solución de almacenamiento de IA generativa de Inspur Information utiliza un conjunto de almacenamiento convergente AS13000 para admitir la aplicación de etapa completa de IA generativa y proporciona cuatro tipos de medios: todo flash, flash mixto, biblioteca de cintas y disco óptico. admite archivos, objetos, big data y videos. , bloquea múltiples protocolos. Combinado con las cinco etapas del procesamiento de datos AIGC: recopilación, preparación, capacitación, inferencia y archivo de datos, Inspur Information brinda soporte de flujo de datos de un extremo a otro desde el mismo conjunto de almacenamiento para satisfacer las necesidades de datos multimodales, como el texto. , audio, imagen, video, código, etc. Requisitos de almacenamiento y procesamiento.

Productos de almacenamiento de información Inspur

En el nivel de interconexión de alta velocidad del clúster, Inspur Information realiza una red de velocidad de línea completa de todo el clúster basada en RDMA nativo y optimiza la topología de la red, lo que puede eliminar de manera efectiva el cuello de botella informático de la computación híbrida y garantizar que el clúster esté siempre en el mejor estado durante el entrenamiento de modelos grandes.

Actualmente, los principales bancos estatales, bancos por acciones y algunos bancos comerciales urbanos ya han llevado a cabo o planean llevar a cabo investigación y desarrollo de modelos financieros a gran escala, y la potencia informática de la IA y la infraestructura de datos marcarán el comienzo de un rápido desarrollo. Según las predicciones de IDC, la tasa de crecimiento anual compuesta de la potencia informática inteligente de China alcanzará el 52% en los próximos cinco años, y la tasa de crecimiento del almacenamiento distribuido alcanzará el doble de la tasa de crecimiento del mercado chino. En la era de los grandes modelos, las instituciones financieras deben utilizar escenarios y arquitectura de IA como punto de partida y combinar las características de los datos de cada banco para crear una nueva generación de infraestructura informática inteligente.

Supongo que te gusta

Origin blog.csdn.net/annawanglhong/article/details/133190300
Recomendado
Clasificación