Aplicación práctica de modelos grandes 11-Construcción general de modelos grandes "Scholar" e introducción detallada al código del modelo, así como métodos de uso rápido

Hola a todos, soy Wei Xue AI, hoy les presentaré la aplicación práctica de los modelos grandes 11: construcción general de modelos grandes "Scholar" y detalles del código del modelo, así como métodos de uso rápido. El modelo grande general "Scholar" es un modelo grande desarrollado por el Laboratorio de Inteligencia Artificial de Shanghai, y se ha abierto una versión liviana del InternLM-7B de 7 mil millones de parámetros del modelo grande "Scholar·Puyu". El modelo InternLM-7B se desarrolla y transforma principalmente en función del decodificador en la arquitectura de transformadores. La arquitectura se construye utilizando el método de normalización RMSNorm, el método RotaryEmbedding (incrustación de posición de rotación), el mecanismo de atención y la transformación de la capa del decodificador. El modelo utiliza billones de tokens de datos de alta calidad para la capacitación y crea una poderosa base de conocimientos para proporcionar un conjunto de herramientas común para que los usuarios creen de manera flexible sus propios flujos de trabajo.

1. Modelo general de “Erudito”

El 6 de julio de 2023, el Laboratorio de Inteligencia Artificial de Shanghai (Laboratorio de IA de Shanghai) y SenseTime lanzaron conjuntamente un "Sistema de modelo grande general académico" recientemente actualizado con varias universidades. Al mismo tiempo, el Laboratorio de IA de Shanghai abrió oficialmente el código fuente InternLM-7B, una versión liviana del modelo grande de 7 mil millones de parámetros "Scholar·Puyu", y lanzó el primer sistema de código abierto de cadena completa para investigación y desarrollo de modelos grandes y aplicaciones, que A través de los datos, hay cinco enlaces principales: capacitación previa, ajuste, implementación y evaluación. InternLM-7B está totalmente abierto a la investigación académica y admite el uso comercial gratuito.
Insertar descripción de la imagen aquí

2. Evaluación del modelo InternLM-7B

El modelo InternLM-7B se evaluó exhaustivamente utilizando la herramienta de evaluación de código abierto OpenCompass. La evaluación incluye cinco dimensiones de capacidad: capacidad de la materia, capacidad de lenguaje, capacidad de conocimiento, capacidad de razonamiento y capacidad de comprensión. La siguiente es una evaluación comparativa con LLaMA-7B, Baichuan-7B, ChatGLM2-6B, Alpaca-7B y Vicuña-7B, los resultados son los siguientes:

Eso