Página de inicio de Baichuan-13B-Chat huggingface

Baichuan-13B-Chat

introducir

Baichuan-13B-Chat es la versión alineada del modelo de la serie Baichuan-13B, consulte Baichuan-13B-Base para ver el modelo preentrenado .

Baichuan-13B es un modelo de idioma a gran escala de código abierto y disponible comercialmente que contiene 13 000 millones de parámetros  desarrollados  por Baichuan Intelligent después de  Baichuan-7B . Ha logrado los mejores resultados del mismo tamaño en los puntos de referencia autorizados en chino e inglés . Esta versión contiene dos versiones de pre-entrenamiento ( Baichuan-13B-Base ) y alineación ( Baichuan-13B-Chat ). Baichuan-13B tiene las siguientes características:

  1. Mayor tamaño, más datos : Baichuan-13B   amplía aún más la cantidad de parámetros a 13 000 millones sobre la base de Baichuan -7B , y entrena 1,4 billones de tokens en un corpus de alta calidad, que es un 40 % más que LLaMA-13B. código abierto El modelo con la mayor cantidad de datos de entrenamiento en el tamaño 13B. Admite bilingüe chino e inglés, use el código de posición ALiBi, la longitud de la ventana de contexto es 4096.
  2. Modelos de preentrenamiento y alineación de código abierto al mismo tiempo : el modelo de preentrenamiento es la "base" para los desarrolladores , y la mayoría de los usuarios comunes tienen mayores demandas de modelos de alineación con funciones de diálogo . Por lo tanto, este código abierto también lanzamos el modelo de alineación (Baichuan-13B-Chat), que tiene una fuerte capacidad de diálogo y se puede usar de forma inmediata. Se puede implementar fácilmente con unas pocas líneas de código.
  3. Razonamiento más eficiente : para admitir el uso de más usuarios, hemos abierto las versiones cuantificadas de int8 e int4 al mismo tiempo. En comparación con la versión no cuantificada, reduce en gran medida el umbral de recursos de la máquina para la implementación con casi sin pérdida de efecto y se puede implementar en una tarjeta gráfica de consumo como la Nvidia 3090.
  4. Código abierto, gratuito y disponible comercialmente : Baichuan-13B no solo está completamente abierto a la investigación académica, los desarrolladores también pueden usarlo para uso comercial gratuito solo después de presentar una solicitud por correo electrónico y obtener una licencia comercial oficial.

Baichuan-13B-Chat es la versión alineada de la serie de modelos Baichuan-13B, y el modelo preentrenado se puede encontrar en  Baichuan-13B-Base .

Baichuan-13B  es un modelo de lenguaje a gran escala comercialmente utilizable y de código abierto desarrollado por Baichuan Intelligence, siguiendo a  Baichuan-7B . Con 13 000 millones de parámetros, logra el mejor rendimiento en los puntos de referencia estándar en chino e inglés entre los modelos de su tamaño. Esta versión incluye dos versiones: pre-entrenamiento (Baichuan-13B-Base) y alineación (Baichuan-13B-Chat). Baichuan-13B tiene las siguientes características:

  1. Tamaño más grande, más datos : Baichuan-13B amplía aún más el volumen de parámetros a 13 000 millones según  Baichuan-7B , y ha entrenado 1,4 billones de tokens en corpus de alta calidad, superando a LLaMA-13B en un 40 %. Actualmente es el modelo con más datos de entrenamiento en el tamaño 13B de código abierto. Es compatible con chino e inglés, utiliza la codificación de posición ALiBi y tiene una longitud de ventana de contexto de 4096.
  2. Modelos de preentrenamiento y alineación de código abierto simultáneamente : el modelo de preentrenamiento es una "base" adecuada para los desarrolladores, mientras que el público en general tiene una mayor demanda de modelos de alineación con capacidades de diálogo. Por lo tanto, en esta versión de código abierto, también lanzamos el modelo de alineación (Baichuan-13B-Chat), que tiene fuertes capacidades de diálogo y está listo para usar. Se puede implementar fácilmente con solo unas pocas líneas de código.
  3. Inferencia más eficiente : para admitir una gama más amplia de usuarios, hemos abierto las versiones cuantificadas INT8 e INT4. El modelo se puede implementar convenientemente en GPU de consumo como la Nvidia 3090 casi sin pérdida de rendimiento.
  4. De código abierto, gratuito y de uso comercial : Baichuan-13B no solo está totalmente abierto a la investigación académica, sino que los desarrolladores también pueden usarlo comercialmente de forma gratuita después de solicitar y recibir el permiso comercial oficial por correo electrónico.

Cómo utilizar

El siguiente es un ejemplo de una conversación usando Baichuan-13B-Chat. El resultado correcto es "K2. El segundo pico más alto del mundo --- K2 es llamado K2 por los escaladores occidentales. Está a 8611 metros sobre el nivel del mar y está ubicado en medio de las montañas Karakorum en la frontera con Pakistán"

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation.utils import GenerationConfig
tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-13B-Chat", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)
model.generation_config = GenerationConfig.from_pretrained("baichuan-inc/Baichuan-13B-Chat")
messages = []
messages.append({"role": "user", "content": "世界上第二高的山峰是哪座"})
response = model.chat(tokenizer, messages)
print(response)

Aquí hay un ejemplo de una conversación usando Baichuan-13B-Chat, la salida correcta es "K2. El segundo pico más alto del mundo - K2, también conocido como Mount Godwin-Austen o Chhogori, con una altitud de 8611 metros, está ubicado en el Frontera entre China y Pakistán en la Cordillera de Karakoram".

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation.utils import GenerationConfig
tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-13B-Chat", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)
model.generation_config = GenerationConfig.from_pretrained("baichuan-inc/Baichuan-13B-Chat")
messages = []
messages.append({"role": "user", "content": "Which moutain is the second highest one in the world?"})
response = model.chat(tokenizer, messages)
print(response)

Despliegue cuantitativo

Baichuan-13B admite la cuantificación int8 e int4, y los usuarios solo para realizarlo. Tenga en cuenta que si la cuantificación  se realiza para ahorrar memoria de videofrom_pretrained , el modelo de precisión original debe cargarse en la CPU antes de la cuantificación; evite  agregar  device_map='auto' u otros parámetros que causen el comportamiento de cargar el modelo de precisión original directamente en la GPU.

Baichuan-13B admite la cuantificación int8 e int4, los usuarios solo necesitan realizar un cambio simple de dos líneas en el código de inferencia para implementarlo. Tenga en cuenta que si la cuantificación se realiza para ahorrar memoria GPU, el modelo de precisión original debe cargarse en la CPU antes de iniciar la cuantificación. Evite agregar parámetros como  device_map='auto' u otros que puedan hacer que el modelo de precisión original se cargue directamente en la GPU al ejecutar  from_pretrained.

Para usar la cuantificación int8:

model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", torch_dtype=torch.float16, trust_remote_code=True)
model = model.quantize(8).cuda() 

De manera similar, para usar la cuantificación int4 (Del mismo modo, para usar la cuantificación int4):

model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", torch_dtype=torch.float16, trust_remote_code=True)
model = model.quantize(4).cuda()

Detalles del modelo

Descripcion del modelo

  • Desarrollado por:  tecnología inteligente de Baichuan

  • Correo electrónico[email protected]

  • Idioma(s) (PNL):  chino/inglés

  • Licencia:  【Licencia comunitaria para el modelo Baichuan-13B】( ZHEN )

    Para uso comercial:  contáctenos por  correo electrónico  para solicitar una autorización por escrito. (Contáctenos a través del  correo electrónico  anterior para solicitar una autorización por escrito).

estructura del modelo

El modelo general se basa en Baichuan-7B. Para obtener un mejor rendimiento de inferencia, Baichuan-13B utiliza la tecnología de polarización lineal ALiBi , que tiene una carga de cálculo más pequeña que la incrustación rotatoria y mejora significativamente el rendimiento de inferencia, en comparación con el LLaMA-13B estándar Comparado con la velocidad de inferencia promedio (tokens/s) de generar 2000 tokens, el aumento medido es del 31,6 % :

Modelo fichas/s
LLaMA-13B 19.4
Baichuan-13B 25.4

Parámetros específicos y ver la tabla a continuación

nombre del modelo dimensión de la capa oculta capas Recuento de cabezas tamaño del vocabulario parámetros totales datos de entrenamiento (tokens) código de localización La longitud máxima
Baichuan-7B 4,096 32 32 64.000 7,000,559,616 1,2 billones Soga 4,096
Baichuan-13B 5,120 40 40 64.000 13.264.901.120 1,4 billones Coartada 4,096

El modelo general se basa en Baichuan-7B. Para lograr un mejor rendimiento de inferencia, Baichuan-13B utiliza la tecnología de polarización lineal ALiBi, que tiene una carga computacional menor en comparación con la incrustación rotatoria y mejora significativamente el rendimiento de la inferencia. En comparación con el LLaMA-13B estándar, se ha probado que la velocidad de inferencia promedio (tokens/s) para generar 2000 tokens aumenta en un 31,6 %:

Modelo fichas/s
LLaMA-13B 19.4
Baichuan-13B 25.4

Los parámetros específicos son los siguientes:

Nombre del modelo Tamaño oculto Número de capas Número de cabezas de atención Tamaño de vocabulario Parámetros totales Datos de entrenamiento (fichas) Incrustación de posición Longitud máxima
Baichuan-7B 4,096 32 32 64.000 7,000,559,616 1,2 billones Soga 4,096
Baichuan-13B 5,120 40 40 64.000 13.264.901.120 1,4 billones Coartada 4,096

Términos y condiciones

descargo de responsabilidad

Declaramos que nuestro equipo de desarrollo no ha desarrollado ninguna aplicación basada en el modelo Baichuan-13B, ya sea en iOS, Android, web o cualquier otra plataforma. Instamos encarecidamente a todos los usuarios a que no utilicen el modelo Baichuan-13B para realizar actividades que pongan en peligro la seguridad social nacional o violen la ley. Además, también pedimos a los usuarios que no utilicen el modelo Baichuan-13B para los servicios de Internet sin una revisión y archivo de seguridad adecuados. Esperamos que todos los usuarios puedan cumplir con este principio para garantizar que el desarrollo de la tecnología se pueda llevar a cabo en un entorno regulado y legal.

Hemos hecho todo lo posible para garantizar el cumplimiento de los datos utilizados en el proceso de formación del modelo. Sin embargo, a pesar de nuestros grandes esfuerzos, aún pueden surgir algunos problemas imprevistos debido a la complejidad del modelo y los datos. Por lo tanto, si hay algún problema causado por el uso del modelo de fuente abierta Baichuan-13B, incluidos, entre otros, problemas de seguridad de datos, riesgos de opinión pública o cualquier riesgo y problema causado por el modelo engañoso, abusado, difundido o inapropiadamente utilizado, lo haremos No asumimos ninguna responsabilidad.

Por la presente declaramos que nuestro equipo de desarrollo no ha desarrollado ninguna aplicación basada en el modelo Baichuan-13B, ya sea en iOS, Android, la web o cualquier otra plataforma. Instamos encarecidamente a todos los usuarios a que no utilicen el modelo Baichuan-13B para ninguna actividad que perjudique la seguridad social nacional o que sea ilegal. Además, también pedimos a los usuarios que no utilicen el modelo Baichuan-13B para los servicios de Internet que no se hayan sometido a la revisión y el archivo de seguridad adecuados. Esperamos que todos los usuarios se adhieran a este principio para garantizar que el desarrollo tecnológico se lleve a cabo en un entorno regulado y legal.

Hemos hecho todo lo posible para garantizar el cumplimiento de los datos utilizados en el proceso de formación del modelo. Sin embargo, a pesar de nuestros grandes esfuerzos, debido a la complejidad del modelo y los datos, aún pueden surgir algunos problemas imprevistos. Por lo tanto, no asumiremos ninguna responsabilidad por los problemas que surjan del uso del modelo de código abierto Baichuan-13B, incluidos, entre otros, los problemas de seguridad de los datos, los riesgos de la opinión pública o cualquier riesgo y problema que surja del engaño del modelo. mal utilizado, difundido o explotado indebidamente.

detalles de entrenamiento

Ver Baichuan-13B para configuraciones de entrenamiento específicas .

Para configuraciones de entrenamiento específicas, consulte  Baichuan-13B .

Resultados de evaluación

Evaluación C

Modelo de 5 disparos PROVENIR Ciencias Sociales Humanidades Otros Promedio
Baichuan-7B 38.2 52.0 46.2 39.3 42.8
Chino-Alpaca-Plus-13B 35.2 45.6 40,0 38.2 38.8
Vicuña-13B 30.5 38.2 32.5 32.5 32.8
Chino-LLaMA-Plus-13B 30.3 38.0 32,9 29.1 32.1
Ziya-LLaMA-13B-Preentrenamiento 27.6 34.4 32,0 28.6 30.0
LLaMA-13B 27,0 33.6 27.7 27.6 28.5
musgo-luna-003-base (16B) 27,0 29.1 27.2 26,9 27.4
Baichuan-13B-Base 45,9 63.5 57.2 49.3 52.4
Baichuan-13B-Chat 43.7 64.6 56.2 49.2 51.5

MMLU

Modelo de 5 disparos PROVENIR Ciencias Sociales Humanidades Otros Promedio
Vicuña-13B 40.4 60.5 49.5 58.4 52.0
LLaMA-13B 36.1 53.0 44.0 52.8 46.3
Chino-Alpaca-Plus-13B 36,9 48,9 40.5 50.5 43,9
Ziya-LLaMA-13B-Preentrenamiento 35.6 47.6 40.1 49.4 42,9
Baichuan-7B 35.6 48,9 38.4 48.1 42.3
Chino-LLaMA-Plus-13B 33.1 42.8 37.0 44.6 39.2
musgo-luna-003-base (16B) 22.4 22.8 24.2 24.4 23.6
Baichuan-13B-Base 41.6 60,9 47.4 58.5 51.6
Baichuan-13B-Chat 40,9 60,9 48.8 59.0 52.1

Nota: Adoptamos el programa de evaluación oficial de MMLU .

CMMLU

Modelo de 5 disparos PROVENIR Humanidades Ciencias Sociales Otros Específico de China Promedio
Baichuan-7B 34.4 47.5 47.6 46.6 44.3 44.0
Vicuña-13B 31.8 36.2 37.6 39.5 34.3 36.3
Chino-Alpaca-Plus-13B 29.8 33.4 33.2 37,9 32.1 33.4
Chino-LLaMA-Plus-13B 28.1 33.1 35.4 35.1 33.5 33.0
Ziya-LLaMA-13B-Preentrenamiento 29,0 30.7 33.8 34.4 31,9 32.1
LLaMA-13B 29.2 30.8 31.6 33.0 30.5 31.2
musgo-luna-003-base (16B) 27.2 30.4 28.8 32.6 28.7 29.6
Baichuan-13B-Base 41.7 61.1 59.8 59.0 56.4 55.3
Baichuan-13B-Chat 42.8 62.6 59.7 59.0 56.1 55,8

Descripción: CMMLU es un punto de referencia de evaluación integral de chino diseñado específicamente para evaluar el conocimiento y la capacidad de razonamiento de los modelos de lenguaje en el contexto chino. Adoptamos su programa de evaluación oficial .

Supongo que te gusta

Origin blog.csdn.net/sinat_37574187/article/details/132191106
Recomendado
Clasificación