El modelo grande específico del código Ant CodeFuse-13B es de código abierto; múltiples versiones nuevas del modelo judicial Fuzi·Mingcha, el modelo grande psicológico MindChat y otros proyectos son de código abierto.

El modelo grande específico del código Ant CodeFuse-13B es de código abierto; múltiples versiones nuevas del modelo judicial Fuzi·Mingcha, el modelo grande psicológico MindChat y otros proyectos son de código abierto.

Modelo SOTA de corazón de máquina de  Classmate Xiaotu  publicado en Beijing el 2023-09-18 11:27 

¡Destacado en la colección #SOTA! Semanal78

Mira las novedades de esta semana

Los 5  proyectos modelo presentados esta semana  se utilizan para generación de código, diálogo legal, diálogo psicológico, ajuste de código multitarea, etc.; los  proyectos de herramientas se utilizan para aceleración del razonamiento de modelos grandes, generación de gráficos de conocimiento y desarrollo de aplicaciones de modelos grandes. , etc.

CodeFuse , el gran modelo de desarrollo propio de Ant dedicado a , proporciona a los desarrolladores soporte inteligente de ciclo de vida completo y mejoras de código.

CodeFuse es un modelo grande dedicado al código fuente abierto de Ant. Puede proporcionar sugerencias inteligentes y soporte en tiempo real basado en las aportaciones de los desarrolladores, ayudando a los desarrolladores a generar código automáticamente, agregar comentarios automáticamente, generar casos de prueba automáticamente, reparar y optimizar código, etc. para mejorar la eficiencia de la investigación y el desarrollo. CodeFuse respalda todo el ciclo de vida del desarrollo de software, incluidas etapas clave como diseño, requisitos, codificación, pruebas, implementación, operación y mantenimiento. La versión actual del modelo de código abierto incluye CodeFuse-13B y CodeFuse-CodeLlama-34B , que admite una variedad de tareas relacionadas con el código, como finalización de código, texto a código, generación de pruebas unitarias , etc.

Acceso a recursos:

https://sota.jiqizhixin.com/project/codefuse

imagen


Un gran modelo judicial basado en ChatGLM, entrenado utilizando un enorme corpus judicial chino no supervisado y datos de ajuste judicial supervisados.

El modelo judicial Fuzi · Mingcha es un modelo judicial chino desarrollado conjuntamente por la Universidad de Shandong, Inspur Cloud y la Universidad de Ciencias Políticas y Derecho de China. Está basado en ChatGLM y está capacitado en base a un corpus judicial chino masivo no supervisado y datos de ajuste judicial supervisados. Soporta disposiciones legales Funciones como búsqueda, análisis de casos, razonamiento de silogismo y diálogo judicial están diseñadas para brindar a los usuarios servicios de respuesta y consulta legal integrales y de alta precisión. Este modelo tiene tres características principales: capacidades de respuesta y recuperación de artículos legales, capacidades de análisis de casos y capacidades de diálogo judicial. Puede generar respuestas basadas en disposiciones legales relevantes, analizar automáticamente el caso y generar una predicción de juicio de silogismo lógicamente rigurosa y realizar investigaciones reales. Tiempo de preguntas y respuestas legales con los usuarios Interacción.

Acceso a recursos:

https://sota.jiqizhixin.com/project/fu-zi-ming-cha

imagen



Modelo psicológico grande de código abierto MindChat (discusión), que cubre modelos de ajuste fino basados ​​en Qwen-7B, InternLM-7B y Baichuan-13B

MindChat, un gran modelo psicológico de código abierto , tiene como objetivo ayudar a las personas a resolver problemas psicológicos y mejorar su salud mental desde las cuatro dimensiones de consulta psicológica, evaluación psicológica, diagnóstico psicológico y tratamiento psicológico . Actualmente, se proporcionan tres versiones de modelos ajustados basados ​​en Qwen-7B, InternLM-7B y Baichuan-13B, que aprovechan el modelo de preentrenamiento a gran escala y tienen la capacidad de manejar problemas psicológicos complejos. MindChat utiliza aproximadamente 200.000 datos de conversaciones psicológicas de múltiples rondas de alta calidad que se han limpiado manualmente para la capacitación, cubriendo muchos aspectos como el trabajo, la familia, el estudio, la vida, la interacción social y la seguridad. Tiene las siguientes ventajas técnicas: Puede comprender la experiencia personal, los estados emocionales y los patrones de comportamiento del usuario, brindando a los usuarios un ambiente de conversación privado, cálido, seguro, oportuno y conveniente.

Acceso a recursos:

https://sota.jiqizhixin.com/project/mindchat

imagen


ExLlamaV2, una biblioteca de inferencia LLM de alto rendimiento para GPU de consumo, admite múltiples formatos de cuantificación y es compatible con el modelo HuggingFace.

ExLlama es una biblioteca de inferencia de código abierto diseñada para ejecutar grandes modelos de lenguaje localmente en GPU de consumo. Recientemente lanzó una nueva versión, ExLlamaV2. ExLlamaV2 se implementa con una nueva base de código y kernel, logrando importantes mejoras de rendimiento, soportando el mismo modelo GPTQ de 4 bits que V1, y también soporta el nuevo formato "EXL2". EXL2 se basa en los mismos métodos de optimización que GPTQ y admite cuantificación de 2, 3, 4, 5, 6 y 8 bits. El formato permite mezclar niveles de cuantificación dentro del modelo para lograr cualquier tasa de bits promedio entre 2 y 8 bits por peso para utilizar completamente la potencia informática de la GPU mientras se controla el tamaño del modelo para adaptarse a diferentes limitaciones de memoria de video. ExLlamaV2 también integra compatibilidad con el modelo HuggingFace y proporciona ejemplos interactivos y scripts de conversión de modelos.

Acceso a recursos:

https://sota.jiqizhixin.com/project/exllamav2

imagen



Megatron-LLaMA, un marco para entrenar eficientemente su propio modelo Llama, ahorra $1,037 en comparación con DeepSpeed ​​​​a un costo de 10 mil millones de tokens.

Megatron-LLaMA es el marco de entrenamiento de Llamas optimizado internamente de Alibaba, diseñado para entrenar su propio modelo de Llama de manera eficiente y rápida. Megatron-LLaMA proporciona una implementación estándar de Llama y combina un optimizador distribuido y un novedoso método de corte de gradiente para lograr una comunicación eficiente y un paralelismo informático y mejorar la utilización de los recursos de hardware. Además, Megatron-LLaMA también proporciona herramientas prácticas y un mecanismo de punto de control mejorado, lo que hace que el entrenamiento de modelos LLaMA sea más rápido, económico y escalable. Según los precios de Azure, en comparación con DeepSpeed, Megatron-LLaMA puede ahorrar $1,037 al consumir 10 mil millones de tokens.   

Acceso a recursos:

https://sota.jiqizhixin.com/project/megatron-llama

imagen


Proyecto de modelo grande de código de ajuste fino multitarea CodeFuse-MFTCoder admite ajuste fino Lora/QLora eficiente, multitarea y multimodelo

CodeFuse-MFTCoder es un proyecto de modelo de código grande de ajuste fino multitarea, que incluye modelos, datos, entrenamiento, etc. del modelo de código grande, y tiene las ventajas de multitarea, multimodelo, multimarco y ajuste eficiente. CodeFuse-MFTCoder puede admitir múltiples tareas al mismo tiempo, garantizar el equilibrio entre múltiples tareas e incluso puede generalizarse a nuevas tareas invisibles. Al mismo tiempo, es compatible con los últimos modelos de código abierto, incluidos gpt-neox, llama, llama-2, baichuan, Qwen, chatglm2, etc. , admite los marcos HuggingFace y Torch, admite LoRA y QLoRA y puede realizar ajustes a gran escala. Modelos con bajos recursos.

Acceso a recursos:

https://sota.jiqizhixin.com/project/codefuse-mftcoder

imagen



Modelo de lenguaje grande FLM-101B de código abierto, bajo costo y alto rendimiento, el rendimiento es comparable al GPT-3, admite bilingüe chino e inglés

FLM-101B es un modelo de lenguaje grande de código abierto con una arquitectura de solo decodificador y su costo de capacitación es de solo 100.000 dólares estadounidenses. El FLM-101B no sólo reduce significativamente los costos de capacitación, sino que su rendimiento sigue siendo excelente. Es uno de los más de 100 mil millones de LLM con el costo de capacitación más bajo actualmente. Al aprender rápidamente conocimientos sobre un modelo de menor escala en la etapa inicial de entrenamiento, FLM-101B utiliza tecnología de crecimiento de modelos para expandirlo gradualmente a un modelo grande. Su rendimiento es comparable al de GPT-3 y GLM-130B, por ejemplo en el benchmark IQ sin el contexto de los datos de entrenamiento. FLM-101B admite bilingüe chino e inglés, y la longitud de la ventana del contexto de entrenamiento es 2048. Gracias al uso de la codificación de posición rotacional xPos, el tamaño de la ventana se puede expandir bien durante la inferencia.

Acceso a recursos:

https://sota.jiqizhixin.com/project/flm-101b

imagen



llama2.c implementado en base a Mojo, usando SIMD y primitivas de vectorización de Mojo es un 20% más rápido que llama2.c

Mojo es un nuevo lenguaje de programación para desarrolladores de IA que ya admite una integración perfecta con cualquier código Python. Recientemente, en el proyecto de código abierto llama2.c, los desarrolladores trasladaron llama2.py en Python a Mojo, que es un 20% más rápido que llama.c de Karpathy. Esta versión aprovecha las primitivas de vectorización y SIMD de Mojo para mejorar el rendimiento de Python casi 250 veces. Incluso en modo de ejecución rápida, la versión Mojo funciona entre un 15 y un 20% mejor que el llama2.c original.

Acceso a recursos:

https://sota.jiqizhixin.com/project/llama2-mojo

imagen



InstaGraph es una herramienta de código abierto basada en GPT3.5 que puede generar automáticamente gráficos de conocimiento visual basados ​​en indicaciones de lenguaje natural o URL.

InstaGraph es una herramienta que genera automáticamente gráficos de conocimiento visual basados ​​en indicaciones de lenguaje natural o URL. Está basado en GPT3.5 y tiene como objetivo ayudar a los usuarios a comprender y presentar relaciones de conocimiento complejas más fácilmente. Puede convertir indicaciones de entrada en lenguaje natural o URL en gráficos de conocimiento visual para mostrar la estructura y las conexiones del conocimiento de una manera más intuitiva y clara. InstaGraph permite una organización del conocimiento, el aprendizaje y la investigación más eficientes, y puede aplicarse a diversos campos, incluida la educación, la investigación científica, la cultura y el arte, etc. Al utilizar InstaGraph, los usuarios pueden generar rápidamente gráficos de conocimiento y obtener información y conocimientos importantes de ellos.

Acceso a recursos:

https://sota.jiqizhixin.com/project/instagraph

imagen


Bisheng , una plataforma de desarrollo de aplicaciones de modelos grandes de código abierto , potencia y acelera el desarrollo de aplicaciones de modelos grandes.

Bisheng es una plataforma de desarrollo de aplicaciones de modelos grandes de código abierto diseñada para potenciar y acelerar el desarrollo y la implementación de aplicaciones de modelos grandes. Proporciona un amplio conjunto de herramientas y funciones para ayudar a los usuarios a ingresar al modelo de desarrollo de aplicaciones de próxima generación con la mejor experiencia. A través de la plataforma Bisheng, los usuarios pueden crear una variedad de aplicaciones ricas de modelos grandes para mejorar la eficiencia y la calidad del negocio. Como plataforma de código abierto, Bisheng proporciona a los desarrolladores un conjunto de herramientas para desarrollar aplicaciones de modelos de lenguaje a gran escala y admite la capacitación de las propias instrucciones de los usuarios para ajustar el modelo. Al mismo tiempo, también proporciona modelos ajustables para actualizar las respuestas de los bots y un conjunto de herramientas completo para crear chatbots.

Acceso a recursos:

https://sota.jiqizhixin.com/project/bisheng

Supongo que te gusta

Origin blog.csdn.net/sinat_37574187/article/details/133018353
Recomendado
Clasificación