O modelo grande específico do código Ant CodeFuse-13B é de código aberto; várias novas versões do modelo judicial grande Fuzi·Mingcha, o grande modelo psicológico MindChat e outros projetos são de código aberto

O modelo grande específico do código Ant CodeFuse-13B é de código aberto; várias novas versões do modelo judicial grande Fuzi·Mingcha, o grande modelo psicológico MindChat e outros projetos são de código aberto

Modelo SOTA de coração de máquina do  colega Xiaotu  publicado em Pequim em 18/09/2023 11:27 

Destaque na coleção #SOTA! Semanal78

Confira as novidades desta semana

Os 5  projetos de modelo trazidos esta semana  são usados ​​para geração de código, diálogo jurídico, diálogo psicológico, ajuste fino de código multitarefa, etc.; os  projetos de ferramentas são usados ​​para aceleração de raciocínio de modelos grandes, geração de gráficos de conhecimento, desenvolvimento de aplicativos de modelos grandes , etc.

CodeFuse , o grande modelo desenvolvido pela Ant dedicado à , fornece aos desenvolvedores suporte inteligente de ciclo de vida completo e aprimoramentos de código.

CodeFuse é um grande modelo dedicado ao código-fonte aberto Ant, que pode fornecer sugestões inteligentes e suporte em tempo real com base na entrada do desenvolvedor, ajudando os desenvolvedores a gerar código automaticamente, adicionar comentários automaticamente, gerar casos de teste automaticamente, reparar e otimizar código, etc., para melhorar a eficiência da investigação e desenvolvimento. CodeFuse oferece suporte a todo o ciclo de vida de desenvolvimento de software, incluindo estágios importantes como design, requisitos, codificação, teste, implantação, operação e manutenção. A versão atual do modelo de código aberto inclui CodeFuse-13B e CodeFuse-CodeLlama-34B , que suporta uma variedade de tarefas relacionadas ao código, como conclusão de código, texto para código, geração de teste de unidade , etc.

Acesso a recursos:

https://sota.jiqizhixin.com/project/codefuse

foto


Um grande modelo judicial baseado em ChatGLM, treinado usando um enorme corpus judicial chinês não supervisionado e dados de ajuste fino judicial supervisionados

O Modelo Judicial Fuzi·Mingcha é um modelo judicial chinês desenvolvido em conjunto pela Universidade de Shandong, Inspur Cloud e Universidade Chinesa de Ciência Política e Direito. É baseado no ChatGLM e é treinado com base em enorme corpus judicial chinês não supervisionado e dados de ajuste fino judicial supervisionados. Apoia disposições legais Funções como pesquisa, análise de casos, raciocínio silogístico e diálogo judicial são projetadas para fornecer aos usuários serviços de consulta e resposta jurídica abrangentes e de alta precisão. Este modelo tem três características principais: capacidade de recuperação e resposta de artigos jurídicos, capacidade de análise de caso e capacidade de diálogo judicial.Ele pode gerar respostas com base em disposições legais relevantes, analisar automaticamente o caso e gerar uma previsão de julgamento de silogismo logicamente rigorosa e conduzir real- perguntas e respostas jurídicas em tempo real com os usuários.

Acesso a recursos:

https://sota.jiqizhixin.com/project/fu-zi-ming-cha

foto



Grande modelo psicológico de código aberto MindChat (talk), cobrindo modelos de ajuste fino baseados em Qwen-7B, InternLM-7B e Baichuan-13B

MindChat, um grande modelo psicológico de código aberto , visa ajudar as pessoas a resolver problemas psicológicos e melhorar sua saúde mental a partir das quatro dimensões de consulta psicológica, avaliação psicológica, diagnóstico psicológico e tratamento psicológico . Atualmente, são fornecidas três versões de modelos ajustados baseados em Qwen-7B, InternLM-7B e Baichuan-13B, que aproveitam o modelo de pré-treinamento em larga escala e têm a capacidade de lidar com problemas psicológicos complexos. MindChat usa aproximadamente 200.000 dados de conversas psicológicas multi-round de alta qualidade que foram limpos manualmente para treinamento, cobrindo muitos aspectos como trabalho, família, estudo, vida, interação social e segurança. Tem as seguintes vantagens técnicas: Pode compreender a experiência pessoal do usuário, estados emocionais e padrões de comportamento, proporcionando aos usuários um ambiente de conversa privado, caloroso, seguro, oportuno e conveniente.

Acesso a recursos:

https://sota.jiqizhixin.com/project/mindchat

foto


ExLlamaV2, uma biblioteca de inferência LLM de alto desempenho para GPUs de consumo, oferece suporte a vários formatos de quantização e é compatível com o modelo HuggingFace.

ExLlama é uma biblioteca de inferência de código aberto projetada para executar grandes modelos de linguagem localmente em GPUs de consumo. Recentemente, lançou uma nova versão, ExLlamaV2. ExLlamaV2 é implementado com uma nova base de código e kernel, alcançando melhorias significativas de desempenho, suportando o mesmo modelo GPTQ de 4 bits que V1, e também suporta o novo formato "EXL2". EXL2 é baseado nos mesmos métodos de otimização do GPTQ e suporta quantização de 2, 3, 4, 5, 6 e 8 bits. O formato permite a mistura de níveis de quantização dentro do modelo para atingir qualquer taxa de bits média entre 2 e 8 bits por peso para utilizar totalmente o poder de computação da GPU enquanto controla o tamanho do modelo para acomodar diferentes restrições de memória de vídeo. ExLlamaV2 também integra compatibilidade com o modelo HuggingFace e fornece exemplos interativos e scripts de conversão de modelo.

Acesso a recursos:

https://sota.jiqizhixin.com/project/exllamav2

foto



Megatron-LLaMA, uma estrutura para treinar com eficiência seu próprio modelo Llama, economiza US$ 1.037 em comparação com DeepSpeed ​​​​ao custo de 10 bilhões de tokens.

Megatron-LLaMA é a estrutura de treinamento Llama otimizada internamente do Alibaba, projetada para treinar seu próprio modelo Llama com eficiência e rapidez. Megatron-LLaMA fornece uma implementação Llama padrão e combina um otimizador distribuído e um novo método de corte de gradiente para obter comunicação eficiente e paralelismo computacional e melhorar a utilização de recursos de hardware. Além disso, o Megatron-LLaMA também fornece ferramentas práticas e um mecanismo de checkpoint aprimorado, tornando o treinamento de modelos LLaMA mais rápido, econômico e escalável. De acordo com os preços do Azure, em comparação com o DeepSpeed, o Megatron-LLaMA pode economizar US$ 1.037 ao consumir 10 bilhões de tokens.   

Acesso a recursos:

https://sota.jiqizhixin.com/project/megatron-llama

foto


Projeto de modelo grande de código de ajuste fino multitarefa CodeFuse-MFTCoder suporta ajuste fino Lora/QLora multitarefa, multimodelo e eficiente

CodeFuse-MFTCoder é um projeto de modelo de código grande de ajuste fino multitarefa, incluindo o modelo, dados, treinamento, etc. do modelo de código grande. Ele tem as vantagens de multitarefa, multimodelo, multiframework e ajuste fino eficiente. CodeFuse-MFTCoder pode suportar múltiplas tarefas ao mesmo tempo, garantir o equilíbrio entre múltiplas tarefas e pode até ser generalizado para novas tarefas invisíveis. Ao mesmo tempo, ele suporta os modelos de código aberto mais recentes, incluindo gpt-neox, llama, llama-2, baichuan, Qwen, chatglm2, etc. , suporta estruturas HuggingFace e Torch, suporta LoRA e QLoRA e pode ajustar grandes modelos com poucos recursos.

Acesso a recursos:

https://sota.jiqizhixin.com/project/codefuse-mftcoder

foto



Modelo de código aberto de baixo custo e alto desempenho para idiomas grandes FLM-101B, o desempenho é comparável ao GPT-3, suporta bilíngue em chinês e inglês

FLM-101B é um modelo de linguagem grande de código aberto com uma arquitetura apenas de decodificador e seu custo de treinamento é de apenas US$ 100.000. O FLM-101B não apenas reduz significativamente os custos de treinamento, mas seu desempenho ainda é excelente. É um dos 100B+ LLMs com o menor custo de treinamento atualmente. Ao aprender rapidamente o conhecimento sobre um modelo de menor escala na fase inicial do treinamento, o FLM-101B usa a tecnologia de crescimento do modelo para expandi-lo gradualmente para um modelo grande. Seu desempenho é comparável ao do GPT-3 e do GLM-130B, por exemplo, no benchmark IQ sem o contexto dos dados de treinamento. O FLM-101B oferece suporte bilíngue em chinês e inglês, e o comprimento da janela de contexto de treinamento é 2.048. Graças ao uso da codificação de posição rotacional xPos, o tamanho da janela pode ser bem expandido durante a inferência.

Acesso a recursos:

https://sota.jiqizhixin.com/project/flm-101b

foto



llama2.c implementado com base no Mojo, usando SIMD do Mojo e primitivas de vetorização é 20% mais rápido que llama2.c

Mojo é uma nova linguagem de programação para desenvolvedores de IA que já suporta integração perfeita com qualquer código Python. Recentemente, no projeto de código aberto llama2.c, os desenvolvedores portaram o llama2.py portado em Python para o Mojo, que é 20% mais rápido que o llama.c do Karpathy. Esta versão aproveita o SIMD e as primitivas de vetorização do Mojo para melhorar o desempenho do Python em quase 250 vezes. Mesmo no modo de execução rápida, a versão Mojo tem um desempenho 15-20% melhor que o llama2.c original.

Acesso a recursos:

https://sota.jiqizhixin.com/project/llama2-mojo

foto



InstaGraph é uma ferramenta de código aberto baseada em GPT3.5 que pode gerar automaticamente gráficos de conhecimento visual com base em prompts de linguagem natural ou URLs.

InstaGraph é uma ferramenta que gera automaticamente gráficos de conhecimento visual com base em prompts de linguagem natural ou URLs. É baseado em GPT3.5 e tem como objetivo ajudar os usuários a compreender e apresentar relações de conhecimento complexas com mais facilidade. Ele pode converter prompts de linguagem natural ou URLs de entrada em gráficos de conhecimento visual para exibir a estrutura e as conexões do conhecimento de uma forma mais intuitiva e clara. O InstaGraph permite uma organização mais eficiente do conhecimento, aprendizagem e pesquisa, e pode ser aplicado a vários campos, incluindo educação, pesquisa científica, cultura e arte, etc. Ao usar o InstaGraph, os usuários podem gerar rapidamente gráficos de conhecimento e obter deles informações e insights importantes.

Acesso a recursos:

https://sota.jiqizhixin.com/project/instagraph

foto


Bisheng , uma plataforma de desenvolvimento de aplicativos de modelo grande de código aberto , capacita e acelera o desenvolvimento de aplicativos de modelo grande.

Bisheng é uma plataforma de desenvolvimento de aplicativos de modelo grande de código aberto projetada para capacitar e acelerar o desenvolvimento e implementação de aplicativos de modelo grande. Ele fornece um rico conjunto de ferramentas e recursos para ajudar os usuários a entrar no modelo de desenvolvimento de aplicativos da próxima geração com a melhor experiência. Por meio da plataforma Bisheng, os usuários podem construir uma variedade de aplicativos ricos em modelos grandes para melhorar a eficiência e a qualidade dos negócios. Como uma plataforma de código aberto, Bisheng fornece aos desenvolvedores um kit de ferramentas para o desenvolvimento de aplicativos de modelo de linguagem em grande escala e oferece suporte ao treinamento das próprias instruções dos usuários para ajustar o modelo. Ao mesmo tempo, também fornece modelos ajustáveis ​​para atualização de respostas de bots e um kit de ferramentas completo para criação de chatbots.

Acesso a recursos:

https://sota.jiqizhixin.com/project/bisheng

Acho que você gosta

Origin blog.csdn.net/sinat_37574187/article/details/133018353
Recomendado
Clasificación