蚂蚁CodeFuse-13B代码专用大模型开源；夫子·明察司法大模型、MindChat 心理大模型等项目多个新模型版本开源

小土同学机器之心SOTA模型 2023-09-18 11:27 发表于北京

收录于合集#SOTA！Weekly78个

看看本周新进展

本周带来的 5 个模型项目分别用于代码生成、法律对话、心理对话、多任务代码微调等； 5 个工具项目分别用于大模型推理加速、知识图谱生成、大模型应用开发等。

蚂蚁自研代码生成专用大模型CodeFuse，为开发者提供全生命周期的智能支持和代码增强

CodeFuse 是蚂蚁开源代码专用大模型，可以根据开发者的输入提供智能建议和实时支持，帮助开发者自动生成代码、自动增加注释、自动生成测试用例、修复和优化代码等，以提升研发效率。CodeFuse 支持软件开发的整个生命周期，包括设计、需求、编码、测试、部署、运维和维护等关键阶段。当前开源模型版本包含 CodeFuse-13B 和 CodeFuse-CodeLlama-34B，支持多种与代码相关的任务，如代码补全、文本转代码、单元测试生成等。

获取资源：

https://sota.jiqizhixin.com/project/codefuse

基于ChatGLM的司法大模型，采用海量中文无监督司法语料与有监督司法微调数据训练

夫子•明察司法大模型是由山东大学、浪潮云和中国政法大学联合研发的一种中文司法大模型，以 ChatGLM 为底座，基于海量中文无监督司法语料与有监督司法微调数据训练，支持法条检索、案例分析、三段论推理判决以及司法对话等功能，旨在为用户提供全方位、高精准的法律咨询与解答服务。该模型具有法条检索回复能力、案例分析能力、司法对话能力三大特色，能够结合相关法条进行回复生成，自动分析案情并生成一个逻辑严谨的三段论式判决预测，与用户进行实时的法律问答交互。

获取资源：

https://sota.jiqizhixin.com/project/fu-zi-ming-cha

开源心理大模型MindChat（漫谈），涵盖基于Qwen-7B、InternLM-7B、Baichuan-13B的微调模型

开源心理大模型 MindChat（漫谈），旨在从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们解决心理问题，提高心理健康水平。目前提供基于 Qwen-7B、InternLM-7B、Baichuan-13B 三个版本的微调模型，利用了大规模预训练模型的优势，具备处理复杂心理问题的能力。MindChat 采用了经过人工清洗的约 20 万条的高质量多轮心理对话数据进行训练, 涵盖工作、家庭、学习、生活、社交、安全等多个方面，具有以下技术优势：能够了解用户的个人经历、情感状态和行为模式，为用户提供隐私、温暖、安全、及时、方便的对话环境。

获取资源：

https://sota.jiqizhixin.com/project/mindchat

消费级GPU高性能LLM推理库ExLlamaV2，支持多种量化格式并兼容HuggingFace模型

ExLlama 是一个专为消费级 GPU 上本地运行大型语言模型而设计的开源推理库，近日推出新版本 ExLlamaV2。ExLlamaV2 采用全新的代码库和内核实现，取得了显著的性能提升，支持与 V1 相同的 4 位 GPTQ 模型，同时支持新的“EXL2”格式。EXL2 基于与 GPTQ 相同的优化方法，支持 2、3、4、5、6 和 8 位量化。该格式允许在模型内混合量化级别，以实现每个权重 2 到 8 位之间的任何平均比特率，以实现既可以充分利用 GPU 的计算能力，又可以控制模型大小，适应不同的显存限制。ExLlamaV2 还集成了与 HuggingFace 模型的兼容性，并提供交互式示例和模型转换脚本。

获取资源：

https://sota.jiqizhixin.com/project/exllamav2

高效训练自有Llama模型的框架Megatron-LLaMA，在100亿个tokens消耗下比DeepSpeed节省1037美元

Megatron-LLaMA 是阿里巴巴内部优化的Llama训练框架，旨在用来高效、快速地训练自己的 Llama 模型。Megatron-LLaMA 提供了标准的Llama实现，并结合了分布式优化器和新颖的梯度分片方法，实现了高效的通信与计算并行，提高了硬件资源的利用率。此外，Megatron-LLaMA 还提供了实用工具和改进的检查点机制，使得 LLaMA 模型的训练更加快速、经济和可扩展。根据 Azure 定价，与 DeepSpeed 相比，Megatron-LLaMA 在消耗 100亿个 tokens 时能够节省 1037 美元。

获取资源：

https://sota.jiqizhixin.com/project/megatron-llama

多任务微调代码大模型项目CodeFuse-MFTCoder，支持多任务、多模型、高效Lora/QLora微调

CodeFuse-MFTCoder 是多任务微调代码大模型项目，包含代码大模型的模型、数据、训练等，具备多任务、多模型、多框架、高效微调的优势。CodeFuse-MFTCoder 能同时支持多个任务，会保证多任务间的平衡，甚至可泛化到新的未见过任务上去。同时，支持最新的多个开源模型，包括 gpt-neox、llama、llama-2、baichuan、Qwen、 chatglm2 等，支持 HuggingFace 和 Torch 框架，支持 LoRA 和 QLoRA，可实现低资源微调大模型。

获取资源：

https://sota.jiqizhixin.com/project/codefuse-mftcoder

开源低成本、高性能的语言大模型FLM-101B，性能与GPT-3相媲美，支持中英双语

FLM-101B 是一个开源的 decoder-only 架构的语言大模型，其训练成本仅需 10 万美元。FLM-101B 不仅大幅降低了训练成本，而且其性能表现依然非常出色。它是目前训练成本最低的 100B+ LLM 之一。通过训练前期在较小规模模型上快速学习知识，FLM-101B 采用了模型生长技术，将其逐步扩展成大模型的方式。它的性能与 GPT-3 和 GLM-130B 等性能相当，例如未见训练数据上下文的 IQ 基准评测中。FLM-101B 支持中英双语，训练上下文窗口长度为 2048，得益于使用了 xPos 旋转位置编码，推理时窗口大小可进行良好的拓展。

获取资源：

https://sota.jiqizhixin.com/project/flm-101b

基于Mojo实现的llama2.c，利用Mojo的SIMD和矢量化原语相比llama2.c快20%

Mojo 是一种面向 AI 开发人员的新编程语言，它已经支持与任意 Python 代码无缝集成。近日在 llama2.c 开源项目上，开发者将在 Python 上移植的 llama2.py 移植到了 Mojo 上，比 Karpathy 的 llama.c 快了 20%。这个版本利用了 Mojo 的 SIMD 和矢量化原语，将 Python 的性能提高了近 250 倍。即使在快速运行模式下，Mojo 版本的性能也比原来的 llama2.c 高出 15-20%。

获取资源：

https://sota.jiqizhixin.com/project/llama2-mojo

基于GPT3.5可根据自然语言提示或URL自动生成可视化知识图谱的开源工具InstaGraph

InstaGraph 是一个根据自然语言提示或 URL 自动生成可视化知识图谱的工具，它基于 GPT3.5，旨在帮助用户更轻松地理解和呈现复杂的知识关系。它可以将输入的自然语言提示或 URL 转化为可视化的知识图谱，以更直观、清晰的方式展示知识的结构和联系。InstaGraph 实现了更高效地进行知识整理、学习和研究，可应用于各个领域，包括教育、科研、文化艺术等。通过使用 InstaGraph，用户可以快速生成知识图谱，并从中获取重要的信息和洞见。

获取资源：

https://sota.jiqizhixin.com/project/instagraph

开源大模型应用开发平台Bisheng，赋能和加速大模型应用开发落地

Bisheng 是一个开源大模型应用开发平台，旨在赋能和加速大模型应用的开发和落地。它提供了一套丰富的工具和功能，帮助用户以最佳体验进入下一代应用开发模式。通过 Bisheng 平台，用户可以搭建各类丰富的大模型应用，从而提高业务效率和质量。作为一个开源平台，Bisheng 为开发者提供了开发大型语言模型应用的工具包，并且支持训练用户自己的指令来调整模型。同时，它还提供了用于更新机器人响应的可微调模型，以及用于创建聊天机器人的完整工具包。

获取资源：

https://sota.jiqizhixin.com/project/bisheng

蚂蚁CodeFuse-13B代码专用大模型开源；夫子·明察司法大模型、MindChat 心理大模型等项目多个新模型版本开源

蚂蚁CodeFuse-13B代码专用大模型开源；夫子·明察司法大模型、MindChat 心理大模型等项目多个新模型版本开源

猜你喜欢