蚂蚁CodeFuse-13B代码专用大模型开源;夫子·明察司法大模型、MindChat 心理大模型等项目多个新模型版本开源

蚂蚁CodeFuse-13B代码专用大模型开源;夫子·明察司法大模型、MindChat 心理大模型等项目多个新模型版本开源

小土同学 机器之心SOTA模型 2023-09-18 11:27 发表于北京

收录于合集#SOTA!Weekly78个

看看本周新进展

本周带来的 个模型项目分别用于代码生成、法律对话、心理对话、多任务代码微调等; 个工具项目分别用于大模型推理加速、知识图谱生成、大模型应用开发等。

蚂蚁自研代码生成专用大模型CodeFuse,为开发者提供全生命周期的智能支持和代码增强

CodeFuse 是蚂蚁开源代码专用大模型,可以根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释、自动生成测试用例、修复和优化代码等,以提升研发效率。CodeFuse 支持软件开发的整个生命周期,包括设计、需求、编码、测试、部署、运维和维护等关键阶段。当前开源模型版本包含 CodeFuse-13B 和 CodeFuse-CodeLlama-34B,支持多种与代码相关的任务,如代码补全、文本转代码、单元测试生成等。

获取资源:

https://sota.jiqizhixin.com/project/codefuse

图片


基于ChatGLM的司法大模型,采用海量中文无监督司法语料与有监督司法微调数据训练

夫子•明察司法大模型是由山东大学、浪潮云和中国政法大学联合研发的一种中文司法大模型,以 ChatGLM 为底座,基于海量中文无监督司法语料与有监督司法微调数据训练,支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。该模型具有法条检索回复能力、案例分析能力、司法对话能力三大特色,能够结合相关法条进行回复生成,自动分析案情并生成一个逻辑严谨的三段论式判决预测,与用户进行实时的法律问答交互。

获取资源:

https://sota.jiqizhixin.com/project/fu-zi-ming-cha

图片



开源心理大模型MindChat(漫谈),涵盖基于Qwen-7B、InternLM-7B、Baichuan-13B的微调模型

开源心理大模型 MindChat(漫谈),旨在从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们解决心理问题,提高心理健康水平。目前提供基于 Qwen-7B、InternLM-7B、Baichuan-13B 三个版本的微调模型,利用了大规模预训练模型的优势,具备处理复杂心理问题的能力。MindChat 采用了经过人工清洗的约 20 万条的高质量多轮心理对话数据进行训练, 涵盖工作、家庭、学习、生活、社交、安全等多个方面,具有以下技术优势:能够了解用户的个人经历、情感状态和行为模式,为用户提供隐私、温暖、安全、及时、方便的对话环境。

获取资源:

https://sota.jiqizhixin.com/project/mindchat

图片


消费级GPU高性能LLM推理库ExLlamaV2,支持多种量化格式并兼容HuggingFace模型

ExLlama 是一个专为消费级 GPU 上本地运行大型语言模型而设计的开源推理库,近日推出新版本 ExLlamaV2。ExLlamaV2 采用全新的代码库和内核实现,取得了显著的性能提升,支持与  V1 相同的 4 位 GPTQ 模型,同时支持新的“EXL2”格式。EXL2 基于与 GPTQ 相同的优化方法,支持 2、3、4、5、6 和 8 位量化。该格式允许在模型内混合量化级别,以实现每个权重 2 到 8 位之间的任何平均比特率,以实现既可以充分利用 GPU 的计算能力,又可以控制模型大小,适应不同的显存限制。ExLlamaV2 还集成了与 HuggingFace 模型的兼容性,并提供交互式示例和模型转换脚本。

获取资源:

https://sota.jiqizhixin.com/project/exllamav2

图片



高效训练自有Llama模型的框架Megatron-LLaMA,在100亿个tokens消耗下比DeepSpeed节省1037美元

Megatron-LLaMA 是阿里巴巴内部优化的Llama训练框架,旨在用来高效、快速地训练自己的 Llama 模型。Megatron-LLaMA 提供了标准的Llama实现,并结合了分布式优化器和新颖的梯度分片方法,实现了高效的通信与计算并行,提高了硬件资源的利用率。此外,Megatron-LLaMA 还提供了实用工具和改进的检查点机制,使得 LLaMA 模型的训练更加快速、经济和可扩展。根据 Azure 定价,与 DeepSpeed 相比,Megatron-LLaMA 在消耗 100亿个 tokens 时能够节省 1037 美元。   

获取资源:

https://sota.jiqizhixin.com/project/megatron-llama

图片


多任务微调代码大模型项目CodeFuse-MFTCoder,支持多任务、多模型、高效Lora/QLora微调

CodeFuse-MFTCoder 是多任务微调代码大模型项目,包含代码大模型的模型、数据、训练等,具备多任务、多模型、多框架、高效微调的优势。CodeFuse-MFTCoder 能同时支持多个任务,会保证多任务间的平衡,甚至可泛化到新的未见过任务上去。同时,支持最新的多个开源模型,包括 gpt-neox、llama、llama-2、baichuan、Qwen、 chatglm2 等,支持 HuggingFace 和 Torch 框架,支持 LoRA 和 QLoRA,可实现低资源微调大模型。

获取资源:

https://sota.jiqizhixin.com/project/codefuse-mftcoder

图片



开源低成本、高性能的语言大模型FLM-101B,性能与GPT-3相媲美,支持中英双语

FLM-101B 是一个开源的 decoder-only 架构的语言大模型,其训练成本仅需 10 万美元。FLM-101B 不仅大幅降低了训练成本,而且其性能表现依然非常出色。它是目前训练成本最低的 100B+ LLM 之一。通过训练前期在较小规模模型上快速学习知识,FLM-101B 采用了模型生长技术,将其逐步扩展成大模型的方式。它的性能与 GPT-3 和 GLM-130B 等性能相当,例如未见训练数据上下文的 IQ 基准评测中。FLM-101B 支持中英双语,训练上下文窗口长度为 2048,得益于使用了 xPos 旋转位置编码,推理时窗口大小可进行良好的拓展。

获取资源:

https://sota.jiqizhixin.com/project/flm-101b

图片



基于Mojo实现的llama2.c,利用Mojo的SIMD和矢量化原语相比llama2.c快20%

Mojo 是一种面向 AI 开发人员的新编程语言,它已经支持与任意 Python 代码无缝集成。近日在 llama2.c 开源项目上,开发者将在 Python 上移植的 llama2.py 移植到了 Mojo 上,比 Karpathy 的 llama.c 快了 20%。这个版本利用了 Mojo 的 SIMD 和矢量化原语,将 Python 的性能提高了近 250 倍。即使在快速运行模式下,Mojo 版本的性能也比原来的 llama2.c 高出 15-20%。

获取资源:

https://sota.jiqizhixin.com/project/llama2-mojo

图片



基于GPT3.5可根据自然语言提示或URL自动生成可视化知识图谱的开源工具InstaGraph

InstaGraph 是一个根据自然语言提示或 URL 自动生成可视化知识图谱的工具,它基于 GPT3.5,旨在帮助用户更轻松地理解和呈现复杂的知识关系。它可以将输入的自然语言提示或 URL 转化为可视化的知识图谱,以更直观、清晰的方式展示知识的结构和联系。InstaGraph 实现了更高效地进行知识整理、学习和研究,可应用于各个领域,包括教育、科研、文化艺术等。通过使用 InstaGraph,用户可以快速生成知识图谱,并从中获取重要的信息和洞见。

获取资源:

https://sota.jiqizhixin.com/project/instagraph

图片


开源大模型应用开发平台Bisheng,赋能和加速大模型应用开发落地

Bisheng 是一个开源大模型应用开发平台,旨在赋能和加速大模型应用的开发和落地。它提供了一套丰富的工具和功能,帮助用户以最佳体验进入下一代应用开发模式。通过 Bisheng 平台,用户可以搭建各类丰富的大模型应用,从而提高业务效率和质量。作为一个开源平台,Bisheng 为开发者提供了开发大型语言模型应用的工具包,并且支持训练用户自己的指令来调整模型。同时,它还提供了用于更新机器人响应的可微调模型,以及用于创建聊天机器人的完整工具包。

获取资源:

https://sota.jiqizhixin.com/project/bisheng

猜你喜欢

转载自blog.csdn.net/sinat_37574187/article/details/133018353