ChatGPT中文LLM相关的开源大模型资源汇总

chatglm2-6b大模型演示


前言

自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其卓越的人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本文旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料分享给大家!


1.文本LLM模型

1.1 ChatGLM-6B

  • 地址:https://github.com/THUDM/ChatGLM-6B
  • 演示在这里插入图片描述
  • 简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持

1.2 ChatGLM2-6B

  • 地址:https://github.com/THUDM/ChatGLM2-6B

  • 演示
    在这里插入图片描述

  • 简介:基于开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练;基座模型的上下文长度扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练;基于 Multi-Query Attention 技术实现更高效的推理速度和更低的显存占用。

1.3 Moss

  • 地址:https://github.com/OpenLMLab/MOSS

  • 演示
    在这里插入图片描述

  • 简介:支持中英双语和多种插件的开源对话语言模型,MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

1.4 Chinese-LLaMA-Alpaca

1.5 OpenChineseLLaMA

  • 地址:https://github.com/OpenLMLab/OpenChineseLLaMA

  • 演示在这里插入图片描述

  • 简介:基于 LLaMA-7B 经过中文数据集增量预训练产生的中文大语言模型基座,对比原版 LLaMA,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。

1.6 BELLE

  • 地址:https://github.com/LianjiaTech/BELLE

  • 简介:开源了基于BLOOMZ和LLaMA优化后的一系列模型,同时包括训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。

1.7 Panda

  • 地址:https://github.com/dandelionsllm/pandallm
    在这里插入图片描述

  • 简介:开源了基于LLaMA-7B, -13B, -33B, -65B 进行中文领域上的持续预训练的语言模型, 使用了接近 15M 条数据进行二次预训练。

1.8 Robin

在这里插入图片描述

  • 简介:Robin 是香港科技大学LMFlow团队开发的中英双语大语言模型。仅使用180K条数据微调得到的Robin第二代模型,在Huggingface榜单上达到了第一名的成绩。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。

1.9 Fengshenbang-LM

  • 地址:https://github.com/IDEA-CCNL/Fengshenbang-LM
    在这里插入图片描述

  • 简介:Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,该项目开源了姜子牙通用大模型V1,是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息提取,摘要,文案生成,常识问答和数学计算等能力。

1.10 Luotuo-Chinese-LLM

  • 地址:https://github.com/LC1332/Luotuo-Chinese-LLM
    在这里插入图片描述

  • 简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。

1.11 Linly

  • 地址:https://github.com/CVI-SZU/Linly
    在这里插入图片描述

  • 简介:提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。

1.12 Firefly

  • 地址:https://github.com/yangjianxin1/Firefly
    在这里插入图片描述

  • 演示
    在这里插入图片描述

  • 简介:Firefly(流萤) 是一个开源的中文大语言模型项目,开源包括数据、微调代码、多个基于Bloom、baichuan等微调好的模型等;支持全量参数指令微调、QLoRA低成本高效指令微调、LoRA指令微调;支持绝大部分主流的开源大模型,如百川baichuan、Ziya、Bloom、LLaMA等。持lora与base model进行权重合并,推理更便捷。

1.13 ChatYuan

  • 地址:https://github.com/clue-ai/ChatYuan

  • 简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型,在微调数据、人类反馈强化学习、思维链等方面进行了优化。

1.14 ChatRWKV

  • 地址:https://github.com/BlinkDL/ChatRWKV

  • 简介:开源了一系列基于RWKV架构的Chat模型(包括英文和中文),发布了包括Raven,Novel-ChnEng,Novel-Ch与Novel-ChnEng-ChnPro等模型,可以直接闲聊及进行诗歌,小说等创作,包括7B和14B等规模的模型。

1.15 CPM-Bee

  • 地址:https://github.com/OpenBMB/CPM-Bee

  • 简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

1.16 TigerBot

  • 地址:https://github.com/TigerResearch/TigerBot
    在这里插入图片描述

  • 演示
    在这里插入图片描述

  • 简介:一个多语言多任务的大规模语言模型(LLM),开源了包括模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。

1.17 书生·浦语

  • 地址:https://github.com/InternLM/InternLM-techreport

  • 简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。据悉,该模型具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。

1.18 Aquila

  • 地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
    在这里插入图片描述

  • 简介:由智源研究院发布,Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点,重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。

1.19 baichuan-13B

  • 地址:https://github.com/baichuan-inc/baichuan-13B

  • 演示
    在这里插入图片描述

  • 简介:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。

1.20 Anima

  • 地址:https://github.com/lyogavin/Anima
    在这里插入图片描述

  • 简介:由艾写科技开发的一个开源的基于QLoRA的33B中文大语言模型,该模型基于QLoRA的Guanaco 33B模型使用Chinese-Vicuna项目开放的训练数据集guanaco_belle_merge_v1.0进行finetune训练了10000个step,基于Elo rating tournament评估效果较好。

1.21 KnowLM

  • 地址:https://github.com/zjunlp/KnowLM
    在这里插入图片描述
    在这里插入图片描述

  • 简介:KnowLM项目旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。该项目一期发布了基于Llama的抽取大模型智析,使用中英文语料对LLaMA(13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。

1.22 BayLing

  • 地址:https://github.com/ictnlp/BayLing
    在这里插入图片描述

  • 简介:一个具有增强的跨语言对齐的通用大模型,由中国科学院计算技术研究所自然语言处理团队开发。百聆(BayLing)以LLaMA为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版demo,以供大家体验。

1.23 YuLan-Chat

  • 地址:https://github.com/RUC-GSAI/YuLan-Chat

  • 演示在这里插入图片描述

  • 简介:YuLan-Chat是GSAI研究人员开发的基于聊天的大语言模型。它是在LLaMA的基础上微调开发的,具有高质量的英文和中文指令。 YuLan-Chat可以与用户聊天,很好地遵循英文或中文指令,并且可以在量化后部署在GPU(A800-80G或RTX3090)上。

总结

由于博主能力有限,本篇文章中提及的方法,也难免会有疏漏之处,希望您能热心指出其中的错误,以便下次修改时能以一个更完美更严谨的样子,呈现在大家面前。

猜你喜欢

转载自blog.csdn.net/weixin_40280870/article/details/131766033