基于ChatGLM-6B的双语开源对话模型 - 代码天地

基于ChatGLM-6B的双语开源对话模型

企业开发 2023-05-04 14:50:39 阅读次数: 0

ChatGLM-6B 是一个开源的对话语言模型，支持中英双语，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署，INT4 量化级别下最低只需 6GB 显存。

ChatGLM-6B 针对中文问答和对话进行了优化，使用了和 ChatGPT 相似的技术。通过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。更多信息请参考我们的博客。

为了方便下游开发者针对自己的应用场景定制模型，我们同时实现了基于 P-Tuning v2 的高效参数微调方法 (使用指南)，INT4 量化级别下最低只需 7GB 显存即可启动微调。

然而，由于 ChatGLM-6B 的规模较小，目前已知其具有相当多的局限性，如事实性/数学逻辑错误，可能生成有害/有偏见内容，较弱的上下文能力，自我认知混乱，以及对英文指示生成与中文指示完全矛盾的内容。在使用前，请大家了解这些问题，以免产生误解。更大的基于 1300 亿参数 GLM-130B 的 ChatGLM 正在内测开发中。

猜你喜欢

转载自blog.csdn.net/qq_20288327/article/details/130455299

基于ChatGLM-6B的双语开源对话模型

ChatGLM-6B模型使用

【大模型】chatglm-6b的demo

【AI】清华开源中英双语对话模型ChatGLM2-6B本地安装笔记

ChatGLM-6B —— 80%替换ChatGPT的开源对话大模型介绍（GLM，General Language Model ）

基于MiniGPT-4的支持图文的双语开源对话模型

清华大学开源的chatGLM-6B部署实战

使用anaconda部署清华开源ChatGLM-6B

ChatGLM-6B：颠覆聊天AI的全新模型

ChatGLM-6B模型结构组件源码阅读

chatglm-6b，搭建自己的AI模型

huggingface_hub优雅下载ChatGLM-6B模型

快速部署ChatGLM-6B大模型实战总结

ChatGLM-6B大模型微调实战总结

TigerBot和ChatGLM-6B大语言模型

ChatGLM2-6B、ChatGLM-6B 模型训练自己数据集实战

基于chatGLM-6B模型预训练，添加自己的数据集微调（linux版）（ptuning & lora）

清华 ChatGLM-6B 中文对话模型部署简易教程

ChatGLM-6B 类似ChatGPT功能型对话大模型部署实践

LLM：ChatGLM-6B模型文件modeling_chatglm.py讲解

【ChatGLM】ChatGLM-6B模型Win+4GB显卡本地部署笔记

【ChatGLM-6B】清华开源的消费级显卡大语言模型，本地部署与测试

国产开源类ChatGPT模型，ChatGLM-6b初步微调实验

ChatGLM2-6B：性能大幅提升，8-32k上下文，推理提速42% —— 开源中英双语对话模型 ChatGLM-6B 的第二代来了！更强大的性能，更长的上下文，更高效的推理，更开放的协议！

深度学习实战38-基于清华ChatGLM-6b开源模型做体检报告解读任务，让体检报告解读变得轻松

AI技术快讯：清华开源ChatGLM2双语对话语言模型

一种平价的chatgpt实现方案，基于清华的 ChatGLM-6B + LoRA 进行finetune.（aigc大模型风口，校招找工作必备）

【大语言模型】使用ChatGLM-6B模型训练自己的数据集

ChatGLM-6B 模型介绍及训练自己数据集实战

（二）ChatGLM-6B模型部署以及ptuning微调详细教程

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)