2023年7月第2周大模型荟萃

2023.7.18
版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。

1、百川开源中英文百亿参数模型，自称超越 LLaMA

自 Baichuan-7B 发布后才短短26天，百川又发布了 Baichuan-13B，百亿参数已可媲美千亿。2023年7月11日，百川智能正式发布参数量130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。目前，以GPT-4为代表的超大参数量闭源模型是业界最佳，而开源的100亿-200亿参数量模型，追赶GPT-4大模型的最佳实践。

Baichuan-13B中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身，自称是目前所有33B以下尺寸开源模型中效果最好的可商用大语言模型。

2、GPT-4大模型架构、基础设施、训练数据集、成本等机密信息被公开

据国外SemiAnalysis报道，7月11日，OpenAI旗下的GPT-4大模型架构、基础设施、训练成本、数据集等相关信息被泄露。爆料人称，GPT-4架构的封闭性是因为他们构建的东西是可复制的，Google、Meta、Anthropic、Inflection、Character、科大讯飞、360、百度等在短期内都将拥有与GPT-4一样强大的模型。据透露，在模型架构方面，GPT-4的规模是GPT-3的10倍以上，信息透露GPT-4在120层中包含了1.8万亿参数，而GPT-3只有大约1750亿个参数。

3、京东发布千亿级大模型“言犀”

7月13日，在2023京东全球科技探索者大会暨京东云峰会上，宣布旗下千亿级大模型“言犀”发布。京东认为，大模型不应该只是拿来聊天写诗作画的玩具，供应链产业链上的大模型更有价值。模型越大，才越有可能产生产业端的智能涌现。故可以推测，京东的大模型是垂直领域的大模型。根据京东公布的计划，下半年应用于内部核心业务，2024年再面向产业全面开放。故对用户而言，发布跟没发布没啥区别。

4、Google 的 Bard 现已支持中文

Google 的 AI 助理 Bard 迎来了一系列更新，包括支持中文（简体/繁体），以及在巴西和欧洲的部份国家和地区提供支持等。语言支持方面具体来说，Bard 本次新增了 40 多种语言，包括阿拉伯语、中文（简体 / 繁体）、德语、印地语、西班牙语等。此外，Bard 现在可以读出回应内容。同时，Bard 支持通过 Google 智能镜头上传图片，让它辨识图像。你可以用附加的文字询问有关图片的资讯，不过该功能暂时只支持英文。

5、Claude 2 大模型

7月12日，Anthropic正式发布了最新的 Claude 2 大模型，并推出了更加便捷的网页测试版（仅限美国和英国的IP）。Claude 2 模型在编码、数学和推理方面的性能都有所提高，引起了广泛关注。Claude 2在一些指标上已经超过了GPT-4。目前，Claude 2的100K token的上下文窗口是当前模型中最大的，而且具有更快的处理速度。这一优势使得Claude 2在处理大量数据和复杂任务时更具竞争力。同时，Claude 2还支持上传文档PDF，并基于PDF进行对话。这一功能对于处理复杂的技术问题、提高工作效率等方面具有重要意义。

6、清华 ChatGLM-6B/ChatGLM2-6B 模型允许免费商用

7 月 15 日消息，智谱 AI 及清华 KEG 实验室决定，ChatGLM-6B 和 ChatGLM2-6B 权重对学术研究完全开放，并且在完成企业登记获得授权后，允许免费商业使用。ChatGLM-6B 是一个中英双语对话大模型，初具问答和对话功能。该模型基于 General Language Model（GLM）架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署。ChatGLM2-6B 使用了 Multi-Query Attention，提高了生成速度，同时也降低了生成过程中 KV Cache 的显存占用。同时，ChatGLM2-6B 采用 Causal Mask 进行对话训练，连续对话时可复用前面轮次的 KV Cache，进一步优化了显存占用。

7、FastEdit 大模型工具

FastEdit 是一个基于Python的大模型工具，可以将新鲜的知识注入到现有已训练好的大语言模型中。它支持GPT-J(6B)、LLaMA(7B/13B)、BLOOM(7.1B)、Falcon(7B)、Baichuan(7B/13B)、InternLM(7B)等开源大模型。

项目地址：https://github.com/lipiji/FastEdit/