2023年7月第2周大模型荟萃

2023年7月第2周大模型荟萃

  • 2023.7.18
  • 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。

1、百川开源中英文百亿参数模型,自称超越 LLaMA

自 Baichuan-7B 发布后才短短26天,百川又发布了 Baichuan-13B,百亿参数已可媲美千亿。2023年7月11日,百川智能正式发布参数量130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。目前,以GPT-4为代表的超大参数量闭源模型是业界最佳,而开源的100亿-200亿参数量模型,追赶GPT-4大模型的最佳实践。

Baichuan-13B中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身,自称是目前所有33B以下尺寸开源模型中效果最好的可商用大语言模型。

2、GPT-4大模型架构、基础设施、训练数据集、成本等机密信息被公开

据国外SemiAnalysis报道,7月11日,OpenAI旗下的GPT-4大模型架构、基础设施、训练成本、数据集等相关信息被泄露。爆料人称,GPT-4架构的封闭性是因为他们构建的东西是可复制的,Google、Meta、Anthropic、Inflection、Character、科大讯飞、360、百度等在短期内都将拥有与GPT-4一样强大的模型。据透露,在模型架构方面,GPT-4的规模是GPT-3的10倍以上,信息透露GPT-4在120层中包含了1.8万亿参数,而GPT-3只有大约1750亿个参数。

3、京东发布千亿级大模型“言犀”

7月13日,在2023京东全球科技探索者大会暨京东云峰会上,宣布旗下千亿级大模型“言犀”发布。京东认为,大模型不应该只是拿来聊天写诗作画的玩具,供应链产业链上的大模型更有价值。模型越大,才越有可能产生产业端的智能涌现。故可以推测,京东的大模型是垂直领域的大模型。根据京东公布的计划,下半年应用于内部核心业务,2024年再面向产业全面开放。故对用户而言,发布跟没发布没啥区别。

4、Google 的 Bard 现已支持中文

Google 的 AI 助理 Bard 迎来了一系列更新,包括支持中文(简体/繁体),以及在巴西和欧洲的部份国家和地区提供支持等。语言支持方面具体来说,Bard 本次新增了 40 多种语言,包括阿拉伯语、中文(简体 / 繁体)、德语、印地语、西班牙语等。此外,Bard 现在可以读出回应内容。同时,Bard 支持通过 Google 智能镜头上传图片,让它辨识图像。你可以用附加的文字询问有关图片的资讯,不过该功能暂时只支持英文。

5、Claude 2 大模型

7月12日,Anthropic正式发布了最新的 Claude 2 大模型,并推出了更加便捷的网页测试版(仅限美国和英国的IP)。Claude 2 模型在编码、数学和推理方面的性能都有所提高,引起了广泛关注。Claude 2在一些指标上已经超过了GPT-4。目前,Claude 2的100K token的上下文窗口是当前模型中最大的,而且具有更快的处理速度。这一优势使得Claude 2在处理大量数据和复杂任务时更具竞争力。同时,Claude 2还支持上传文档PDF,并基于PDF进行对话。这一功能对于处理复杂的技术问题、提高工作效率等方面具有重要意义。

6、清华 ChatGLM-6B/ChatGLM2-6B 模型允许免费商用

7 月 15 日消息,智谱 AI 及清华 KEG 实验室决定,ChatGLM-6B 和 ChatGLM2-6B 权重对学术研究完全开放,并且在完成企业登记获得授权后,允许免费商业使用。ChatGLM-6B 是一个中英双语对话大模型,初具问答和对话功能。该模型基于 General Language Model(GLM)架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署。ChatGLM2-6B 使用了 Multi-Query Attention,提高了生成速度,同时也降低了生成过程中 KV Cache 的显存占用。同时,ChatGLM2-6B 采用 Causal Mask 进行对话训练,连续对话时可复用前面轮次的 KV Cache,进一步优化了显存占用。

7、FastEdit 大模型工具

FastEdit 是一个基于Python的大模型工具,可以将新鲜的知识注入到现有已训练好的大语言模型中。它支持GPT-J(6B)、LLaMA(7B/13B)、BLOOM(7.1B)、Falcon(7B)、Baichuan(7B/13B)、InternLM(7B)等开源大模型。

猜你喜欢

转载自blog.csdn.net/chszs/article/details/131780737
今日推荐