【大模型】二 、大语言模型的基础知识

大型语言模型

大型语言模型是近年来机器学习和自然语言处理领域的一个重要发展趋势。以GPT模型为例,阐述其发展

GPT系列基于Transformer架构,进行构建,旨在理解和生成人类语言。它们通常通过在大量文本数据上进行预训练,学习到语言的各种模式和结构,然后可以进行微调,以适应各种具体的任务,如文本分类、情感分析、问答系统等。这些模型在理解复杂的语义关系、处理长距离依赖等方面表现出了显著的能力,推动了自然语言处理技术的发展。

GPT-1:发布于2018年,GPT-1是OpenAI的第一个使用Transformer架构的语言模型,有1.17亿的参数。它被训练用于生成流畅且连贯的语言,并在各种语言处理任务中表现出色,但在处理超出其训练数据范围的提示或长篇文本时,可能会产生重复的文本。

GPT-2:发布于2019年,GPT-2有15亿的参数,比GPT-1大得多。它在一些自然语言处理任务上有了明显的改进,能够生成更连贯、真实的文本序列,但在处理需要更复杂推理和理解上下文的任务上还有所挑战。

GPT-3:发布于2020年,GPT-3有1750亿的参数,比GPT-1大了100多倍,比GPT-2大了10倍以上。GPT-3在一系列的自然语言处理任务上生成了复杂的响应,甚至无需提供任何先前的示例数据。然而,GPT-3仍然存在一些问题,例如返回有偏见、不准确或不适当的回答,或者生成与提示完全无关的文本,表明该模型在理解上下文和背景知识方面仍然存在困难。

GPT-4:发布于2023年3月14日,GPT-4在GPT-3的基础上有了显著的提升。尽管模型的训练数据和架构的具体细节尚未公布,但可以肯定的是,GPT-4在GPT-3的优点上进行了建设,并克服了其中的一些限制。

国内外大语言模型

大模型列表

序号 公司 大模型 省市 类别 官网 说明
1 百度 文心一言,灵医Bot 北京 通用 试用需账号,有APP
2 阿里云 通义千问,Qwen-7B 浙江杭州 通用 试用需账号,开源通义千问7B模型Qwen-7B,Qwen-7B-Chat
3 科大讯飞 星火 安徽合肥 通用 试用需账号,有APP
4 达观数据 曹植 上海 金融、工业 试用需账号
5 复旦大学 MOSS 上海 科研 试用需账号
6 清华大学 ChatGLM,NowcastNet 北京 科研 开源6BChatGLM2-6B, 智谱AI,气象,临近预报大模型
7 华为 盘古,盘古气象,盘古-Σ 广东深圳 工业 华为+鹏城,华为云盘古
8 智源人工智能研究院 悟道·天鹰,悟道·EMU 北京 通用 悟道3.0,视界视觉,AQUILA天鹰座,Aquila-7B,AquilaChat-7B,AquilaCode-7B-NV,AquilaCode-7B-TS,HuggingFace,EMU基于LLaMA
9 浙江大学 启真,PromptProtein,TableGPT 浙江杭州 垂直 医学大模型提供基于LLaMA-7B、CaMA-13B和ChatGLM-6B 三个版本,用于PromptProtein的模型
10 百川智能 百川,baichuan-7B,Baichuan-13B 北京 通用 模型下载:Baichuan-13B-Base,Baichuan-13B-Chat,Baichuan-7B,开源可商用
11 上海人工智能实验室 书生·浦语, OpenMEDLab浦医 上海 通用&垂直 技术报告,开源的InternLM-7B,HuggingFace下载模型权重
12 贝壳 BELLE 北京 垂直 基于BLOOMZ或LLaMA的多个模型
13 哈尔滨工业大学 本草,活字 黑龙江哈尔滨 医学 医学,本草基于LLaMA;另有基于 ChatGLM 的Med-ChatGLM,活字基于BLOOM-7B
14 云知声 山海 北京 医学
15 OpenBMB CPM,CPM-Bee 北京 通用 面壁智能,CPM-Bee-10B
16 港中文深圳 华佗凤凰 广东深圳 医学 香港中文大学(深圳)和深圳市大数据研究院,医学,Demo,华佗和凤凰都基于BLOOMZ
17 元象科技 XVERSE-13B 广东深圳 通用 模型下载
18 虎博科技 TigerBot 上海 金融 基于BLOOM
19 东北大学 TechGPT,PICA 辽宁沈阳 科研 TechGPT->BELLE->LLaMA,图谱构建和阅读理解问答;PICA->ChatGLM2-6B情感大模型
20 上海交通大学 K2,白玉兰 上海 K2:地球科学,白玉兰:科学 Demo,GeoLLaMA,基于LLaMAHuggingFace
21 IDEA研究院 封神榜MindBot 广东深圳 通用 姜子牙系列模型
22 度小满 轩辕 北京 金融 基于BLOOM
23 360 智脑,一见 北京 通用
24 艾写科技 Anima 浙江杭州 营销 基于Guanaco->基于LLaMA,使用QLoRA
25 北京大学信息工程学院 ChatLaw 北京 法律 ChatLaw-13B基于Ziya-LLaMA-13B-v1->LLaMA,ChatLaw-33B基于Anima33B->Guanaco->LLaMA
26 中国科学院自动化研究所 紫东·太初 北京 通用 紫东太初2.0号称100B参数,全模态
27 中国科学院计算技术研究所 百聆 北京 科研 基于 LLaMA,权重Diff下载7B13B,demo
28 中国科学院成都计算机应用研究所 聚宝盆 四川成都 金融 基于LLaMA的金融大模型
29 晓多科技+国家超算成都中心 晓模型XPT 四川成都 客服 试用申请
30 网易有道 子曰 北京 教育 推荐有道速读,读论文的利器
31 北京语言大学 桃李 北京 教育 基于LLaMA,北语+清华+东北、北京交大
32 华南理工大学 扁鹊,灵心SoulChat 广东广州 医学
33 商汤科技 日日新 上海 通用
34 国家超级计算天津中心 天河天元 天津 通用
35 北京交通大学 致远 北京 交通 TransGPT・致远,基于LLaMA-7B
36 恒生电子 LightGPT 浙江杭州 金融
37 稀宇科技 MiniMax 上海 通用 GLOW虚拟社交
38 左手医生 左医GPT 北京 医学 医疗,试用需Key
39 上海科技大学 DoctorGLM 上海 医学 医学大模型,论文
40 华东师范大学 EmoGPT,EduChat 上海 教育 EmoGPT是上海市心理健康与危机干预重点实验室与镜象科技公司合作完成, 教学教育大模型EduChat基于BELLE(BELLE基于LLaMA)
41 星环科技 无涯、求索 上海 金融 无涯——金融;求索——大数据分析
42 澳门理工大学 XrayGLM,IvyGPT 澳门 医疗 IvyGPT基于ChatGLM2,XrayGLM基于VisualGLM-6B
43 数慧时空 长城 北京 地球科学 自然资源,遥感
44 中工互联 智工 北京 工业 与复旦NLP实验室联合,工业领域
45 创业黑马 天启 北京 创投 创业黑马与360合作,科创服务行业
46 追一科技 博文Bowen 广东深圳 客服
47 智慧眼 砭石 湖南长沙 医学 医疗领域
48 香港科技大学 罗宾Robin 香港 科研 基于LLaMA,港科大开源LMFlow
49 昆仑万维 天工 北京 客服 与奇点智源联合研发
50 智媒开源研究院 智媒 广东深圳 媒体 基于LLaMA,面向自媒体
51 医疗算网 Uni-talk 上海 医学 上海联通+华山医院+上海超算中心+华为
52 蚂蚁集团 贞仪 浙江杭州 金融 据传语言和多模态两个
53 硅基智能 炎帝 江苏南京 文旅
54 西湖心辰 西湖 浙江杭州 科研
55 拓尔思 拓天 北京 媒体 TRSGPT
56 好未来 MathGPT 北京 教育 学而思
57 清博智能 先问 北京 农业 基于结构化数据
58 智子引擎 元乘象 江苏南京 客服
59 拓世科技 拓世 江西南昌 金融
60 循环智能 盘古 北京 客服 循环智能,清华大学,华为
61 慧言科技+天津大学 海河·谛听 天津 科研
62 第四范式 式说 北京 客服
63 字节跳动 Grace 北京 通用 内部代号
64 出门问问 序列猴子 北京 营销
65 数说故事 SocialGPT 广东广州 社交
66 云从科技 从容 广东广州 政务
67 浪潮信息 山东济南 通用
68 中国农业银行 小数ChatABC 北京 金融
69 麒麟合盛 天燕AiLMe 北京 运维
70 台智云 福尔摩斯FFM 台湾 工业 华硕子公司
71 医联科技 medGPT 四川成都 医学
72 电信智科 星河 北京 通信 通用视觉,中国电信
73 深思考人工智能 Dongni 北京 媒体
74 文因互联 文因 安徽合肥 金融 金融大模型
75 印象笔记 大象GPT 北京 媒体
76 中科闻歌 雅意 北京 媒体
77 澜舟科技 孟子 北京 金融
78 京东 言犀 北京 商业
79 智臻智能 华藏 上海 客服 小i机器人
80 新华三H3C 百业灵犀 浙江杭州 工业
81 鹏城实验室 鹏城·脑海 广东深圳 科研 Peng Cheng Mind
82 宇视科技 梧桐 浙江杭州 运维 AIoT行业
83 理想科技 大道Dao 北京 运维 运维大模型
84 美亚柏科 天擎 福建厦门 安全 公共安全
85 赛灵力科技 达尔文 广东广州 医学 赛灵力,清华珠三角研究院,赛业生物,大湾区科技创新服务中心
86 实在智能 塔斯 浙江杭州 客服 TARS
87 佳都科技 佳都知行 广东广州 交通 交通领域
88 知乎 知海图 北京 媒体 知乎和面壁科技合作
89 网易伏羲 玉言 广东广州 通用
90 清睿智能 ArynGPT 江苏苏州 教育
91 微盟 WAI 上海 商业
92 西北工业大学+华为 秦岭·翱翔 陕西西安 工业 流体力学大模型,湍流+流场
93 奇点智源 天工智力 北京 通用 瑶光和天枢
94 联汇科技 欧姆 浙江杭州 通用 OmModel欧姆多模态(视觉语言)大模型
95 中国联通 鸿湖 北京 通信
96 思必驰 DFM-2 江苏苏州 工业
97 中科创达 魔方Rubik 北京 工业
98 电科太极 小可 北京 政务 党政企行业应用
99 中国移动 九天 北京 通信
100 中国电信 TeleChat 北京 通信
101 容联云 赤兔 北京 客服 客服,营销
102 云天励飞 天书 广东深圳 政务
103 乐言科技 乐言 上海 客服
104 沪渝人工智能研究院 兆言 重庆 科研 也称:上海交通大学重庆人工智能研究院
105 中央广播电视总台 央视听 北京 媒体 央视听媒体大模型CMG Media GPT
106 超对称技术公司 乾元 北京 金融
107 蜜度 文修 上海 媒体 智能校对
108 中国电子云 星智 湖北武汉 政务 政务大模型
109 理想汽车 MindGPT 北京 工业
110 阅文集团 妙笔 上海 文旅 网文大模型
111 携程 问道 上海 文旅 旅游行业大模型
112 腾讯 混元 广东深圳 通用
113 瑞泊 VIDYA 北京 工业
114 有连云 麒麟 上海 金融
115 维智科技 CityGPT 上海 公共服务 城市大模型
116 用友 YonGPT 北京 企业服务
117 天云数据 Elpis 北京 金融 证券法律法规
118 孩子王 KidsGPT 江苏南京 教育
119 企查查 知彼阿尔法 江苏苏州 商业
120 今立方 12333 福建厦门 政务 人社领域
121 阳光保险集团 正言 广东深圳 金融
122 电科数字 智弈 上海 水利
123 聆心智能 CharacterGLM 北京 游戏
124 大经中医 岐黄问道 江苏南京 医疗
125 蒙牛 MENGNIU.GPT 内蒙古呼和浩特 食品
126 快商通 汉朝 福建厦门 营销
127 众合科技 UniChat 浙江杭州 交通
128 金蝶 苍穹 广东深圳 企业服务
129 云问科技 云中问道 江苏南京 营销 与西安未来AI计算中心联合发布
130 天壤智能 小白 上海 通用
131 小米 MiLM-6B 北京 商业
132 长虹 长虹超脑 四川绵阳 媒体

国外大模型

公司 大模型 说明
OpenAI ChatGPT
微软 Bing Chat
Google PaLM2,Bard,Gemini Bard支持图片
Anthropic Claude Claude 2,支持读入pdf、txt、csv等文件进行分析、总结和问答等
Meta LLaMA,LLaMA-2
Stability AI StableLM
Amazon Titan
Bloomberg BloombergGPT
MosaicML MPT
Intel Aurora genAI
UC Berkeley, Microsoft Research Gorilla
inflection.ai Inflection-1
xAI 从OpenAI 到xAI
cohere Cohere
Scale AI Scale
character ai Character
Colossal-AI ColossalChat

猜你喜欢

转载自blog.csdn.net/HHTNAN/article/details/132403576