[Grand modèle] 2. Connaissance de base du grand modèle de langage

grand modèle de langage

Les grands modèles de langage constituent une tendance de développement importante dans le domaine de l’apprentissage automatique et du traitement du langage naturel ces dernières années. En prenant le modèle GPT comme exemple, expliquez son développement

La série GPT est basée sur l'architecture Transformer et est conçue pour comprendre et générer le langage humain. Ils apprennent généralement divers modèles et structures de langage en s'entraînant préalablement sur une grande quantité de données textuelles, puis peuvent être affinés pour s'adapter à diverses tâches spécifiques, telles que la classification de texte, l'analyse des sentiments, le système de questions-réponses, etc. Ces modèles ont démontré des capacités remarquables dans la compréhension des relations sémantiques complexes, la gestion des dépendances à longue distance, etc., et ont favorisé le développement de technologies de traitement du langage naturel.

GPT-1 : sorti en 2018, GPT-1 est le premier modèle de langage d'OpenAI utilisant l'architecture Transformer, avec 117 millions de paramètres. Il est formé pour générer un discours fluide et cohérent et fonctionne bien dans une variété de tâches de traitement du langage, mais peut produire du texte répétitif lors du traitement d'invites ou de longs textes au-delà de la portée de ses données d'entraînement.

GPT-2 : sorti en 2019, GPT-2 possède 1,5 milliard de paramètres, bien plus que GPT-1. Il a montré des améliorations significatives dans certaines tâches de traitement du langage naturel, capables de générer des séquences de texte plus cohérentes et réalistes, mais il présente des difficultés dans la gestion de tâches qui nécessitent un raisonnement et une compréhension du contexte plus complexes.

GPT-3 : sorti en 2020, GPT-3 compte 175 milliards de paramètres, soit plus de 100 fois plus grand que GPT-1 et plus de 10 fois plus grand que GPT-2. GPT-3 génère des réponses complexes sur une gamme de tâches de traitement du langage naturel sans même recevoir d'exemples de données préalables. Cependant, GPT-3 rencontre encore quelques problèmes, tels que le renvoi de réponses biaisées, inexactes ou inappropriées, ou la génération de texte totalement sans rapport avec l'invite, ce qui indique que le modèle a toujours du mal à comprendre le contexte et les connaissances de base.

GPT-4 : Sorti le 14 mars 2023, GPT-4 présente une amélioration significative sur la base de GPT-3. Bien que les détails spécifiques des données de formation et de l'architecture du modèle n'aient pas été publiés, il est certain que GPT-4 s'appuie sur les points forts de GPT-3 et surmonte certaines de ses limites.

Grands modèles linguistiques en Allemagne et à l’étranger

Grande liste de modèles

numéro de série entreprise grand modèle Provinces et villes catégorie site officiel illustrer
1 baidu Un mot du cœur , docteur spirituel Bot Pékin universel Un compte est requis pour l'essai et il existe une application
2 Nuage d'Ali Tongyi mille questions , Qwen-7B Hangzhou, Zhejiang universel Compte requis pour l'essai , open source Tongyi Qianwen 7B modèle Qwen-7B , Qwen-7B-Chat
3 HKUSTXunfei étincelle Hefei, Anhui universel Un compte est requis pour l'essai et il existe une application
4 Données optimistes Cao Zhi Shanghai finance, industrie Compte requis pour l'essai
5 Université Fudan MOUSSE Shanghai recherche Compte requis pour l'essai
6 Université de Tsinghua ChatGLM , NowcastNet Pékin recherche Open source 6B , ChatGLM2-6B , Smart Spectrum AI , météo et prévision immédiate de grands modèles
7 Huawei Pangu , Pangu météo , Pangu-Σ Shenzhen, Guangdong industrie Huawei + Pengcheng, Huawei Cloud Pangu
8 Institut de recherche sur l'intelligence artificielle de Zhiyuan Lumières·Skyhawk , Lumières·UEM Pékin universel Enlightenment 3.0, Horizon Vision, AQUILA Aquila, Aquila-7B , AquilaChat-7B , AquilaCode-7B-NV , AquilaCode-7B-TS , HuggingFace , EMU basé sur LLaMA
9 Université du Zhejiang Qizhen , PromptProtein , TableGPT Hangzhou, Zhejiang verticale Le grand modèle médical propose trois versions basées sur LLaMA-7B, CaMA-13B et ChatGLM-6B, qui sont utilisées dans le modèle de PromptProtein.
dix Baichuan intelligent Momokawa , Baichuan-7B , Baichuan-13B Pékin universel Téléchargement du modèle : Baichuan-13B-Base , Baichuan-13B-Chat , Baichuan-7B , open source et disponible dans le commerce
11 Laboratoire d'intelligence artificielle de Shanghai Chercheur·Puyu , OpenMEDLab Puyi Shanghai Général et vertical Rapport technique , open source InternLM-7B , poids du modèle de téléchargement HuggingFace
12 coquille BELLE Pékin verticale Plusieurs modèles basés sur BLOOMZ ou LLaMA
13 Institut de technologie de Harbin Materia Medica , type mobile Harbin, province du Heilongjiang médecine Médecine, Materia Medica est basée sur LLaMA ; un autre Med-ChatGLM basé sur ChatGLM , type mobile basé sur BLOOM-7B
14 Yunzhisheng montagnes et mers Pékin médecine
15 OuvrirBMB CPM , CPM-Bee Pékin universel Mur intelligent , CPM-Bee-10B
16 Hong Kong Chinois Shenzhen Hua Tuo , Phénix Shenzhen, Guangdong médecine L'Université chinoise de Hong Kong (Shenzhen) et l'Institut de Shenzhen du Big Data, de la Médecine, de la Démo , de Huatuo et de Phoenix sont tous basés sur BLOOMZ.
17 Technologie Yuanxiang XVERSE-13B Shenzhen, Guangdong universel Téléchargement du modèle
18 Technologie du Tigre TigreBot Shanghai finance Basé sur BLOOM
19 Université du Nord-Est TechGPT , PICA Shenyang, Liaoning recherche TechGPT->BELLE-> LLaMA , questions et réponses sur la construction de cartes et la compréhension écrite ; PICA->ChatGLM2-6B modèle émotionnel
20 Université Jiaotong de Shanghai K2 , Magnolia Shanghai K2 : Sciences de la Terre, Magnolia : Sciences Démo , GeoLLaMA, basée sur LLaMA , HuggingFace
21 Institut IDÉE Liste des dieux MindBot Shenzhen, Guangdong universel Modèles de la série Jiang Ziya
22 Du Xiaoman Xuanyuan Pékin finance Basé sur BLOOM
23 360 cerveau , voir Pékin universel
24 Technologie iWrite Anima Hangzhou, Zhejiang commercialisation Basé sur Guanaco -> Basé sur LLaMA , en utilisant QLoRA
25 École d'ingénierie de l'information, Université de Pékin ChatDroit Pékin loi ChatLaw-13B基于Ziya-LLaMA-13B-v1->LLaMA,ChatLaw-33B基于Anima33B->Guanaco->LLaMA
26 中国科学院自动化研究所 紫东·太初 北京 通用 紫东太初2.0号称100B参数,全模态
27 中国科学院计算技术研究所 百聆 北京 科研 基于 LLaMA,权重Diff下载7B13B,demo
28 中国科学院成都计算机应用研究所 聚宝盆 四川成都 金融 基于LLaMA的金融大模型
29 晓多科技+国家超算成都中心 晓模型XPT 四川成都 客服 试用申请
30 网易有道 子曰 北京 教育 推荐有道速读,读论文的利器
31 北京语言大学 桃李 北京 教育 基于LLaMA,北语+清华+东北、北京交大
32 华南理工大学 扁鹊,灵心SoulChat 广东广州 医学
33 商汤科技 日日新 上海 通用
34 国家超级计算天津中心 天河天元 天津 通用
35 北京交通大学 致远 北京 交通 TransGPT・致远,基于LLaMA-7B
36 恒生电子 LightGPT 浙江杭州 金融
37 稀宇科技 MiniMax 上海 通用 GLOW虚拟社交
38 左手医生 左医GPT 北京 医学 医疗,试用需Key
39 上海科技大学 DoctorGLM 上海 医学 医学大模型,论文
40 华东师范大学 EmoGPT,EduChat 上海 教育 EmoGPT是上海市心理健康与危机干预重点实验室与镜象科技公司合作完成, 教学教育大模型EduChat基于BELLE(BELLE基于LLaMA)
41 星环科技 无涯、求索 上海 金融 无涯——金融;求索——大数据分析
42 澳门理工大学 XrayGLM,IvyGPT 澳门 医疗 IvyGPT基于ChatGLM2,XrayGLM基于VisualGLM-6B
43 数慧时空 长城 北京 地球科学 自然资源,遥感
44 中工互联 智工 北京 工业 与复旦NLP实验室联合,工业领域
45 创业黑马 天启 北京 创投 创业黑马与360合作,科创服务行业
46 追一科技 博文Bowen 广东深圳 客服
47 智慧眼 砭石 湖南长沙 医学 医疗领域
48 香港科技大学 罗宾Robin 香港 科研 基于LLaMA,港科大开源LMFlow
49 昆仑万维 天工 北京 客服 与奇点智源联合研发
50 智媒开源研究院 智媒 广东深圳 媒体 基于LLaMA,面向自媒体
51 医疗算网 Uni-talk 上海 医学 上海联通+华山医院+上海超算中心+华为
52 蚂蚁集团 贞仪 浙江杭州 金融 据传语言和多模态两个
53 硅基智能 炎帝 江苏南京 文旅
54 西湖心辰 西湖 浙江杭州 科研
55 拓尔思 拓天 北京 媒体 TRSGPT
56 好未来 MathGPT 北京 教育 学而思
57 清博智能 先问 北京 农业 基于结构化数据
58 智子引擎 元乘象 江苏南京 客服
59 拓世科技 拓世 江西南昌 金融
60 循环智能 盘古 北京 客服 循环智能,清华大学,华为
61 慧言科技+天津大学 海河·谛听 天津 科研
62 第四范式 式说 北京 客服
63 字节跳动 Grace 北京 通用 内部代号
64 出门问问 序列猴子 北京 营销
65 数说故事 SocialGPT 广东广州 社交
66 云从科技 从容 广东广州 政务
67 浪潮信息 山东济南 通用
68 中国农业银行 小数ChatABC 北京 金融
69 麒麟合盛 天燕AiLMe 北京 运维
70 台智云 福尔摩斯FFM 台湾 工业 华硕子公司
71 医联科技 medGPT 四川成都 医学
72 电信智科 星河 北京 通信 通用视觉,中国电信
73 深思考人工智能 Dongni 北京 媒体
74 文因互联 文因 安徽合肥 金融 金融大模型
75 印象笔记 大象GPT 北京 媒体
76 中科闻歌 雅意 北京 媒体
77 澜舟科技 孟子 北京 金融
78 京东 言犀 北京 商业
79 智臻智能 华藏 上海 客服 小i机器人
80 新华三H3C 百业灵犀 浙江杭州 工业
81 鹏城实验室 鹏城·脑海 广东深圳 科研 Peng Cheng Mind
82 宇视科技 梧桐 浙江杭州 运维 AIoT行业
83 理想科技 大道Dao 北京 运维 运维大模型
84 美亚柏科 天擎 福建厦门 安全 公共安全
85 赛灵力科技 达尔文 广东广州 医学 赛灵力,清华珠三角研究院,赛业生物,大湾区科技创新服务中心
86 实在智能 塔斯 浙江杭州 客服 TARS
87 佳都科技 佳都知行 广东广州 交通 交通领域
88 知乎 知海图 北京 媒体 知乎和面壁科技合作
89 网易伏羲 玉言 广东广州 通用
90 清睿智能 ArynGPT 江苏苏州 教育
91 微盟 WAI 上海 商业
92 西北工业大学+华为 秦岭·翱翔 陕西西安 工业 流体力学大模型,湍流+流场
93 奇点智源 天工智力 北京 通用 瑶光和天枢
94 联汇科技 欧姆 浙江杭州 通用 OmModel欧姆多模态(视觉语言)大模型
95 中国联通 鸿湖 北京 通信
96 思必驰 DFM-2 江苏苏州 工业
97 中科创达 魔方Rubik 北京 工业
98 电科太极 小可 北京 政务 党政企行业应用
99 中国移动 九天 北京 通信
100 中国电信 TeleChat 北京 通信
101 容联云 赤兔 北京 客服 客服,营销
102 云天励飞 天书 广东深圳 政务
103 乐言科技 乐言 上海 客服
104 沪渝人工智能研究院 兆言 重庆 科研 也称:上海交通大学重庆人工智能研究院
105 中央广播电视总台 央视听 北京 媒体 央视听媒体大模型CMG Media GPT
106 超对称技术公司 乾元 北京 金融
107 蜜度 文修 上海 媒体 智能校对
108 中国电子云 星智 湖北武汉 政务 政务大模型
109 理想汽车 MindGPT 北京 工业
110 阅文集团 妙笔 上海 文旅 网文大模型
111 携程 问道 上海 文旅 旅游行业大模型
112 腾讯 混元 广东深圳 通用
113 瑞泊 VIDYA 北京 工业
114 有连云 麒麟 上海 金融
115 维智科技 CityGPT 上海 公共服务 城市大模型
116 用友 YonGPT 北京 企业服务
117 天云数据 Elpis 北京 金融 证券法律法规
118 孩子王 KidsGPT 江苏南京 教育
119 企查查 知彼阿尔法 江苏苏州 商业
120 今立方 12333 福建厦门 政务 人社领域
121 阳光保险集团 正言 广东深圳 金融
122 电科数字 智弈 上海 水利
123 聆心智能 CharacterGLM 北京 游戏
124 大经中医 岐黄问道 江苏南京 医疗
125 蒙牛 MENGNIU.GPT 内蒙古呼和浩特 食品
126 快商通 汉朝 福建厦门 营销
127 众合科技 UniChat 浙江杭州 交通
128 金蝶 苍穹 广东深圳 企业服务
129 云问科技 云中问道 江苏南京 营销 与西安未来AI计算中心联合发布
130 天壤智能 小白 上海 通用
131 小米 MiLM-6B 北京 商业
132 长虹 长虹超脑 四川绵阳 媒体

国外大模型

公司 大模型 说明
OpenAI ChatGPT
微软 Bing Chat
Google PaLM2,Bard,Gemini Bard支持图片
Anthropic Claude Claude 2,支持读入pdf、txt、csv等文件进行分析、总结和问答等
Meta LLaMA,LLaMA-2
Stability AI StableLM
Amazon Titan
Bloomberg BloombergGPT
MosaicML MPT
Intel Aurora genAI
UC Berkeley, Microsoft Research Gorilla
inflection.ai Inflection-1
xAI 从OpenAI 到xAI
cohere Cohere
Scale AI Scale
character ai Character
Colossal-AI ColossalChat

Je suppose que tu aimes

Origine blog.csdn.net/HHTNAN/article/details/132403576
conseillé
Classement