背景：

大模型和AIGC这个热点在大众视野和了应该也快半年多了。现在大家的感觉应该是从兴奋到慢慢趋于理性，从兴奋觉得这东西无所不能到慢慢觉得它也有很多不足。其实这应该是一个事物正常的规律，然后大众眼中觉得这东西的“不足”和实际技术的不足还是有差距的。是不是真的这些技术点就入大众试用下来的不足，还是说他们使用方法不对或者说是有不足但也非他们认识的那种不足。

个人的看法是对大模型的前期过高期待肯定是不对的，这毕竟是一种技术不可能是无所不能；但是对于现在大家觉得这东西其实并无什么，认知其实也是不对的。因为既然说是一次技术革命，它能给这么多人带来震惊那也绝非如此平平无奇。感觉现在很多公司（包括很多互联网大公司，对大模型的认知是不够的，有种把马车套个汽车壳就当汽车的意思）

模型通用能力：

所谓的通用能力，一个模型既可以做理解能力也具备生成能力

理解能力（多到少）：摘要抽取总结、看一段话做问答、看一段话做填空、看一段话做多选、各种分类、命名实体识别、细粒度观点抽取

生成能力（少到多）：给少量输入做更多生成、按指令有约束的生成、生成流程规划

工具的自举:

因为单个模型具备了多种有差异的能力，所以在解决一个问题的时候，原本小模型只能利用模型的单个能力解决；变成了可以在需要的时候利用模型的旁支能力，来给模型引入信息，对问题做合适的转化，让事情有更多的闪转腾挪的空间，让一个原本难搞的事情变得可解决。

这么讲还是比较抽象，举个例子来说明：

生成任务：根据用户输入生成一段的故事，并转化成适合拍摄的画面描述

用户输入：时光荏苒，一晃就是十年过去，三体主角智子复活

如果你直接把这段话给大模型生成，会发现确实能够生成一些画面描述，但是总感觉差点什么

故事：智子在三体世界被冻结了十年，期间经历了无数次的死亡和重生。她终于等到了地球的救援，被带回了现实。她发现自己的身体已经老化，而且记忆也有些模糊。她想起了曾经的爱人，想知道他们的命运如何。她用最后的力气打开了手机，搜索了一下他们的名字。她看到了一个让她震惊的消息：他们都已经去世了，而且是在十年前的那场大战中牺牲的。智子感到一阵心碎，泪水模糊了她的视线。她轻轻地说了一句：“对不起，我来晚了。”然后，她闭上了眼睛，永远地睡去。

画面描述：

画面一：智子被一束光芒包裹，从三体世界中被抽离出来，出现在一个白色的实验室里。周围有很多穿着防护服的科学家，他们用各种仪器检测着她的身体状况。
画面二：智子躺在一个病床上，看着窗外的风景。她看到了蓝天白云，鸟儿飞翔，还有一些高楼大厦。她感到一丝陌生和不适应。
画面三：智子拿起了手机，输入了几个名字。屏幕上显示出了一些新闻报道和讣告。她看到了他们的照片，还有他们英勇牺牲的事迹。她的眼睛里充满了泪水和悲伤。
画面四：智子放下了手机，抬起头望向天空。她嘴角微微上扬，露出了一个苦涩的笑容。她轻声说道：“对不起，我来晚了。”然后，她缓缓闭上眼睛，呼吸停止。

我们可以把上面问题转成：理解，组织、生成

理解：根据用户的输入，抽取出故事背景、抽取出气氛渲染的文字、抽取出著作、抽取出主角判断性别、抽取出动作词

组织：把著作百科知识补齐、对主角服饰、装扮、脸做细粒度刻画、把动作加入画面、根据气氛渲染的文字生成画面描述、根据故事背景生成描述信息；根据上面信息按，场景描述、气氛场景描述、主角动作描述、主角服饰装饰描述、脸部刻画

生成：

生成任务：根据用户输入,根据下面要求对输入做理解，信息组织，用这些信息来生成一段的故事，并转化成适合拍摄的画面描述 用户输入：时光荏苒，一晃就是十年过去，三体主角智子复活 理解：

故事背景：《三体》是刘慈欣创作的长篇科幻小说系列，讲述了地球人类文明和三体文明的信息交流、生死搏杀以及两个文明在宇宙中的兴衰历程 12。
气氛渲染的文字：时光荏苒，一晃就是十年过去
著作：《三体》
主角：智子
判断性别：女
动作词：复活
组织：

著作百科知识补齐：智子是三体人的一员，曾经被地球人俘虏并冻结在三体世界中，期间经历了无数次的死亡和重生 3。
对主角服饰、装扮、脸做细粒度刻画：智子身穿一件白色的紧身衣，头发梳成马尾辫，脸上有一道深深的伤疤，眼神中透露出一丝疲惫和茫然。
把动作加入画面：智子被一束光芒包裹，从三体世界中被抽离出来，出现在一个白色的实验室里。
根据气氛渲染的文字生成画面描述：实验室的墙上有一个倒计时的屏幕，显示着“距离三体舰队到达地球还有10年”。
根据故事背景生成描述信息：智子是地球人为了了解三体文明而从三体舰队中俘获的唯一活着的三体人，她被送到了一个秘密基地，在那里被反复冻结和解冻，进行各种实验和审讯。
生成： 故事：智子是地球人为了了解三体文明而从三体舰队中俘获的唯一活着的三体人，她被送到了一个秘密基地，在那里被反复冻结和解冻，进行各种实验和审讯。她已经忘记了自己在这里呆了多久，也不知道自己还能坚持多久。她只知道每次醒来都会感受到无尽的痛苦和孤独。她渴望回到自己的家园，哪怕那里也是充满了灾难和恐惧。她不理解地球人为什么要这样对待她，她不恨他们，只是觉得他们很可怜。他们不知道自己即将面临的命运，也不知道宇宙中还有更强大的力量在等待着他们。她曾经试图告诉他们真相，但他们不相信她，甚至嘲笑她。她觉得自己已经没有什么可失去的了，只有等待死亡的到来。

画面描述：

画面一：智子被一束光芒包裹，从三体世界中被抽离出来，出现在一个白色的实验室里。周围有很多穿着防护服的科学家，他们用各种仪器检测着她的身体状况。
画面二：智子躺在一个病床上，看着窗外的风景。她看到了蓝天白云，鸟儿飞翔，还有一些高楼大厦。她感到一丝陌生和不适应。
画面三：智子拿起了手机，输入了三体的坐标。屏幕上显示出了一个警告：“你确定要向全宇宙公布三体的位置吗？这将导致三体文明的灭亡。”她毫不犹豫地按下了确认键。
画面四：实验室的墙上有一个倒计时的屏幕，显示着“距离三体舰队到达地球还有10年”。突然，屏幕上出现了一个巨大的爆炸，是三体星系被一张卡片大小的“二向箔”压缩为二维平面而毁灭的画面。智子看到了这一幕，嘴角微微上扬，露出了一个解脱的笑容。她轻声说道：“终于结束了。”然后，她缓缓闭上眼睛，心跳停止。

 时光荏苒，一晃就是十年过去，三体主角智子复活。

理解：根据用户的输入，抽取出故事背景、抽取出气氛渲染的文字、抽取出著作、抽取出主角判断性别、抽取出动作词

故事背景：三体系列是中国作家刘慈欣创作的一部长篇科幻小说系列，原名《地球往事三部曲》。该系列包括《三体》、《三体II：黑暗森林》和《三体III：死神永生》三部[^1^][1]。
气氛渲染的文字：时光荏苒，一晃就是十年过去
著作：三体系列
主角判断性别：智子是女性
动作词：复活

组织：把著作百科知识补齐、对主角服饰、装扮、脸做细粒度刻画、把动作加入画面、根据气氛渲染的文字生成画面描述、根据故事背景生成描述信息；根据上面信息按，场景描述、气氛场景描述、主角动作描述、主角服饰装饰描述、脸部刻画

著作百科知识补齐：《三体》讲述了地球人类文明和三体文明的信息交流、生死搏杀及两个文明在宇宙中的兴衰历程。《三体II：黑暗森林》讲述了地球和三体之间的战略平衡被打破，人类面临更大的危机。《三体III：死神永生》讲述了人类在宇宙中的探索和冒险，以及宇宙中更高级文明的存在和影响[^2^][2]。
主角服饰、装扮、脸做细粒度刻画：智子是一个来自三体世界的女性，她有着灰色的皮肤，红色的眼睛，黑色的头发。她穿着一件白色的连衣裙，腰间系着一条红色的腰带，手上戴着一只金色的手表。她的表情是惊讶和好奇。
动作加入画面：智子从一个白色的圆形舱门中走出来，她环顾四周，看到了一个陌生而美丽的星球。她看到了蓝色的天空，白云，绿色的草地，鲜花，树木，还有远处的高山。她感觉到了温暖和舒适。
气氛渲染的文字生成画面描述：时光荏苒，一晃就是十年过去。这个星球是地球人为了拯救智子而建造的一个人工天堂。他们用最先进的技术将智子从死亡中复活，并将她安置在这里。他们希望她能够忘记三体世界的苦难，享受新生活。
故事背景生成描述信息：智子是三体人的一员，她曾经是三体舰队的指挥官，也是地球三体组织的成员。她曾经试图摧毁地球文明，但在最后一刻，她改变了主意，帮助了地球人。她因此被三体人视为叛徒，被处以死刑。地球人却对她心存感激，用尽一切办法将她救回。

生成：

画面一：白色的圆形舱门缓缓打开，一个灰色皮肤，红色眼睛，黑色头发的女性从里面走出来。她穿着一件白色的连衣裙，腰间系着一条红色的腰带，手上戴着一只金色的手表。她的表情是惊讶和好奇。
旁白：这个女性的名字叫智子，她是一个来自三体世界的外星人。十年前，她曾经是三体舰队的指挥官，也是地球三体组织的成员。她曾经试图摧毁地球文明，但在最后一刻，她改变了主意，帮助了地球人。她因此被三体人视为叛徒，被处以死刑。地球人却对她心存感激，用尽一切办法将她救回。

画面二：智子环顾四周，看到了一个陌生而美丽的星球。她看到了蓝色的天空，白云，绿色的草地，鲜花，树木，还有远处的高山。她感觉到了温暖和舒适。
旁白：这个星球是地球人为了拯救智子而建造的一个人工天堂。他们用最先进的技术将智子从死亡中复活，并将她安置在这里。他们希望她能够忘记三体世界的苦难，享受新生活。

画面三：时光荏苒，一晃就是十年过去。智子在这个星球上过着平静而幸福的生活。她学习了地球文化和语言，结识了许多朋友，甚至有了爱情。她感谢地球人对她的救赎和宽恕，也渐渐原谅了自己和三体人。她觉得自己是最幸运的外星人。
旁白：但是，在这个看似完美的世界里，有一个秘密等待着被揭开。一个关于智子过去和未来的秘密。一个关于地球和三体之间命运的秘密。

工具的分化:

所谓工具的分化就是指：根据具体业务的需要，针对业务过程建模后创建出了完成任务的流程。为了完成这个业务流程，中间必然会用到大模型的多种能力，把这些能力在固定阶段固化下来，就是工具分化。

上面的描述和定义其实是一个比较抽象的描述。我们可以举两个例子来更具象描述这个过程。

根据用户的输入去生成一个系列的连续画：

用户输入 ——>抽关键知识——>向量检索补背景知识——>摘要抽取——>关键词抽取——>角色固定，检索生成角色——>场景画面固定，生成画面——>画面连续性，故事画面安排——>统一画面风格

上面的生成流程假设就是我们度这个业务过程建模后抽取出来的，每一个流程我们就可以固化成一道工序或者说是固化成一个工具来做。每道工序里面又涉及到物料、加工步骤流程，其实也可能是多个层次的流程系统。可以通过langchain方式来封这个流程，也可以通过autogpt的方式来试探生成一个做事流程。

讲到这，可以就langchain和autogpt（或者babygpt）区别是什么来简单介绍。

1.langchain是固定流程，也就是做事的流程是已经固化下来的，不管你多复杂对于做这件事流程，我们就是固定一个流程

2.autogpt和babygpt流程是没固定的，用什么流程什么方法大模型通过探索给出；大模型可以生成多个完成一件事的流程，然后大模型针对生成的流程来逐步完成这件事，然后看最后完成效果，选定合适的做事流程

工具的协同:

多智能体协同，讲到协同你肯定想问：“这个和前面讲的工具分化什么区别”。其实区别你简单，一个主动连接、一个是固定连接。

1.工具分化是人为的固定的把大模型分化出来具体做什么，并且他的上下游信息的输入是谁，处理完的输出给谁只要确定固化下来就是固定不会动的

2.工具协同，就是谁在这个流程该做什么和谁配合，接收谁的信息输入、处理完的信息给谁；这些都是根据实际情况在实际需求里面，动态决定的。这个流程是如此，可能在下个流程每隔智能体的分工就会有差异，但是都能很好的把事情完成。

做到这层就会出现组织，前面的三部分工具主要还在于单个大模型的能力。到协同其实当个模型的能力一定是非常强大，眼观六路耳听八方，主观能动性非常强大。为了某件事情的完成，每隔智能体会根据共同的目标，根据当前的态势，自动决定出最优的角色扮演，提出最优的解决问题的方案。也就是说智能体必需具备感知、理解、审时度势，自我约束自动规划的协作能力。

在这个过程其实该研究的应该是组织系统和组织文化的能力。所谓的组织系统就是在什么情况下有哪些组织分化的系统，组织文化解决的就是衡量事情目标的问题，怎么样才叫最优目标最大价值，很难通过单一的loss或者goal指标来制定；所以就需要时类似文化这种泛化和包容性更强的范围类指标。

技术点：

这部分会通过大模型在金融中的几个应用，来用更具体和实用的例子来讲讲解可以怎么结合的大模型的几种能力在实际工作应用（尝试搞一些大模型的最佳实践，解决现在大家把马车套汽车壳当汽车的应用）。

信息提取器

这部分应该是大家利用大模型的主要阵地，可以直接利用instruct+例子+上下文信息设计prompt来做信息抽取效果还不错，涉及的大模型通用能力、工具自举。

营销文案生成

这部分工作应该也是大家使用大模型的主要阵地，但是现在大家更多是通过instuct+例子+简单上下文方式来做。有部分企业开始设计构建业务建模、通用知识库，暂时还没进行到数据结构、专业知识结构设计这样工作。

这部分主要设计通用能力、工具自举、工具分化。结合工具分化其实可以解决更复杂问题，也可以让现在看起来很难解决的问题变得简单，业务建模和数据建模，专业知识库的引入和嵌入流程会起到意想不到效果。

决策投顾

这部分工作，大部分是在探索阶段，应该基本不会有企业直接把这部分工具中上线使用，至多就是参考使用。这部分现在大部分研究在数据到决策端到端研究，也有部分企业在尝试数据、数据、业务建模、决策探索、决策汇总这样工作。可以归结到是大模型通用能力、工具分化部分工作。其实这部分工作应该是最需要使用工具协同的，但是这个对认知要求很高，如何设计协同组织架构、如何设计组织文化都是一个很不容易确定的事。

小结：

对大模型的技术发展路线做了一些推演，结合自己的一些认识对大模型能力做了一些抽象。针对抽象的技术点和可能的演进路径做了一些自己的想法扩展，给出了一些自己观点和例子。最后部分很抽象的结合金融域的应用给了些概念性例子介绍（这部分本来是想给更细的一些例子，但不知道哪些会涉及商业秘密，所以没敢给具体例子）

大模型演化的一些思考

背景：