首款国产AI搜索横空出世,革了传统搜索引擎的命!无限追问,告别广告

5b646b3ef8904a96c48bd4a1c8e8d50f.gif

f1ef06a71291d3a3d32fa873d918b739.jpeg

图片来源:由无界AI生成

在大模型时代,我们需要什么样的搜索?

ChatGPT石破天惊地出现,让所有人都意识到:人类接受和处理信息的模式,是时候重构了。

此前,一位UC伯克利教授曾给出惊人预测,2030年的GPT,一天可以学习人类需要学2500年的知识。 

虽然暂时还无法和硅基生命在这个赛道上一分高下,但毫无疑问,在知识爆炸、信息过载的时代,我们需要的信息,绝不仅仅是简单的搜索后随意堆叠在眼前的、未经咀嚼的「生食」。

10024c4b65b8e65d3a15cd89dfa46f86.jpeg

我们需要的是「成品」,是更懂人心的搜索工具,更真实、更实用的信息,和更权威更可靠的信息来源。

如果这个工具足够善解人意,能够准确猜到我们的意图,通过切中的追问为我们提供源源不断的启发,就更完美了。

现在,以上这些都不再是幻想!

就在前天,昆仑万维正式推出了国内第一款融入大语言模型的搜索引擎——天工AI搜索,并同时开启内测申请(内测地址:tiangong.cn)。

e5894cf91dc8c6d2799b55e546cb68ee.png

作为参加内测的首批用户,经过两天的深度体验后,小编觉得:比传统搜索智能、比GPT-4实时,比其他AI搜索准确。

传统搜索的奇点时刻,真的来了!

8ab5feb036acf467f7369172d85eafec.png

01

搜索如何迈入AI时代

完胜了这么多对手,天工AI搜索究竟是怎么做到的?

小编体验后最强烈的感受就是——第一次,搜索变得人性化了。

智能检索,全面总结

在传统的搜索引擎中,我们会输入关键词,随之扑面而来的,就是茫茫的海量信息。

在这无穷的可能性中,我们需要浪费数不清的时间,像「寻宝」一样探索,最终还未必有结果。

而基于大模型能力的AI搜索,是一种生成式搜索,用户可通过自然语言清晰表达自己的意图,AI搜索提供的是经过组织和提炼后的答案,不是「信息」,而是「知识」。

864490ee14343a79405fe4d7e36947e2.png

大模型带来的整合、提炼、串联信息的能力,让AI搜索能更好地应对开放式问题。处理知识类和创意类搜索时,表现也完爆传统搜索引擎。

就天工AI搜索来说,它与传统的搜索引擎类似,会首先将搜索结果的信息源展示出来。

然后,再给出由AI大模型生成的总结。

最后再配上由AI生成的追问,形成的「链接——回答——追问」的结果呈现方式。

efd8ca070b1b4f902e69a3a0b79fcaeb.png

而且,基于对上下文语意的理解,天工AI搜索能够以AI总结+多轮对话的方式,不断帮助用户发掘自己真正的搜索意图,解决用户的实际问题和困难,并且实现对复杂问题的深入研究。

比如,假如我们现在需要减肥,但对此毫无了解,在传统的搜索引擎中输入「如何10天瘦十斤」,然后就要面对海量的链接。

a78bfb090dcdf9293949b7312a4783e9.png

天工AI搜索中,给出的不是孤立的链接,而是有机串连的结果。

这样的好处在于,避免了传统搜索中「一堆链接无序地砸到脸上」的情况,不必担心信息过载。我们理解信息的速度和全面性,都会大大提高。

因为天工AI搜索将链接放在上下文之中,有机地梳理、呈现出来,让用户一眼就能把握住要点。

30e98f695693c00e84d7c591b8897755.png

基于上述回答,我们可以很自然地分别对运动和饮食两个核心方法,进行进一步的追问。

a281dd8a6e74e9c0a42b6e206545c4d1.png

根据它提供的追问,我们接下来可以问:该怎么规划饮食。

d72220065f5c6e7fa5fed37c2babee02.png

回答非常靠谱,没有AI自己杜撰的「机器料理」,也很好地满足了只有「牛肉和鸡肉」这个条件。

最后,我们可以让它根据菜谱,总结一份超市购物清单。

b0ad0efa945b8ab544b53f28ca0d5c52.png

短短10分钟,我们就得到一个完整的减肥方案,操作性极强。

让一个健身小白,在网上茫茫多的「信息」之中,成功获取到了能指导自己减肥的「知识」!

总结来看,传统搜索引擎给出的结果,是根据各家算法获得的链接和问题的相关性做出排名后,由高到低呈现出来。各个链接之间的逻辑永远都只是一个抽象的相关性排名、高的在前,低的在后。

而天工AI搜索,是传统搜索的智能化版本,它能够通过大语言模型将各个链接的内容,以及之间可能存在的逻辑联系总结概括出来,从而帮助用户更快更好地获得对自己有帮助的回答。

顺便,小编也向Bing Chat提出了同样的问题,然而它的回答就很敷衍。

只是罗列了几种食品的排列组合。完全无视了5天不重样的要求。

f886e198573b447dee29f8274b5de024.png

与此同时,天工AI搜索还通过大模型实现了对广告网页的识别和筛选,解决了传统搜索引擎中无处不在的广告问题。

如此一来,也就确保了用户能够获得纯净、高质量的搜索结果,完全不用担心自己在使用过程中会受到广告的误导。

649076e9c0f938346ce8d4ace2276374.jpeg

接下来,让我们仔细剖解一下,天工AI搜索的几个独特「超能力」。

无限追问,环环相扣

这些能力中,最令小编印象深刻的,无疑就是「无限追问」。

在使用传统搜索时,如果我们想要继续深入了解某话题,不仅需要从头开始一轮新的搜索,而且在加入新的关键词的同时,还得思考需要保留哪些旧的关键词,才能让搜索引擎不跑题。

此外,为了便于回溯之前查询的答案,我们还不得不保留多个浏览器标签页,操作起来极其繁琐。

210d1f678aa21de6385ddc0227c51bd0.png

而天工AI搜索,却可以通过20多轮交互展开深度探索,推着我们向终极答案一步步逼近。

就拿天工大模型刚刚发布时,轻松搞定的那道自家算法工程师面试题为例。

6305d5e04ae947a68134658f90759ad2.png

在经过一番「上网学习」之后,天工AI搜索很快就给出了基于二分法的Python实现。

674f8d851259b68211e5a8bd16ef4bf6.png

紧接着,天工AI搜索又根据问题本身以及自己用到的方法,给出了三个更进一步的追问。

显然,如果我们想更加深入地学习这道题的解法,直接点击问题一即可。

0181da9debe4974a7b5f52ae50fae838.png

针对这个问题,天工AI搜索除了对之前所用的「二分法」进行了解析外,给出了「插值法」和「斐波那契法」这两种新的方法。

039d3a8ff6fdcc2140e191674a78e6eb.png

如果想进一步了解插值法的相关实现,直接告诉天工AI搜索就可以了,完全不用重复之前的问题。

c60fa3839bb759eb7c0a9f744a303939.png

在使用天工AI搜索的「追问」时,小编忽然感到,这个过程如此似曾相识。

a429e98a06c86bfdc2dbadd1bbc8bd0d.png

古希腊哲学,就是一门纵深追问与精密逻辑的系统。穷尽万物、寻其根本,在追问中,人类探寻着宇宙本源。

看来,无论是形而上的学习一门新知识,还是具体到写一篇学术论文,天工AI搜索在辅助我们打开思路、展开推理的过程中,一定大有可为。

追根溯源,回答可靠

在不断追问中,天工AI搜索帮我们解惑, 但又如何确认这个答案就是正确的呢?

传统搜索的一大痛点,就是不同来源的信息鱼龙混杂。另一面,大模型的生成机制,也无法避免「一本正经地胡说八道」现象。

a1fa0de702151b2c2891591b04895f4f.png

这里,天工AI搜索的另一大特点,就是在所有回答下方,列出了信源索引,供我们验证信息。

由此,任何一个人可以考察回答的准确性,进而保障了答案可追溯、可考证、可信赖。

就比如,让天工AI搜索解答大型语言模型发展前景是什么?

天工AI搜索给出4种发展趋势,并在回答上方,列出了6条信息信源,覆盖了知乎等各种媒体来源。

ad9839b6b29aee389b6da18cebbf76a5.png

如果无法确认第2个要点,可以根据标注的来源,翻阅全文去进一步了解。

661d7a602e068cb6e60b49a22dd1eff8.png

又或者对第3点有疑问,查阅第6个链接。

71210b1e4443f21a14e135c2e3ab76be.png

此外,每轮搜索结果,都会保留在历史记录中,方便随时查找,甚至,还可以一键分享给他人。

ed1090b2c88e61aabd537621b8d5c91f.png

量身定做,千人千面

大模型的赋能,使意图识别成为可能,「更懂人心」的天工AI搜索,会给我们更精准、更个性化的答案。

第一次,我们在搜索上得到了「量身定做」、「千人千面」式的体验。

小编分别开了两个问题,设定了不同的初始体重,请天工AI搜索帮我制定减肥健身计划。

a15d428e068a07389ae7982e17744b6d.jpeg

天工AI搜索给出的回答和追问中,针对大体重人群,专门强调了运动减肥的安全性,提醒用户要避免运动伤病。

而在追问和回答当中,甚至专门提出了「低冲击有氧运动」的方式,防止减肥过程中给身体造成损害。

ae35a494aeb58f7f929330bb05f16f96.jpeg

而在另一个问题当中,我们将体重设置在80公斤时,天工AI搜索给出的回答和追问中就不涉及避免运动伤痛,而是强调运动效果和运动习惯养成。

abba256b640e5ef225d8483f3c683e90.jpeg

用户使用追问进一步提问后获得的回答以及追问和150公斤设定也下会有非常大的区别。

同样是提问健身减肥,只要用户能向天工AI搜索提供尽量多的细节,就会得到更加定制化的搜索结果和回复。

dc53201c6fce6ca542aa3c8658ce252f.jpeg

这种「量身定做」「千人千面」的定制化搜索体验,在支持多轮对话的搜索环境中,依赖的是天工AI搜索在追问系统中采用的意图识别,用户反馈接收,上下文感知等技术。

这样的体验与仅仅依赖关键词匹配的传统搜索,完全不属于一个时代!

实时信息,避免幻觉

除了搜索引擎外,相比于传统大语言模型,即便是接入了联网插件的那种,天工AI搜索的信息实时性依然更强,而且据此给出的回答也更加完备。

比如,最近室温超导讨论热度非常火,我们可以让几个搜索工具pk一下,跟进一下最近的论文情况。

天工AI搜索给出的链接,包括了arXiv上的论文,知乎讨论和新闻报道,从多个渠道汇集了事件的最新进展。

而且生成的回答中,不仅有关于每篇论文的内容介绍,还从更宏观的层面将超导事件认定为「存在差异和争议」。

更为亮点的是,它给出的论文中包括了最重要的中科院硫化亚铜论文,这篇论文是外界认定超导事件最新进展的最重要依据之一。

99d53bd2fb84c90ef541ad6d4f1dea03.jpeg

接下来,轮到GPT-4选手出场了。

5ef063fada905c8b7a9f11460413f8bc.jpeg

它在联网插件的支持之下,也提供了3篇论文,每篇都做了摘要。

然而,这3篇论文都属于发表较早、支持「LK-99是室温超导体」的论文,没有客观反映出LK-99事件整体的最新进展。

显然,与GPT-4相比,天工AI搜索给出的结果更加全面,时效性也更强,更好地还原了事件的全貌。

如今的搜索,谁能把握时效上的优势,谁就能给用户最正确的信息。而GPT-4+联网插件在时效性上,和天工AI搜索还有一定差距。

29ac1c8fa8426483dee9c79f0b1fa51c.jpeg

另外,天工AI搜索利用链接对信息进行溯源,能极大地避免LLM的「幻觉」。

小编随便问了GPT-4一个中国历史故事。大概因为GPT-4的训练数据不包括《资治通鉴》,它果然开始胡诌了。

521b395b513dc6ec9205c5ce67a9ac8a.png

而能通过链接溯源的天工AI搜索,天生自带联网功能,彻底灭除「幻觉」可能。

c1cc0efef5aac6a55bbc4d77bec83fd8.png

而即便是之前产生幻觉的GPT-4,只要给它装上联网插件,它立马就能找到正确答案。

4d045b4939b38365120346958180841a.png

可见,AI+搜索的构架就是针对大模型出现「幻觉」的绝杀!

02

解密背后技术

那么,这背后究竟是怎样的技术,拓展了天工AI搜索的能力?

核心,还是大模型。

4月17日,昆仑万维首次发布了一款双千亿级大型语言模型——「天工」。

它在文案创作、知识问答、代码生成、逻辑推断、数学计算等领域,展现出非凡能力。经过多次技术迭代,「天工」在许多维度上已达到,甚至超越了业界标准。

技术上,「天工」部署在国内领先的GPU集群上,整合了千亿预训练基座模型,以及千亿RLHF模型,称得上是「大力出奇迹」的模型。

同时,模型还引入了蒙特卡洛搜索树算法,使得输出内容更加人性化。要知道,名噪一时的AlphaGo背后便结合这一算法。

aef7cad97561bce8d8af57232c93ced7.png

值得一提的是,天工团队从数十万亿的数据中清洗、筛选出了3万亿个单词数据用于大模型的训练,让大模型拥有卓越的中文语境、词汇和语法处理能力。

正是有了「天工」大模型在技术上的突破,以及独特的优势,能够大大拓展天工AI搜索的能力边界。

- 大模型Query意图识别和理解

搜索之前,大模型对用户问题做Query改写后,能够深入挖掘用户真实意图,还能迅速捕捉到上下文关系。

比起传统搜索,能够提供更加精准的搜索结果,甚至大大简化操作。

对于Query改写,大模型通过将查询进行重组、调整或替换,使其更加准确、简洁、易于理解。

而对于意图识别,其主要任务是识别用户查询背后的意图或目的,以便更好地理解用户需求,并为其提供准确的回答或建议。

- 追问技术

天工AI搜索中,最有特点、人性化的设计便是「追问」能力。

其目的,就是为了准确捕获用户意图,提供最相关的搜索结果。

而这一技术的核心便是,对用户的查询进行理解,并在需要更多信息时向用户提出追问。

其实现原理过程如下:意图识别;信息完备性检测;问题生成;用户反馈接收;动态调整与学习;上下文感知。

此外,为了实现无限追问,还需要大量的数据进行训练,也需要不断地进行迭代和优化,以满足用户多变的需求。

- 信息智能摘要和基于检索的大模型技术应用

应对开放式问题回答的挑战,「天工」采用了Dense Passage Retrieval(DPR)技术。

DPR在处理「长篇文档」和「复杂问题」上具有天然的优势,并能给出优秀的检索结果。

5c35cf28ed90aa83af455af517100696.png

为满足不同的应用场景,DPR提供了2种核心实现方式,各有千秋:

1、single-vector:把问题与文档均编码为单一的向量。

2、multi-vectors:对文档进行多向量编码,但将问题以单一向量表示。

第一种方法因其简洁的存储和检索能力备受推崇,但在某些场景下检索效果可能稍差。与之对比,multi-vectors虽需更大的存储空间,但其在检索准确性通常更为出色。

- 向量语义检索

在此,昆仑万维还构建了一套大规模实时向量检索系统,并在搜索的多个环节发挥作用,比如精准内容定位,增强内容多样性、以及智能上下文连贯性。

a861163974cf31e4252c001f430dc5d9.png

- 跨语言检索和信息整合

通过采用前沿的跨语言信息检索技术(CLIR),天工AI搜索还能深入英文知识库和学术文献进行检索,即便我们用中文提问。

比如,提问「什么是Transformer架构?」

天工AI搜索的参考内容中,便给出了2个国外文章的链接。

4ee731753be8fc872d45d030d866d55b.png

这背后,便是利用了「天工」大模型出色的跨语言理解能力,拓展了搜索知识边界,也能让我们第一时间了解全球资讯和研究成果。

那么,跨语言检索和信息整合具体如何实现,有以下几步:

查询翻译;检索与排序;文档翻译(如果需要的话);信息整合;反馈与优化;深度学习与表征学习。

这一全套流程,需要整合多项AI能力,包括机器翻译、信息检索、数据融合和深度学习。另外,大量的双语数据、用户交互日志和高质量的文档数据,也是提升CLIR效率。

从上,我们看到了「天工」大模型和AI搜索之间的关系和演进。

03

用大模型,重塑搜索

如今,GPT-4等大语言模型的空前爆发,已经为各种应用加满buff,搜索也不例外。

AI搜索,是大模型+搜索技术结合的创新形式。

ChatGPT横空出世后,业界的一种声音认为,谷歌、必应等搜索巨头将会被颠覆。

f557e27a78fe779afb9d7ed2cc77ee60.png

作为用户获取信息的高频入口,搜索必将成为大模型落地的核心应用场景,并真正释放出大模型所蕴含的巨大生产力。

其实,从国外来看,一些科技公司已经用大模型赋能搜索,为用户提供更好的体验。

微软最先将GPT-4模型整合到New Bing中,让必应搜索能力大大升级,为所有人提供了一个智能化AI助力。

谷歌I/O大会上,劈柴宣布了颠覆性搜索生成体验(SGE),提供问题回答摘要,还有显示文章来源的卡片。

由PaLM 2驱动的全新AI搜索引擎,直接改变了谷歌搜索的底层逻辑。

除此之外,还有DuckDuckGo、You.com、Perplexity.ai全都将大模型融入了搜索。

反观国内,包括百度、360等大模型应用突破,也最先将大模型能力应用到搜索中。

作为一家全球领先的互联网公司,昆仑万维同样会付诸实践,让大模型能力更好地为搜索助力。

2020年,这家前瞻性的头部科技公司便开始布局AIGC和大模型领域。

至今三年的时间,昆仑万维发布了AIGC领域中全系列算法和模型昆仑天工、以及各种生成式AI工具,并开源了各种项目。

有了大模型的助力,天工AI搜索便有了塑造「搜索链接一切」的边界能力,将重塑搜索形态和体验。

天工AI搜索,作为国内第一款落地投入应用的AI搜索产品,是昆仑万维在AI领域持续深耕的一个重要里程碑。

未来已来,而天工AI搜索,将会成为每个人的生产力助手。

巴比特园区开放合作啦!

8d4e18e1a6e234de2883e1a03cd68586.png

648ffc2f92d90c2d24289002c41345a7.jpeg

299689a4943c2126a9df4bbdd1a14c47.gif

中文推特:https://twitter.com/8BTC_OFFICIAL

英文推特:https://twitter.com/btcinchina

Discord社区:https://discord.gg/defidao

电报频道:https://t.me/Mute_8btc

电报社区:https://t.me/news_8btc

139e6ae54ea9242c06178e6deb2c6db3.jpeg

猜你喜欢

转载自blog.csdn.net/weixin_44383880/article/details/132505120