重新思考您的数据架构:AI应用程序和向量数据库的未来

关键字: [Amazon Web Services re:Invent 2023, Weaviate, Vector Databases, Generative Models, Vector Embeddings, Ai Applications, Feedback Loops]

本文字数: 1000, 阅读完需: 5 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1ae411o7MP

导读

新一代人工智能应用已经到来,迫使我们重新思考与数据互动的方式。机器学习模型创建了它们训练过的数据的无状态快照表示,使用向量嵌入来表达。向量数据库是现代数据栈的新兴部分,专门用于向量嵌入,它为生成模型提供了访问独特、个性化或专有数据的功能。这次闪电式演讲探讨了使用开源向量数据库的好处。了解Weaviate如何加速检索增强生成、向量搜索和生成反馈循环来构建安全、可解释和有状态的人工智能应用。此演示由亚马逊云科技合作伙伴Weaviate呈现。

演讲精华

以下是小编为您整理的本次演讲的精华,共700字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

演讲者,作为Weaviate公司的联合创始人,一家成立于2019年的开源向量数据库公司,首先介绍了他的身份。他表示,创立这家公司的灵感来自于大约在2015年出现的输出向量嵌入的机器学习模型。向量嵌入通过创建捕捉数据对象之间关系的数值表示,为搜索数据提供了一种全新的方式。

为了展示向量搜索的工作原理,演讲者提供了一个关于巴黎埃菲尔铁塔的例子。传统的搜索需要匹配特定的关键词如“埃菲尔铁塔”或“巴黎”来检索数据对象。然而,使用向量嵌入,即使没有明确的关键词,也可以搜索诸如“法国的地标”这样的内容并找到埃菲尔铁塔的数据。这种关系能力正是使向量搜索如此强大的原因。

大约从2020年到2021年,更好的搜索是推动向量数据库采用的主要使用案例。但随着像GPT-3这样大型语言模型的出现,向量数据库的新应用出现了,即检索增强生成。这涉及到首先查询向量数据库以获取给定上下文的最相关数据。然后,将数据输入到生成性AI模型中,以产生定制输出,如文本或图像。

例如,演讲者描述了一个房地产使用案例。房源可以存储在向量数据库中。为了为一个没有描述的房源生成描述,数据库会被查询以检索具有相似属性的房源。该数据会启动一个像GPT-3这样的语言模型,根据其独特的细节(如价格、位置等)为基础生成合适的描述。生成的描述可以被存储回数据库, 在以后通过搜索符合自然语言查询的房源来检索。

据演讲者介绍,这种结合数据库、向量搜索和生成性AI被称为“R堆栈”。有许多生成向量嵌入的方法,如与亚马逊云科技服务SageMaker和Bedrock的集成,或使用Cohere的开源模型。目前最常见的应用是从数据库中单向检索数据以增强生成性模型。

尽管演讲者在整个演讲过程中始终保持热情,但他最感兴趣的仍然是不断涌现的实际应用案例。这些案例形成了一个积极的反馈循环。在这些应用中,生成性模型的输出被保存到向量数据库中,并成为了一个可搜索数据集的一部分。举例来说,他讲述了一个Airbnb的演示案例,其中空缺描述的房源通过基于其他属性的语言模型生成的描述得到了改进。将这些生成的描述储存回数据库后,全新的自然语言搜索变得可行,这在原先的稀疏数据中是难以实现的。

特别是,Airbnb数据的示例是从有意制造不完整数据开始的——描述字段为空的房源。每个缺乏描述的房源的描述字段都会查询向量数据库中已有的非空属性,如房东姓名、每晚价格和地理位置。这些属性会启动一个基于房源详细信息的生成语言模型,以生成合适的描述。然后将生成的描述及其向量嵌入一起储存在向量数据库中。如今,诸如“在纽约遛狗的好地方”之类的搜索可以返回相关的房源,而在原始的稀疏数据中,这样的查询是无法找到任何房源的。

尽管目前的例子主要集中在文本上,但演讲者认为这种方法在图像、多模态数据等方面也具有巨大的潜力。Weaviate的一个主要关注点是教育——通过实际操作演示和针对不同专业水平的专家的帮助,让用户了解如何构建这种AI驱动的应用程序。

最后,演讲者邀请与会者参观Weaviate的展台,亲身体验向量搜索和检索增强生成应用的互动式展示。专家会根据与会者的背景为他们提供概述或深入探讨技术。展台还将提供奖品和赠品。关键在于,将向量数据库与生成性AI模型相结合可以实现强大而新颖的应用程序,Weaviate致力于提供基础设施和专业知识,使得这些方法对任何用户都变得容易获取。

下面是一些演讲现场的精彩瞬间:

Weavate的共同创始人探讨了如何建立新的基础设施来支持2015年左右涌现的机器学习模型的向量嵌入,从而实现了强大的语义搜索功能。

这种向量嵌入技术有助于表达对象之间的关系并提高搜索效果。

他们表达了对通过AI模型创造生成性反馈循环的热情。

此外,他们还讨论了利用生成性AI填补Airbnb房源描述中缺失的信息,以提高语义搜索的功能。

共同创始人邀请参会者参观亚马逊云科技展区,观看最新创新成果的演示,例如检索增强型生成应用程序和向量搜索,现场还有专家提供个性化的深入分析和赢取奖品的机会。

同时,他们也邀请了参会者光临展位1620,观摩演示、领取资料,并与他人探讨如何构建具有吸引力的数据库和生成性模型。

总结

演讲探讨了向量数据库和生成性人工智能模型如何变革数据基础设施并推动新型AI应用的发展。发言人指出,向量嵌入可以表示数据之间的关系,从而实现超越关键词的语义搜索。尽管更高效的搜索已经是一个早期的应用案例,但新兴的新应用将把向量数据库与生成性模型相结合,用于“检索增强生成”。在这个过程中,向量数据库中的数据将为诸如GPT-3之类的AI生成模型提供指导。这有助于开发定制的AI应用程序,以及针对个人数据创建“代理”。一个令人兴奋的新兴领域是创建数据在向量数据库和生成性模型之间的反馈循环。例如,Airbnb的房源数据没有描述,但通过使用AI模型生成描述(并将其添加回数据库)来增强搜索功能,使得基于生成内容的搜索成为可能。发言人对这种生成性的循环在定制AI应用程序方面的潜力持乐观态度。尽管目前主要集中在语言模型上,但利用图像、视频等多模态应用的整合也正在到来。为了帮助用户构建这些AI应用程序,发言人的公司Weaviate提供了教育资源,如演示和培训。会议参与者被鼓励参观他们的展示区以观看演示,赢取奖品,并了解如何将向量数据库和生成性模型结合起来。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134868072

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

猜你喜欢

转载自blog.csdn.net/goandstop25/article/details/134868075
今日推荐