多模态商品推荐与认知智能背后的数学

在数据挖掘领域,KDD CUP是最有影响力、最高水平的国际顶级赛事,堪称大数据的“奥运会”。阿里巴巴作为KDD CUP 2020的主办方为参赛团队准备了两大赛题,第一道是关于“电商场景的多模态商品推荐”,下面就这一道题目从认知智能与数学角度谈谈我的理解和可能性的理论框架设计。

一、早期的单模态任务检索

作为数据挖掘师,我们最早的目标是处理单模态的检索任务,即用文本来检索文本,还停留于对自然语言的处理及理解问题上。这里面出了谷歌、百度等传统的搜索引擎,当时为了满足模态间的检索需求,这些搜索引擎也出现了类似的跨模态搜索,但其本质依然是文字搜索,不过是为图片打上了相应的文字标签,然后利用文本搜索得到对应图片。那如何为无标签图片自动打上相关的标签就成为了实现该类功能的核心问题。同时,管理海量图片是否也应该考虑到图片和文本间直接的内在联系。这一系列实际问题的提出也指明了数据挖掘的发展方向。

二、基于多模态的图像和视频召回

随着大数据和互联网的高速发展,我们平常接触的数据日趋复杂和多样,尤其随着内容化的发展,大量的多模态数据,如图像、视频、文本,在我们的生活中随处可见。因此在如今的搜索和推荐算法下,基于多模态的图像和视频召回具有着重要的现实意义。

在这里,我们先熟悉下在图像视频推荐上,传统的三种召回方式:行为召回、语义召回和视觉召回。

行为召回是指使用对用户历史行为建模的协同过滤方法进行召回。一方面对于新用户,我们不能确认其喜好,没有历史数据可以参考来推荐内容;另一方面对于用户分享的新视频、新图片等内容,同样因为缺少用户交互数据,我们不能确定可以将其推荐给哪些用户。因此,协同过滤方法依赖用户的历史数据,只有在交互数据足够多的时候,才能够取得非常好的效果。

语义召回是指利用视频相关的元数据作为视频特征,用于内容召回。元数据是指标题、副标题、分类等等,如果是影视类的,还可能有导演、演员等信息。元数据是高度语义相关的信息,能和用户的兴趣直接关联起来,用于推荐会有很好的效果。其问题在于元数据缺失或者不可信。

视觉召回是指对视频内容进行建模,计算视频之间的相似性,从而参照用户的历史观看数据,推荐相似的视频。其问题在于可能召回语义上不相关的内容,降低用户体验。三种经典召回方法各具有优缺点,能否将三种或其中两种方法进行结合创造出新方法也是数据科学家们的任务。

三、跨越不同模态之间的语义鸿沟

另外,尽管视频化已经形成潮流,直播、短视频等早已风靡全球,但是如何检索视频依然存在很多困难。视频作者往往不会为自己的视频起一个能充分涵盖其视频内容的标题或描述,视频检索也将成为一项重要的技术。因此基于多模态的召回作为多模态学习的子任务,是可以给业界各个领域带来帮助的。我们已经知道,爆炸式增长的多媒体信息来源于不同的渠道,但不同的模态依然可以被相同的语义类型所表示。注意,这里仍然是将多模态信息打上同一语义类型的标签。

一般来说,互联网中存在着大量的被文字进行描述的视频、图片及音频等多媒体数据,它们能够表达相同或者相近的语义信息。组织和管理大量的多媒体信息需要将不同模态的数据进行关联,挖掘不同模态间的关联信息成为了其核心的问题。挖掘不同模态间的关联实质上是搭建起不同模态间的语义间隙,使得不同模态数据能够表示同一种语义信息。随之而来的问题是如何表示多模态的数据及如何在模态间建立有效的关联来降低模态间的语义间隙。针对多模态数据特征表示,许多研究人员对其做出了深入研究与探索。如既有利用传统的人工特征来表示图像,又有利用前沿的深度学习技术来提取图像特征。而更为重要的是建立模态间关联的方法,如何能够提升模态间的关联程度并有效地组织多模态数据成为了核心研究内容。

为了能够有效地组织和管理多模态数据,研究人员提出了许多解决方式。最为直接的便是跨模态检索,其实现的目标是使用给定查询模态来检索另一种模态,研究人员通常关注于使用文本来检索图像和使用图像来检索文本两个方面,实现了两种模态间的交叉检索。另一种解决方式是图像的自动标注,通过标注无标签的图像,使得图像拥有更为直接的文本信息,便于图像数据的组织与管理。

四、多模态学习背后的认知智能机制和假想设计的数学框架

人工智能1.0已经逐步解决了“听、说、看、写、译”等基本问题,也就是利用自然语言处理、人工语音合成、计算机视觉和图像处理等各种单项弱人工智能攻克每个方向的学习任务。新一代的人工智能2.0将更多基于数据,自动将非结构化的数据转变为结构化的知识,做到真正意义上的认知智能。探索如何保持大数据智能优势的同时,赋予机器常识和因果逻辑推理能力,实现认知智能是当下人工智能研究的核心。

要深刻认识这个核心,我们需要充分了解人脑在处理信息时的底层逻辑。然后从认知心理学、脑科学以及人类社会的发展历史中汲取的灵感,来构建认知智能的底层架构。这里,笔者就自己的认识来谈谈如何设计机器处理信息的底层数学框架。

首先,人类的大脑是通过面部的五个感觉器官将我们的周身万物进行了“区分对待”,然后再通过意识进行了分类。进一步,相同的、相似的事物又会通过或直觉或逻辑推演等思维过程进行聚类。于是有了“名”,有了“概念”,有了“定义”。

归根结底,人的思维活动即概念的划分。人生出来,世界是混沌一团,叫零概念,内涵为空。随着知识的增加,概念越分越细。北师大的汪培庄教授认为:从上位概念到下位概念(例:水果到苹果),外延越来越小,内涵则是在继承上位概念的内涵之后又补充一些新的属性描述。从上位概念到下位概念的分解过程就是人类认知的一个认知单元。概念划分离不开因素。每个认知单元都对应着一组因素,叫做单元因素。这组单元因素构成一个因素空间。叫做认知单元空间。因素空间的认知单元空间直接而完整地用数学描述了人的认知单元。我们可以将因素空间看成以属性名为轴的坐标系,任何事物都可被抽象成因素空间的一个点。这样就建立了信息描述的普适性框架。建立因素空间的目的不仅仅是为了事物定位,在诸因素的属性组态中,是有逻辑关系的,它从全部的认知信息中决定了概念与推理的提取。从此,数据的角色就起到了变化,从分析的土壤变成培植的对象。

举一个实物为例,我们从最开始将其判定为水果,对于水果我们可以在因素空间里找到定位。但这个定位并不是一个点,我们还需要向下找下位概念。所以还要从形状颜色纹路、敲声、切开后清爽的气味、品尝时某类甘甜的滋味、触摸外皮时光滑的触感等等信息,融合这五大类信息,我们的大脑给此类物体下个称谓为西瓜。输入端是五个类型的信息,输出端是一个物品称谓,我们将类似的处理过程称之为“信息融合”。

实际上,我们学习新知识的过程,就是一个新信息和旧信息不断融合产生新概念、新结论的过程。输入端可能是各类历史、各类定义和特征,输出端往往是各种结论,各种定理和名称。人的大脑就是中间处理信息的黑盒子。从输入输出来看,如果输入端信息越多越详细越精确,那么输出端的信息会趋向越简洁越精准越有价值,这个价值是指利用输出端简洁明了的、赋予了规律的信息来指导未来。对于具体的事物,在因素空间里的定位会更精准。人类趋吉避凶的本能,决定了人类会无休止的搜集、汲取输入端的信息,厘清信息之间的关系,从而得到强规律性的结论。

在以深度学习为代表搅起AI风暴的今天,我们一般将这些海量的输入端信息叫做大数据。如果一类信息在数据库里,可以用二维表结构来逻辑表达实现,那么我们称之为结构化数据。如果一类信息不方便用数据库二维逻辑表来表现,即称为非结构化数据,包括图片、图像和音频、视频信息等等。介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等),我们称之为半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。这三种形式其实也可以说是多模态信息。

目前,不管是人类还是机器所需要处理的数据多属于非结构化数据,它们需要进一步加工,但有些我们可以用结构化数据表示,如体感里的温度,我们可以用数字来衡量。处理这些数据的过程,也就是黑箱子,就是我们的算法实现。如何将这么多不同种类的异构数据源进行信息融合,是大数据处理的一个难点。在尚未找到统一框架的情况下,因素空间可以成为异构数据处理的一个参考。它既是描述一切事物的框架,就可以同时接纳图片,音响,视频和文字等异构的数据。对它们的处理都集中在‘释义’二字上。根据任务的需求,从粗概念开始,先作大划分,逐步细化。事实上,在工程实践中,我们多多少少依循了这个处理思路,数学逻辑框架的搭建有助于对未来的前沿进展指出一条清晰的路。

发布了1375 篇原创文章 · 获赞 1万+ · 访问量 685万+

猜你喜欢

转载自blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/105248807