AI在蚂蚁金服产品线中的大规模应用

近日，蚂蚁金服副总裁兼首席数据科学家漆远博士发表了主题为《金融智能的发展与应用》的演讲。漆远表示，蚂蚁金服今年的两个关键词，一个是“开放”，一个是“AI（人工智能）”。在此次演讲中，漆远从风控系统、智能助理、定损宝等产品案例出发，全面介绍了蚂蚁金服产品背后的人工智能技术。

以下为蚂蚁金服副总裁兼首席数据科学家漆远博士的演讲精华整理。

金融服务的基本挑战

蚂蚁金服为什么要做人工智能？可以说，想要做好金融科技服务，人工智能技术必不可少。蚂蚁金服拥有人工智能技术应用的丰富场景和海量数据。利用人工智能技术，我们能够解决真正的问题、提供真正有意义的服务。

支付、保险、财富、风控、微贷，这些由蚂蚁金服提供的金融服务背后蕴藏着深厚的人工智能技术实力。海量的金融数据为人工智能提供了充足的燃料。与此同时，专业的金融服务同样也充满着挑战，如：

时间敏感：如何在毫秒级完成交易风控的判断？
海量数据：一天几亿笔交易数据的处理，对大规模稳定的风控系统提出了要求。
业务多样性：例如怎么用迁移学习发现业务中不同任务的共性。
系统性风险：如果说把系统用一个网络来表达，应何从网络的角度分析问题。
强数据安全：保护数据的安全如用户隐私也是金融业务本身非常重要的特性。

金融智能的技术元素

基于以上提到的这些挑战，蚂蚁金服构建了一个金融智能平台，从底层的图像理解、语音识别能力，在此之上发展了自然语言处理（NLP）的能力，然后基于这些技术诉求进行机器学习、深度学习，分析时间序列，比如说预测余额宝的利率变化等。在最顶层，我们发展出推理和决策的能力，使我们能够帮助用户和金融合作伙伴做出明智的决策。

蚂蚁金服金融智能平台里囊括了一系列的人工智能技术，包括强化学习、无监督学习、图推理、共享学习等。这些技术的选择始终需要满足金融领域的实时对抗性、大规模以及安全加密性。

蚂蚁金服金服的定位为Techfin，中文名为“金融科技”，“科技”是我们的核心。当下，人工智能技术是科技公司最核心的能力之一。蚂蚁金服今年的两个关键词是“开放”和“AI（人工智能）”。我们希望使用先进的人工智能技术驱动业务。同时蚂蚁金服作为科技公司，我们遵循“技术成熟一个，就开放一个”的原则，我们希望将蚂蚁金服强大的技术能力将会开放赋能给合作伙伴及金融机构，让他们能在各自的专业领域进一步发挥所长。

接下来，我将以蚂蚁金服从技术到业务应用的六个案例，与大家分享人工智能技术在蚂蚁金服的发展和应用。

案例一：安全风控

在安全风控场景中，里面会涉及用户、终端设备、商家等多个实体，他们之间通过资金流动形成互联。传统的风控技术依赖于建立好的诸多规则和模型。过去十年来，蚂蚁金服使用机器学习技术建立起了强大的风控系统。但我们不会因此停步，蚂蚁希望能在此基础上进一步升级风控系统。

以可信模型为例。如何判断一笔交易是否存在账号被盗的风险呢？这里，我们创造性地跨界借鉴了广告CTR预估技术。参考2014年Facebook一篇广告算法的论文中分享的GBDT+逻辑回归的方式，我们使用蚂蚁开发的参数服务器技术，并把逻辑回归独创性的换成了大规模深度学习（GBDT+DNN），并成功使用到风控业务里。因为在风控中有许多特征无法准确判断是否有用，因此通过GBDT产生海量特征之后，再将这些特征用于深度学习模型，进一步提升检测效率。

接下来，我们进一步可以考虑用户、设备和卖家之间的关系，利用Embedding技术，将关系整合形成图网络，再进行监督学习和增强学习。举例来说，我们是如何及时检测出支付宝账号的盗号行为的呢？首先我们会将包括用户、商户，手机、PC计算机、iPad等多个终端设备构成一个图网络。第二，我们可以将整个图关系通过Embedding技术构建深度学习网络。机器学习技术能够以此产生一个隐层表达，这个表达不光涵盖了每个节点自身复杂的特征，并对网络结构进行了编码。相较于此前的Node2vec系统，新系统——Struc2vec算法的预测精度实现了质的飞跃。

案例二：智能客服助理

智能助理和机器人是人工智能领域最热门的话题之一，其中“人机对话”是关键。如果你现在打开支付宝中的“智能客服”页面，你就可以与支付宝人工智能客服“小蚂答”进行互动，感受人工智能客服的有问必答。此外，蚂蚁财富的社区机器人“乐于助人的安娜”是蚂蚁金服智能对话机器人的又一案例，用户直接输入问题或者参与讨论，都可以得到她的回答。她甚至还提供舆情分析等强大功能。

接下来我和大家分别介绍这两个智能客服助理背后的关键技术。

客服机器人算法创新－结合用户行为轨迹的语义匹配模型

当用户向支付宝智能客服提问“如何退款？”时，这个问询是没有上下文的，这也就意味着没有场景。为了很好的理解这句问询背后用户的动机，我们采用了LSTM+DSS（Long Short-Term Memory + DeepStructured Semantic Model）的算法创新。我们首先通过LSTM对用户行为轨迹做一个编码，通过深度排序模型，结合用户之前的历史操作，系统能够判断用户的诉求更接近“转账到账户转错了怎么办？”，而不是“为什么银行卡转账被退回来了？”。借助这项技术，去年双十一智能客服自助服务的比例高达惊人的97%，目前人工智能客服助理的回答满意度也已经超过了人工客服，系统整体在降低成本的同时服务质量还有了显著的提升。

舆情分析

蚂蚁财富的社区机器人“乐于助人的安娜”的舆情分析能力背后的技术主要包括两大板块。

一、基于金融领域情感知识库的方法。首先对数据进行基于模板的情感单元抽取，之后利用情感知识库计算情感单元的正负情感进行打分，最终汇总所有情感单元的打分情况得到总情感得分。其中，情感单元值得是完整的情感表达单元，而不是单个的情感词。如系统能够准确辨别出“利空出尽”是正面的情感，而“风险上升”是负面情感——尽管这两个词包含多个相反情感的词汇。二、基于深度学习的方法。整套系统采用卷积神经网络（CNN）和张量神经网络（TNN）的组合，包括卷积层、张量层、k-max pooling层、全连接层，最终输出正负情感得分。其中CNN用于抽取结构化局部特征，TNN建模特征间的交互协同。两项技术相结合，最终使得“安娜”的新闻文本舆情分析准确率高达88.4%！

案例三：基于参数服务器的大规模机器学习

在阿里巴巴集团时，我们团队开发了一个大规模机器学习平台，后来在蚂蚁金服我们继续在阿里这个平台添加新算法。这个机器学习平台在整个阿里经济体被广泛使用。大家每天都能接触到的淘宝的广告搜索、手机淘宝推荐、还有2015年双十一的天猫在线实时推荐都是基于这套系统，并取得了非常好的效果。今年，我们又将这套系统在蚂蚁风控中成功应用。目前，在安全可信交易识别模型中，相同覆盖度的情况下，案件召回率已从91% 增加到了98%；这套系统每天可以让一千多万笔交易更快更准地通过风险检查。相关论文已在数据挖掘领域的国际顶级会议KDD 2017和世界互联网领域的顶级会议WWW 2017大会上发出。

我们总结了这个大规模机器学习平台的优势，分别是：

数据与模型并行
鲁棒故障切换
通过同步和异步-迭代
支持100亿特征、1000亿样本、10000亿参数——我们能从海量数据中提取价值并作出预测。

当然，数据越多、应用需求越多，这对机器的运算效率提出了要求。在蚂蚁，我们将矩阵分解和哈斯算法相结合，这使得我们能处理更大的矩阵，例如1亿*1千万矩阵分解仅需要2小时收敛。我们将这项技术运用在了口碑“猜你喜欢”的场景中，点击率的升幅超过120%。

案例四：强化学习营销——助力花呗智能签约

接下来，我们分享一个场景营销问题。例如对于许多商家来说，如何发优惠券、通过什么渠道发、发给谁（事件+人群+渠道）能起到最大收益？这些都是非常有价值的商业问题。

针对这个问题，我们采用了深度强化技术，分为三个阶段：

State: 从多个业务抽取特征，刻画用户状态
Action：同时对卡片和渠道做组合决策
Reward：综合用户的点击和签约行为

整个框架设计上采用了流式强化学习框架，所以能够实现实时更新，整个算法能够在框架上迭代。我们最终实现了推荐卡片点击率171%的增长，最终签约率也实现了可喜的149%的增长。

案例五：模型服务平台（水晶球）

前面几个案例和大家分享了单项技术的强大能力。那么，有没有有一种方式能够整合这些强大的技术能力，而让使用者不需要了解十分深入即可享受到这些前沿技术呢？

因此，我们开发了一个模型服务平台，将整个模型训练可视化。用户只需要通过简单的点击、拖拽数据就能产生所有的结果。对于应用开发者而言，他可以将算法应用后进行一键部署。开发算法的同学也可以写出新的算法，之后通过统一的平台进行服务。

目前在蚂蚁金服内部，从芝麻信用到网商银行的借贷、风控都在全面使用这一平台。回到“开放”这个话题，我们也希望蚂蚁金服的人工智能能力开放服务与我们的客户与合作伙伴。

接下来简单和大家分享一下这个模型服务平台的特性。简单来说，这个平台力求让模型所见即所得。因为不光数据是资产，模型本身也是资产。模型的可视化能够极大提高开发人员的工作效率，降低使用门槛。开发人员不需要完全知道某一行公式具体是怎样推导的。同时这个平台还支持支持A/B测试框架，可以全生命周期模型效果监测，主动发现最优模型和参数，并支持实现多人同时开发、跨团队协作。

案例六：定损宝

今天的最后一个案例是“定损宝”。这是几周前我们与保险事业部共同发布的一个利用图像技术的车辆定损产品。简单的来说，当车主在行驶过程中不幸遇上了一个小车祸，自己爱车的损伤后需要保险公司定损赔偿。他不再需要耗费精力走联系定损员等繁琐流程，而仅需要将车辆损伤部位拍张照片上传，“定损宝”就可以根据图片对车辆损坏程度定损。这一技术极大的节约了车险公司高昂的定损员培训等其他人力的支出。

这个看似简单技术背后所蕴藏的技术十分复杂。例如：

车辆的部件识别问题。比如正确识别下图汽车的部位是左前大灯还是左雾灯，是前机盖还是后机盖等。

去反光问题。在不同的光照条件下，汽车照片的质量参差不齐，其中反光问题是图像处理领域特别棘手的一个问题。

角度矫正问题。使用“定损宝”的终端用户一般不会经过专业训练，自然不可能保证每一张上传的照片都拍得端正明晰。有时我们就需要让计算机对图像进行矫正，从而更好的进行判定。

以上这些难题都在我们开发这个项目过程中被逐一攻破。负责这个项目的算法同学经过这段时间的研究几乎个个都成了专业的图像定损员。从图像的噪音去除、类目识别，到目标检测、原因判断，再到程度判断（损坏程度）、目标跟踪，之后对目标进行分割、多图融合，最终生成决策并进行验证。整个链路都依托于深度学习技术。目前全国车险案件达4500万一年，其中60%都为纯外观损伤案件。“定损宝”能够将案件的平均处理成本降低至150元，同时可减少50%的作业量，更可以解决偏远地区过高峰时期定损员人力不足的问题。

结语

在演讲的最后，和大家分享一些我在蚂蚁金服做人工智能的感受和想法。

以前我在高校当老师时，经常需要写科研项目申请。一般项目申请需要写清楚两项：技术的原创性和对世界的影响。对于学者们而言，写第一项“技术的原创性”轻而易举，而当写到“对世界的影响”时却常常卡壳。为什么呢？在我看来，学术界的工业界的研究仍存在一定的距离，学术界的研究往往离真实世界的用户需求较远，缺少洞察。今天，我们工业界可以和学术界更积极的进行合作，因为工业界往往拥有更多的数据，并更直接的面临难题和挑战。蚂蚁金服正与世界一流学术机构积极展开合作——如伯克利Rise实验室，最终期望技术的进步能够真正的普惠众生，让人人都能公平的享受人工智能时代的美好生活。

除了学术界的合作，我们也会坚持“技术成熟一个就开放一个”的原则，今天分享的从智能客服助理到平台部署的每一个案例，我们都非常希望未来有一天能够赋能和服务客户，与我们的合作伙伴、客户共同探讨和创造未来！

本文转自公众号：蚂蚁程序猿。