论文阅读:NLP in FinTech Applications:Past, Present and Future 金融技术应用中的NLP:过去、现在和未来

NLP in FinTech Applications:Past, Present and Future

金融技术应用中的NLP:过去、现在和未来

摘要

根据来自谷歌趋势的FinTech的统计,金融科技(FinTech)是过去五年全球迅速崛起的话题之一。在本位置论文中,我们重点研究了在金融领域应用自然语言处理(NLP)技术的研究。我们的目标是表明我们目前所处的位置,并为未来的研究提供蓝图。我们从三个方面介绍应用程序方案,包括了解您的客户 (KYC)、了解您的产品 (KYP) 和满足客户需求 (SYC)。对正式文档和非正式文本数据进行分析,以了解企业客户和个人客户。此外,我们讨论如何从潜在客户和风险角度动态更新产品功能。最后,我们讨论在 B2C 和 C2C 业务模式中满足客户需求。在总结过去和近期的挑战后,我们着重介绍了金融科技趋势和开放金融趋势中未来几个有前途的研究方向。

1 引言

传统上,金融服务受到政府的高度监管,因为它影响着每个人的日常生活。在这种情况下,只有商业银行和投资银行等金融机构才能提供服务。在最近的金融技术(金融科技)趋势中,形势发生了翻天覆地的变化。条例的发布,允许个别公司和初创企业为群众提供金融服务。一些颠覆性的创新,如P2P贷款正在出现。在金融革命时代,许多技术被用来克服传统金融服务的缺点。
在这里插入图片描述
在过去的五年中,金融科技是全球迅速崛起的话题之一。图 1 显示了 Google 趋势中的"金融技术"统计数据。在工业方面,有许多由企业和政府举办的金融科技展览,如新加坡金融科技节和香港和加拿大的金融科技周1。在学术方面,许多与财务相关的研讨会都与顶级会议结合在一起,包括 EMNLP-2019 和 ACL-2019 中的 ECONLP(Hahn 等人,2019 年,2018 年),IJCAI-2019 的 FinNLP(Chen 等人,2019c)和 CIKM-2019 的 DSMM(Burdick 等人,2019 年)。此外,金融科技是第29届国际人工智能联合会议的主题,即IJCAI-2020。所有事件都证明了金融科技发展的重要性。
随着自然语言处理(NLP)的最新发展,研究人员开始更加关注金融领域的非结构化数据。在本立场文件中,我们将讨论过去和最近利用NLP技术解决金融领域问题或改善金融服务的工作,并进一步规划未来的研究方向。与之前侧重于传统金融研究问题的概述(Fisher 等人,2016 年)和香草机器学习方法(Das 等人,2014 年)不同,我们专注于最近的 FinTech 应用和最先进的 NLP 方法的开发。本文特别关注2016年至2019年的作品。有关 2016 年之前的作品,请参阅以前的调查文件(Fisher 等人,2016 年)。
我们遵循金融行业的主要概念,包括了解您的客户、了解您的产品并满足客户需求,以组织本文。在每个部分中,我们通过信息来源或电子商务业务模式介绍问题。对于每个应用方案,我们回顾以前的工作,总结不同方法的主要思想,并为未来的研究方向提供视角。
本文的贡献如下三个方面。

  1. 我们提供最新的调查,重点关注近期金融科技趋势中的 NLP。
  2. 我们将 NLP 和金融界的研究和见解整合在一起。
  3. 本文提出了一个研究议程,为今后的工作提供了几个尚未探索的研究方向。

2 了解你的客户(KYC)

作为高度监管的行业,要求金融机构从身份识别和信用评估等不同方面评估其客户,包括法人和自然人。除了使用常规形式的结构化数据之外,还可以使用各种文本数据来深入了解客户。在本节中,我们将客户分为公司客户和个人客户。

2.1 公司客户

新闻文章和财务报表等正式文档主要用于快速更新企业客户的信息。例如,融资质押的消息可能会影响公司的偿债能力。为了从财务公告中提取此类财务事件,Zheng等人。 (2019)使用变压器编码器(V aswani等,2017)和BiLSTM-CRF事件识别器(Huang等,2015)构建端到端模型。
操作情况也可以作为评估公司客户的线索。 Zhai和Zhang(2019)使用8-K报告中的信息以及序列到序列模型来预测公司的重大事件。捕获客户之间的交互对于理解他们的操作也很有用。口服等。 (2019)提出了一种从银行订单自动构建关系图的算法。 Sakaji等。 (2019)使用新闻和银行联系历史,通过格兰杰因果关系分析来捕获企业客户之间的关系(Guo et al。,2008)。
法律问题可能会严重损害公司的发展。因此,预测企业客户可能面临的诉讼是金融机构的重要问题之一。毛等。 (2019)提出了一个具有法院公告信息的逐步模型来应对这一挑战,他们的模型在IEEE ISI Conference 2019的国际大数据分析竞赛中表现最好。反洗钱(AML)是重要的法律问题之一对于金融机构。 Chen等。 (2019f)设计了一个使检查过程更高效的系统。
来自在线论坛,博客和社交媒体平台的信息被视为非正式的文本数据。此类信息可用于捕获品牌声誉或预测企业的销售额。 Lin等。 (2019)使用模型不可知的元学习方法监控社交媒体情绪以预测公司的销售额(Finn等人,2017)。

2.2 个人客户

随着社交媒体平台的蓬勃发展,使用个人日常帖子来追踪自然人的生活日志成为可能(Yen等人,2019)。此类信息有助于金融机构(尤其是保险公司)快速更新其客户的状况。对保险公司面对个人客户而言,疾病的趋势的早期发现或评估(Losada等人,2018,2019)是一个重要的问题。例如,保险公司可以鼓励和支持其客户尽早获得治疗。疾病的早期发现大大增加了成功治疗的机会。 Burdisso等。 (2019b)使用SS3方法(Burdisso et al。,2019a)克服了早期检测难题。
此外,有了社交媒体帖子的记录,金融机构可以更快地掌握新客户的社会分层。 Basile等人(2019)将餐厅评论的风格信息与卷积神经网络架构(LeCun等人,1995)结合使用来预测作者的社会分层。

2.3 未来研究方向

构建个人知识图谱(Balog and Kenter,2019)是可能的方向之一。个人知识图可提供客户日常生活日志的额外功能,可用于许多情况,包括保险公司的风险评估,商业银行的默认可能性度量以及个性化的精准营销。它还可以有助于欺诈检测(Wang等,2019)。
在开放金融趋势下,可以访问不同金融机构中的客户交易记录。如何深入了解客户并提供更好的服务是一个开放的挑战。正如Zibriczky(2016)所述,个性化的股票推荐系统很少(Chen等,2019a),许多现有的股票推荐系统都没有考虑文本数据(Tsai等,2019)。未来,构建一个能够捕捉到个人行为的推荐系统是主要的研究方向之一。

3 了解你的产品(KYP)

传统上,KYP是金融机构销售人员的基本要求。他们必须了解计划销售给客户的金融工具的属性。在本节中,我们扩展了KYP的概念,以更新产品的功能,例如前景和风险。

3.1 前景

许多作品试图捕捉金融工具的价格走势。其中一些研究构建了进行预测的端到端模型。 Hu等。 (2018)设计了一个混合注意力网络(HAN),用于通过新闻预测股票趋势。杨等。 (2019)使用变压器(BERT)(Devlin等人,2019)的双向编码器表示对与恐惧指数相关的文本数据进行编码(Engelberg and Gao,2011),并进行了S&P 500指数运动预测的实验。 Chen等。 (2019d)利用BERT和HAN模型,并在外汇市场上进行实验。
一些研究从文本数据中提取有用的信息。 Keith和Stent(2019)从打来的电话中提取了务实和语义特征,以捕获分析师对目标公司的决策。 Chen等。 (2019e)使用提取的TOPIX金融事件词典中列出的细粒度事件进行股价预测。 Ma等。 (2019)采用Node2V ec(Grover和Leskovec,2016)构造新闻嵌入,并使用这些嵌入来预测股票走势。丁等。 (2019)通过考虑意图和情绪信息来预测标准普尔500指数的走势。
自2011年以来,来自人群的信息已经显示出对捕获价格走势有用(Bollen等,2011)。 Chen等。 (2018)提供了一种细粒度的分类法,用于从金融社交媒体用户的情感中挖掘观点,并表明该信息可与专业分析师媲美。为了通过财务推文预测股票价格,Xu和Cohen(2018)构建了基于V AE的端到端模型(Semeniuta等人,2017),而Liu等人则构建了端到端模型。 (2019)提出了一种基于变压器的(V aswani et al。,2017)胶囊网络架构(Sabour et al。,2017)。

3.2 风险

风险也是金融工具的重要属性。 Theil等。 (2018)提出了一个通过单词嵌入的字典来检测不确定性,并显示10-K报告中的不确定性与股票波动之间的正统计关系。 Theil等。 (2019)将赚钱电话的文字特征与财务特征相结合,以预测股票的波动性。 Qin和Yang(2019)使用电话会议中的口头和口头记录来预测具有上下文BiLSTM架构的公司的风险(Poria等人,2017)。杜等。 (2019)提出了一种从财务报告中评估公司风险的系统。

3.3 机遇

可解释性是AI领域的未决问题之一,在金融行业中更为重要。在向客户出售金融工具之前,销售人员需要解释产品或决策背后的理由。 Izumi和Sakaji(2019)提出了一个示范,以从新闻中搜索因果链。学会以记者(Murakami et al。,2017)或分析师的身份解释市场信息是可能的研究方向之一。
分析财务数据时,数字信息非常重要。提取数字信息并链接数字与其他命名实体之间的关系对于理解财务文本数据非常有用(Lamm et al。,2018)。学习数字意义可以用于检测夸大的信息(Chen et al。,2019b)。桥接文本数据中的数字和表格中的数字也是金融文本数据的重要问题(Ibrahim et al。,2019)。由于财务文件中有许多数字信息,因此应设计量身定制的方法来处理数字。

4 满足你的客户(SYC)

许多初创公司如雨后春笋般冒出来分享传统金融机构的市场。在金融科技行业,开发人员和研究人员试图使金融活动更高效,更自由。 “让客户满意”(SYC)成为金融机构的新焦点。在金融科技革命中,人们密切关注利用技术来满足这些客户的需求,而不是VIP级客户。在本节中,我们根据作品的业务模型对作品进行分类,例如,企业对客户(B2C)和客户对客户(C2C)。

4.1 企业对客户(B2C)

构建支持客户服务的对话系统是服务行业中的最新趋势。作为特殊服务行业,金融机构也不例外。有一些与金融对话系统发展有关的基础研究。赖等。 (2018)提出了基于BiLSTM的产品相关问题回答模型。 Altinok(2018)提出了一种基于本体的对话管理系统,Rivera等(2019)提供了具有对话行为标签的数据集以回答问题。
推荐系统已在金融的许多不同领域中采用,例如银行,保险等。 Zibriczky(2016)对这些系统进行了文献综述。在这里,我们重点介绍使用文本数据的最新推荐系统。 Sun等。 (2018)在社交媒体平台上采用情绪分析结果进行股票推荐。考虑到金融社交媒体平台上的帖子,Chen等人。 (2019a)通过联合学习模型预测个性化的下一个有兴趣的股票。

4.2 客户对客户(C2C)

越来越多的交易和信息交换是直接在人对人的业务模型中完成的。对于平台提供商,此业务模型可以视为客户对客户模型。对等(P2P)借贷是著名的功能之一,而风险评估则是极为重要的问题。 Li等。 (2019)通过特征提取模型使用配置文件文本数据预测中介风险。

4.3 挑战

对于关注 NLP 和财务的研究人员来说,缺乏公开提供的数据集是一个大问题。例如,如何构建一个多期限对话系统是NLP字段中的一项公开挑战。其中一个重要问题是,从前几个术语中自动对客户的意图进行分类。但是,据我们所知,金融领域没有公开针对此任务的数据集。
如今,业余爱好者可以轻松分享传统公司的市场。例如,YouTube用户影响了娱乐业。社交交易平台也为个人投资者提供了分享专业分析师市场的场所。如何评价社会交易平台用户的表现和意见仍然是一个重要问题(Ying和Duboue,2019年)。
医生的订单或图表不仅可以用于ICD代码预测任务(谢和星,2018年;白和武西蒂,2019年),但也可用于保险业。保险公司根据这些文本数据解决保险索赔。因此,自动了解临床文档也有助于提高结算过程的效率。

5 结论

自 2015 年以来,金融科技是一个新兴领域,已探索过许多尝试。本文概述了金融科技趋势中的应用和相关方法,并为NLP和金融研究人员规划了有前途的未来研究方向。我们希望,这一立场论文能够激励跨学科的研究人员关注这一课题,为未来的研究树立基石。

猜你喜欢

转载自blog.csdn.net/weixin_42691585/article/details/106075354
今日推荐