机器学习、数据科学与金融行业 系列十四:人工智能,大数据和投资管理 (9)

机器学习、数据科学与金融行业

系列十四:人工智能,大数据和投资管理 (9)

8. 观点分析 (BLOOMBERG)

在这里插入图片描述
背景
    BLOOMBERG成立于1981年,主要通过期终端提供金融软件工具,例如证券交易平台、数据服务、新闻、金融企业分析。BLOOMBERG投入AI/ML已超过10年,从改善用户支持体验到其终端用户体验,主要时通过自然语言理解和问题回答还有信息抽取和分析应用。
    早期的产品之一是观点分析服务,从2009年开始就向客户提供服务。从那时起,该产品已扩充到其他语言,从权益到大宗商品到外汇市场,从新闻到社交媒体。目前这个产品还可以解决诸如命名实体识别、实体消歧、主题聚类、主题检测、市场影响分析等问题。今天这个产品只是BloomBerg的众多高级分析工具之一,被全球市场的众多机构所使用。
方法论
    行业中对于观点分析有多种方法。BloomBerg开始时采用的时边缘切割技术,最后使用的是监督学习技术并构建集成学习算法。
    文本分析的关键问题时选择目标变量,就是说需要精确格式化需要机器回答的问题。这个问题有很多观点,例如,寻找内部状态或者文章作者的观点。但是在金融领域,这种方案给这个本身已经很困难的问题带来了歧义和额外的复杂性。相仿,BloomBerg选择来预测读者的观点,也就是说一个新闻故事的消费者也是市场的参与者。所尝试回答的问题是如果是一个公司的多头投资者,他阅读了某个事件在没有其他信息的情况下,他会把该事件评价为一个正向、负向或者中性事件?这是观念上的改变,因此机器学习的目标变量有了很大的不同。
    模型的训练数据的收集时,标注者有适当的金融背景;也考虑了样本多元化,不同的长度、主题、市场和财务周期等。模型开发的关键衡量标准时标注者的内部达成统一,如果对于机器的答案,标注者都有不同的看法,那显然模型时病态的;相反,如果达成一直的比例很高,就说明该模型是有效的。
    通常,新闻的一直率可以达到80%~92%;而对于社交媒体例如Twitter,模型对每种语言的一致率相对较低。这个数字自然成为其他分类器准确性的一个直观边界。值得一提的是,简单方法诸如字典是不能解决这个问题的,其准确度难以到达要求。最终构建了比较复杂的模型,例如非线性SVM,模型融入了复杂的语言特征,而最近采用了递归神经网络(RNN)并采用数据驱动方法把这些模型集成到一起。最后形成了一个机器学习系统,每天处理超过两百万的文档,每个文档约0.1毫秒。每个事件和实体观点数据(例如某个文档同时提高了Google和微软,你可能会看到75%的概率对Google是正向观点,而对微软是50%负向)能够被集成到一个信心加权的时间序列,每个证券一个,可以用来构建投资组合、开发策略和风险分析。

AI/Big Data技术
    命名实体识别和消歧、主题分类、观点分析和聚类都是NLP领域的先进的机器学习应用。这些工具在行业中被广泛应用于理解非结构化数据,例如聊天内容、邮件、分析报告、季度报告和年报、合规说明,或其他的交易相关信息。

团队结构和开发过程
    整个系统的开发已经历10年,前后有上百人参与。到当前时间点,BloomBerg的AI和数据科学组织有超过200个人,他们都拥有非常好的背景,例如软件工程、高性能分布式系统、数学、计算语言学、机器学习和自然语言处理。
这些产品的开发是客户驱动的行为,强调分布式计算环境和金融领域的自然语言理解。

关键点
    端对端的评估非常重要
    谨慎选择目标变量非常关键
    从简单做起,在每次迭代时进行错误分析
    模型可解释和人类智能也是不可或缺的

发布了80 篇原创文章 · 获赞 1 · 访问量 2049

猜你喜欢

转载自blog.csdn.net/weixin_43171270/article/details/103866291
今日推荐