机器学习、数据科学与金融行业

系列十四：人工智能，大数据和投资管理 (9)

8. 观点分析（BLOOMBERG）

在这里插入图片描述
• 背景
    BLOOMBERG成立于1981年，主要通过期终端提供金融软件工具，例如证券交易平台、数据服务、新闻、金融企业分析。BLOOMBERG投入AI/ML已超过10年，从改善用户支持体验到其终端用户体验，主要时通过自然语言理解和问题回答还有信息抽取和分析应用。
    早期的产品之一是观点分析服务，从2009年开始就向客户提供服务。从那时起，该产品已扩充到其他语言，从权益到大宗商品到外汇市场，从新闻到社交媒体。目前这个产品还可以解决诸如命名实体识别、实体消歧、主题聚类、主题检测、市场影响分析等问题。今天这个产品只是BloomBerg的众多高级分析工具之一，被全球市场的众多机构所使用。
• 方法论
    行业中对于观点分析有多种方法。BloomBerg开始时采用的时边缘切割技术，最后使用的是监督学习技术并构建集成学习算法。
    文本分析的关键问题时选择目标变量，就是说需要精确格式化需要机器回答的问题。这个问题有很多观点，例如，寻找内部状态或者文章作者的观点。但是在金融领域，这种方案给这个本身已经很困难的问题带来了歧义和额外的复杂性。相仿，BloomBerg选择来预测读者的观点，也就是说一个新闻故事的消费者也是市场的参与者。所尝试回答的问题是如果是一个公司的多头投资者，他阅读了某个事件在没有其他信息的情况下，他会把该事件评价为一个正向、负向或者中性事件？这是观念上的改变，因此机器学习的目标变量有了很大的不同。
    模型的训练数据的收集时，标注者有适当的金融背景；也考虑了样本多元化，不同的长度、主题、市场和财务周期等。模型开发的关键衡量标准时标注者的内部达成统一，如果对于机器的答案，标注者都有不同的看法，那显然模型时病态的；相反，如果达成一直的比例很高，就说明该模型是有效的。
    通常，新闻的一直率可以达到80%~92%；而对于社交媒体例如Twitter，模型对每种语言的一致率相对较低。这个数字自然成为其他分类器准确性的一个直观边界。值得一提的是，简单方法诸如字典是不能解决这个问题的，其准确度难以到达要求。最终构建了比较复杂的模型，例如非线性SVM，模型融入了复杂的语言特征，而最近采用了递归神经网络(RNN)并采用数据驱动方法把这些模型集成到一起。最后形成了一个机器学习系统，每天处理超过两百万的文档，每个文档约0.1毫秒。每个事件和实体观点数据（例如某个文档同时提高了Google和微软，你可能会看到75%的概率对Google是正向观点，而对微软是50%负向）能够被集成到一个信心加权的时间序列，每个证券一个，可以用来构建投资组合、开发策略和风险分析。

• AI/Big Data技术
命名实体识别和消歧、主题分类、观点分析和聚类都是NLP领域的先进的机器学习应用。这些工具在行业中被广泛应用于理解非结构化数据，例如聊天内容、邮件、分析报告、季度报告和年报、合规说明，或其他的交易相关信息。

• 团队结构和开发过程
整个系统的开发已经历10年，前后有上百人参与。到当前时间点，BloomBerg的AI和数据科学组织有超过200个人，他们都拥有非常好的背景，例如软件工程、高性能分布式系统、数学、计算语言学、机器学习和自然语言处理。
这些产品的开发是客户驱动的行为，强调分布式计算环境和金融领域的自然语言理解。

• 关键点
    端对端的评估非常重要
    谨慎选择目标变量非常关键
    从简单做起，在每次迭代时进行错误分析
    模型可解释和人类智能也是不可或缺的

Magic Ktwc37

发布了80 篇原创文章 · 获赞 1 · 访问量 2049

私信关注