大数据在金融中的应用

编者按：

近年来，中国以移动支付、大数据信贷等为代表的金融科技发展如火如荼，在世界范围内处于领先地位，这是中国金融业发展的一个亮点。然而我们也要看到，美国等金融业高度发达的国家金融科技发展也有其独特的优势，甚至在某些领域超过我们对金融科技的一般认知。我们所熟悉的移动支付等在美国可能并不如中国那么发达，但是在华尔街，大数据技术已经被充分的应用到金融市场活动中，国内很多人却对此知之甚少。

在这里我还是要推荐下我自己建的大数据学习交流qq裙： 957205962，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴

2018年7月14日,美国伊利诺伊大学香槟分校Gies商学院叶茂教授受邀在美国国家经济研究局（NBER）第41届夏季年会发表题为“金融大数据”的主旨演讲，成为第一位在这一世界著名讲坛发表主旨演讲的中国籍学者，这也表明叶教授被美国学界认可为当前金融科技领域的顶尖学者之一。NBER的官方网站曾在头版最醒目位置刊登叶茂教授的演讲新闻和视频录像长达两周。

经叶茂教授授权，我们将他在NBER的演讲翻译成中文并公开发表。通过他的演讲，中国的读者可以管窥美国的金融科技特别是大数据金融的发展现状，感受中美两国金融科技发展侧重点的差异。

演讲人简介：

叶茂教授于1999-2002年就读于中国人民大学财政金融学院金融专业，并获得经济学硕士学位，后留学加拿大和美国。他于2011年在康奈尔大学获得经济学博士学位，并加盟美国伊利诺伊大学香槟分校Gies商学院任教，2018年获得终身教职。2006年，他在康奈尔大学就读时曾当选为该校董事会的董事，成为美国八所常春藤名校有史以来首位来自中国的校董。

叶茂教授的研究领域为市场微观结构和金融大数据，在专业顶级期刊Journal of Finance、Journal of Financial Economics和Review of Financial Studies等发表了数篇有影响力的论文。他的研究被美国参议院证词誉为“开创性的科研”并深刻影响了美国的金融政策。他还将前沿的研究成果融入到日常教学中，并在2016年获得了全校唯一的“年度教育家”荣誉称号。

在这里我还是要推荐下我自己建的大数据学习交流qq裙： 957205962，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴

以下为演讲正文

今天我所演讲的主题是“金融大数据”。这个主题很有挑战性，因为其中包含的很多内容目前还没有清晰明确的定义。所以，首先我想从以下三个维度对大数据进行定义：

（1）大数据量。说到大数据，我们首先想到的就是它具有大的数据量，这可以说是大数据最基本的特征。

（2）高维度。数据量大并不能完全代表大数据的所有特征，从第二个层面对大数据进行定义，那就是高维度。大数据的高维度意味着，相对于样本规模而言，数据中有非常多的变量，有时变量的数量甚至会大于观测值的数量。

（3）复杂结构。从我还是学生开始到现在，我所处理的大部分数据都是面板数据（行列形式的数据）。而现在有很多数据是非结构化的，比如卫星传感图像、社交媒体记录、信用卡交易数据等等。今天NBER拍摄我本次演讲的录像，也是非结构化数据的一个例子，因此，拍摄视频的这一过程也是创造数据的一个过程（Creating data）。

（根据大数据的特征）我今天演讲的大纲划分如下：第一部分是大数据量；第二部分是高维度；第三部分是复杂结构；最后一个部分是大数据催生新的经济理论。我希望大家认识到大数据不仅仅只是实证现象的集合，它还可以促进新经济理论的产生。

一、大数据量

我们先从大数据量讲起。

第一个问题是为什么会存在有小数据集？原因主要有两个，有些数据集小是因为其样本总体规模小；但有些数据集小是因为我们对数据进行了筛选，在这个过程中缩小了数据规模。例如，有时我们选择减少数据包含的样本；有时我们从很多变量中只选择一部分变量；有时我们仅从宏观整体层面对微观经济活动进行描述；有时我们只观察某一个时间段内的经济活动（Snapshot）。这些过程都减少了数据的样本规模，目的是生成便于人们管理的数据。

这样做很自然地会产生一个问题：在我们产生小数据集的数据选择过程中是否产生了选择性偏差（Selection biases）？

我给大家举个由于数据选择导致选择性偏差的例子。图1是纽约证券交易所的证券交易报价数据（简称：TAQ数据，下同）。这是一个小数据集（相对另一个更大的数据集而言，虽然和其他金融数据相比它已经非常大了），它包含了所有证券买卖中上报至监管机构的交易及报价信息（其包含的是交易层面的数据），文件大小是每天25GB（注:1GB=1024MB）。

图1

为什么我说它是小数据集呢？因为订单层面的数据集（Order level）比它更大。如果你提交了交易订单，有时你会取消这些订单，而有时订单没有被执行，这些信息包含在订单层面的数据集，但不包含在交易层面的数据集中（因此指令层面比交易层面包含的数据更大更全）。图2是一个来自NASDAQ市场（纳斯达克股票交易所）的订单层面的数据，它就包含了人们什么时候下达订单，什么时候取消订单的信息。

图2

我有一篇已发表的论文所研究的问题是：在TAQ数据中是否存在选择性偏差？我将TAQ 数据（交易层面的数据）与它相对应的订单层面的数据集进行比较分析。在告诉大家我的发现之前，我首先想强调一下这是一项数据密集型的工作。我当时面临大数据量的难题，我们为此联系了XSEDE（美国国家科学基金会的高精尖科技探索计划），并使用XSEDE提供的超级计算机进行数据处理以解决这个难题。具体是如何实现的呢？由于我们所处理的大部分数据仍是面板数据，很自然地有两个维度可用于并行计算：第一个维度是日期（即将总的数据拆成以天为单位的数据，拆分后每一天的数据大小基本一致）。通过实现天与天之间的并行，我们将每次需要处理的数据量减小到约100GB以下。但这个数据量仍然很大（以至于不方便进行进一步分析）。因此，我们运用第二个维度（不同股票之间的并行）进行并行计算。股票之间的并行相对复杂一些，因为有些股票，比如苹果公司（Apple）的股票交易要比其他股票的交易更为活跃，其股票交易量大约相当于500个小股票的交易量之和。但让7000支股票之间都保证并行关系会消耗大量的计算机资源，而且是没有必要的。我们的解决办法是，将股票数据文件拆分成大小基本相同的小文件（Paralyze base on the sample size）进行并行计算。

（在对这些大数据进行处理分析后）我们发现，TAQ数据的确存在选择性偏差。而选择性偏差的根源是美国证券市场的原有的监管规则。在过去，如果一笔交易的交易量少于100股（零碎股）时，这笔交易无须报告（给监管机构）。原因是当时人们通常认为零碎股的交易总是由散户交易者进行的（例如我的邻居给他的孩子买了一股迪士尼的股票），而这些散户交易没有被监管的必要性。但是当我们比较TAQ数据（交易层面的数据）及其相对应的更大规模的数据（订单层面的数据，关键点在于订单层面的数据包含有所有的订单数据，包括零碎股的订单）时，我们发现所有的零碎股交易在TAQ数据中都缺失了。之前很多人认为TAQ数据包含所有的交易数据，至少在2013年以前这个说法是不正确的，当时的零碎股交易并未包含在TAQ数据中（2013年政策制定者看到我们的研究并进行了政策调整，将需要进行报告的交易量门槛从100股降低到1股）。

我们的研究发现这一数据的缺失会造成很大的问题。比如，在2011年的所有交易中，有25%的交易没有出现在TAQ数据中。而在TAQ数据中缺失的交易很多来自于高价股。比如谷歌公司超过半数的股票交易都没有被报告，其将近53%的股票交易都（在TAQ数据中）缺失了；而苹果公司也有近38%的股票交易（在TAQ数据中）缺失了。这些都是非常大的数据缺失。

而这些零碎股交易真的是由散户交易者进行的吗？（恐怕大部分不是）。请看图3是一组111次交易的股票交易数据。由于每笔交易量都小于100股，这些交易都没有被报告。但这些交易是在1毫秒内发生的，而散户交易者是无法实现在1毫秒内进行111次交易的。我们最终意识到小额零碎股的交易更可能来自于计算机，这些交易是计算机在利用监管规则进行的交易。那么，它们为什么要这么做呢？假设一个交易者要进行一笔大额交易，比如一百万股，通过计算机它可以把这笔大额的交易分散成很多笔小额交易（小于100股）来进行，这样一来每一笔交易都不会被报告。交易者就可以（隐藏交易从而）隐藏它所拥有的信息。这是一个非常令人吃惊的发现，因为这个发现证明零碎股（交易量小于100股）的交易包含有更多的信息，原因是知情交易者将订单分割进行交易。所以，是小于100股的交易无须报告的监管规则导致了这个（TAQ数据的）数据缺失，而人们的行为也因此发生了改变。如果交易者有计算机，它可以把交易分散成许多小交易，这样没有人可以在证券买卖记录中看到它的交易记录。以上的研究发现对监管政策产生影响。政策制定者看到了我们的研究后进行了政策调整，将需要进行报告的交易量从100股及其以上降低到1股及其以上。

图3

接下来的问题是，这个由于监管规则导致的TAQ数据缺失是否影响了之前研究的结论？甚至包括在计算机交易出现以前的研究？答案是是的。有的数据缺失可能很小，但当它与其他类型的数据缺失结合起来时，很可能会造成很大的问题。

下面我举个例子：由于人们很难找到直接描述散户交易活动的长时间序列，如果想得到一个长时间序列（描述散户交易活动），通常需要用到代理变量。之前人们使用最多的代理变量是由斯坦福大学的Charles Lee和他的合作者Balkrishna Radhakrishna设计的代理变量。其基本思路是：许多年前（主要指计算机出现以前）小额交易仍然大概率来自散户交易者，那么我们可以按照一笔交易的交易量设置区分散户交易的分割线，比如5000美元（将小于5000美元的交易定义为散户交易）。这是人们很多年以前所能想到的最好方法。

而我所进行的研究发现，把5000美元以下的交易定义为散户交易的这一数据分割和100股以下的交易不需汇报的TAQ数据缺失结合在一起会出现问题。假设我们分析一个每股价格高于50美元的股票，但在TAQ数据集里记录的每笔交易的最小规模是100股，（如果根据TAQ数据的记录）研究数据得到的结论会是散户不交易这些股票（因为这些股票在TAQ数据中出现的交易都会高于5000美元）。这就导致了直接基于价格的缺失问题，这是一个由之前提到的两个规则导致的新的问题，即所有价格高于50美元的股票都在这些研究中缺失了（人们认为散户不交易这些股票）。这个缺失甚至不取决于零碎股交易的交易量。

在这里我还是要推荐下我自己建的大数据学习交流qq裙： 957205962，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴

由此会产生多大的问题呢？图4是在分析零售交易时（基于5000美元的分割线）缺失的股票数量，缺失的股票大约占所有股票的10%，乍一看似乎问题不是太大。但是，由于大多数高价股都是市值非常大的股票，缺失的股票占总股票数量的比例会随着商业周期的波动而（同向）波动。（因此，实际上问题比我们想象的大得多）。比如，在互联网泡沫这段时期有很多高价股，假如我们按照交易额在5000美元以下（作为分割线）定义散户交易，我们会发现超过70%市值的股票会（在分析零售交易时）缺失。分析时会得到这样的结论：散户交易者在互联网泡沫时期不交易互联网股票。而这是由于数据缺失自然造成的（错误）结论。

图4

我希望用以上这个研究中的例子激发大家进行两个层面的思考。第一个是技术层面：超级计算机可以帮助我们克服数据规模大的难题。第二是从经济学的层面：有两个有意思的问题。一是关于现阶段的法规政策的问题。现行法规是为人类交易者而设计的，然而机器学习和大数据的到来已经将机器交易者带入了交易市场。所以，我们是否应该根据机器交易者的交易行为来更新和修改一些过去为人类交易者设计的交易规则？第二个是关于学术研究的问题。在其他的“小的”数据集中是否也存在选择性偏差呢？当我们收集更多更大规模的数据对某一问题进行分析，也许很多之前（用小的数据集进行分析的）文献得到的结论会改变。

二、高维度

接下来的主题是高维度，即数据里变量个数大于样本量的情况。

让我们从一个例子开始讲。我们都知道大数据和机器学习是两个在华尔街非常流行的词汇，很多著名的投资公司已经开始用机器学习技术来进行投资决策，它们的交易频率范围从几分钟到几个月不等。由此产生的问题是，以分钟为交易频率的交易者是否能捕获到有意义的经济信号呢？

当我研究以分钟为频率的交易数据时，就遇到了高维度的挑战。我以一个简单的例子开始阐述这个研究的内容。我们知道，其他股票的前期收益率可以用来预测某只股票的下一期收益率。在我所进行的研究中，股票样本集是纽约证券交易所上市的约2000个股票，每一分钟能得到一个观察值。但如果我们用最小二乘法（OLS）进行回归分析，那么我们有2000个解释变量（约六个交易日的观测数据），事实上OLS回归分析由于有太多的解释变量以至于不能作出有效预测。所以从技术层面讲我们不能进行OLS回归分析，尤其是当预测信号是无法预料且短暂的时候。

我们可以用机器学习技术来解决这个问题。我今天不重点讲机器学习技术的细节，而是主要总结机器学习技术和传统统计方法的不同。传统统计方法的第一步是通过经济学推理来选择解释变量X；第二步用统计方法估计X是否是一个好的解释变量，比如可以用排序或者线性回归的方法来进行估计X。而机器学习技术与传统统计方法不同，它是将统计方法同时运用在解释变量X的选择和估计过程中，所以通过使用机器学习技术我们可以使用大量的解释变量X，并且还可以运用更为灵活的函数形式。

我简要总结下机器学习技术的两个基本特征：第一，它更加重视样本外预测效果，这也叫做交叉验证，其目的在于最大化样本外预测能力，所以它较少关注因果推理。第二，它运用正则化的方法，即对复杂模型施加惩罚项以避免过度拟合的问题。

此外，机器学习技术可以从两个层面进行分类：第一个是函数形式层面。根据函数形式区分我们可以将机器学习技术分类为线性模型、回归树模型或者神经网络模型。二是正则化的类型，（根据正则化形式的不同我们可以将机器学习技术分类为LASSO，岭回归等模型）。

接下来我将用我和同事Alex Chinco和Adam Clark-Joseph的一篇论文来做一个对机器学习模型的解释。在这篇论文里我们使用了机器学习模型LASSO（套索模型）。首先，LASSO的函数形式是线性的函数形式，这有点像最小二乘法回归模型，都是要最小化一个式子。但是LASSO的不同在于它有一个惩罚项，这个惩罚项作用在β系数（变量的回归系数）上。重点问题是LASSO是怎么进行变量的选择呢？在回归分析之前我们对变量进行标准化；如果某个变量的回归系数β很小，LASSO将把这个系数设为0，换句话说，如果某个β太小，LASSO会忽略掉（该β）所对应的那个解释变量。接下来的问题是我们如何实现交叉验证呢？我们使用将样本拆分为10份的交叉验证（以计算最优的惩罚参数λ）。在LASSO回归形式中λ是惩罚参数，如果令它为零，LASSO就退化为OLS。该如何选择λ呢？第一步，我们将样本分成10份，其中9份作为为训练样本，剩下的1份作为测试样本。第二步，使用训练样本计算LASSO估计量。第三步，使用测试样本计算均方误差。均方误差的结果会受到k（在这里为k为10）和λ大小的影响。第四步，重复以上两步十次，得到一个平均数。第五步，根据得到的平均数选取出最好表现的最优的λ（不同的λ得到的均方误差平均数不同，最优λ为使计算得到平均均方误差最小的λ）。

我们的发现是，用LASSO方法得到的交易策略结果非常好。我们的样本期是2005-2012年。分别使用S&P500和LASSO策略计算夏普比率，S&P500得到的夏普比率为0.123，LASSO得到的夏普比率接近1.8（夏普比率越高代表策略越优）。另一方面LASSO策略的α值（超额收益率）高达2.8%每年。

作为经济学家，我们还需要找到这个结果的经济学解释。我们发现了4个结果（用以解释其经济意义）。第一，LASSO的预测变量是出乎意料的。很多人们熟知的以周或月为交易频率的预测变量在短期交易频率的预测效果并不好。为什么呢？这与λ（惩罚参数）有关。我们发现LASSO通常会忽略掉收益率小于2.5%每月的预测变量，而许多以周或月为交易频率效果很好的预测变量不能在短期交易频率产生这样高的收益。那下一个问题是LASSO产生的收益率会不会惊人的高呢？答案是否定的。用LASSO模型进行短期预测有一个权衡关系，这也是我们发现的第二个结果：LASSO所选择的以分钟为交易频率的预测变量中有95%会在14.2分钟内失去预测能力。我们发现的LASSO预测因子的第三个特征是稀少性，LASSO平均只会用12.7个变量作为预测因子。最后一个也是最重要并且非常令人吃惊的结果是：LASSO更有可能在有关某只股票的新闻发布之前选择这只股票作为预测变量，即便我们使用了最好最快的获取新闻的数据源。那么随之而来的问题是，这是由于内部交易吗？并不是的。我们最终发现的原因是：大数据可以在新闻发布前发现相关的信息。缘由是这样的，当我们谈到新闻时，虽然有时机器也可以很快的写出新闻，但是仍然需要一个记者来整理这些故事，这都是需要时间的。

这里我想举一个例子，这是我和今天的参会者Torben之间(Torben Andersen)发生的一个故事。我们学院请你（Torben）参加一个学术会议，但是你迟到了，你来到房间里并向大家道歉，说是因为来时的火车撞到了一辆卡车。然后我们在谷歌上搜索这条新闻，但并未发现任何关于此事的新闻。再晚些之后你给我们发了一封包含（关于这场事故的）新闻链接的邮件。（因为新闻的撰稿和发布需要时间）。因此本质上讲，这是一个未列入日常新闻发布日程的新闻（Unscheduled news）。Torben（当场）看到了这个消息，然而当时新闻记者应该还不知道。所以新闻的发布存在延迟。最终我们意识到，如果新的信息没有列入日常新闻发布日程, 大数据可能会比新闻更快的反映新的信息。（为了证实这一推断）我们做了另一个实证检验，其中的一个主要结果是：对于已经列入日常新闻发布日程的新闻，LASSO会在同一分钟内捕获它们。而对于未列入日常新闻发布日程的新闻，你会发现LASSO会在新闻发布之前把（与新闻有关的）这只股票作为一个预测因子，然后你才会看到这个新闻。我对这个发现的理解是，当某件事情发生时，有些人在现场，他们可以（马上对该事件作出反应而）进行交易。机器学习技术能够发现这种交易并据此获得信息进行交易。过一段时间后，与此事相关的新闻才出现。这就是（关于LASSO估计结果的）经济学上的解释。

下面我稍作拓展。在交易这个研究领域，有三个相关的问题值得讨论。第一个问题是我们是否可以将LASSO这个机器学习技术应用在其他交易频率范围的研究？我的研究是对分钟的交易频率进行分析，但是用LASSO也可以对其他交易频率范围内进行研究。目前已经有三篇很好的论文将LASSO应用在月度交易频率上进行分析了，但是在分钟和月度交易频率之间还有很大的空间可以研究，而哪一种经济信号可以在这些交易频率上被LASSO捕捉到是很值得研究的问题。第二个问题是我们是否可以应用其它正则化形式的机器学习技术？现在已经有文章使用岭回归分析方法。什么是岭回归呢？（岭回归的函数形式）也是线性的，它和LASSO模型函数形式的的区别是正则化时惩罚项形式的不同。岭回归的惩罚项用的是回归系数β的平方，而LASSO的惩罚项用的是β的绝对值。第三个问题是我们是否可以应用其他函数形式的机器学习技术？有文章已经发现其他函数形式的机器学习技术（比如回归树、神经网络等）可以捕获重要的变量间非线性及相互作用的关系。

以下是一个关于泰坦尼克号的研究的例子。谷歌的首席经济学家Varian有一篇论文，他尝试预测泰坦尼克号中人们生存的概率。运行逻辑回归(Logistic regression)分析得到的结论是生存几率与年龄无关，Varian尝试运用回归树模型进行分析（回归树是高度非线性的，它将变量的分布分了不同的节点），得到的主要结论是：年龄小于8.5岁的乘客有相对非常高的生存率，而在其他年龄段，生存率与年龄之间的关系就变得很复杂。Varian分析的直观解释就是儿童优先，而这一发现和现实是相吻合的。虽然我们知道这一现实，但只有当我们有数据，并挖掘分析出这一关系时，我们才能最终确认这个规律：船上的乘客将生的机会让给了儿童。

下面我对大数据的高维数据部分进行一下总结，主要有以下两个方面：一是技术层面：我们能够利用机器学习技术来处理高维数据，但我认为它只是一个（帮助我们进行经济学分析的）工具。二是经济学研究的层面：我们使用机器学习技术解决高维度的难题，我们更感兴趣的应该是去寻找（从数据中发现规律的）经济学解释，这是（与解决大数据问题相比）更难的挑战。

三、复杂结构

接下来我们谈大数据的复杂结构。有两名来自摩根大通公司的工作人员列了一个关于复杂结构数据的清单，其中对复杂结构数据进行了很好的分类。他们将复杂结构数据（按照数据源的不同）分为了三种类型：第一类是个人生成的数据，比如社交媒体、产品使用评论、网页搜索记录等；第二类是商业贸易和政府文件产生的数据，比如超市扫描仪记录、美国证券交易委员会文件等；第三类是传感器生成的数据，比如卫星传感器、气象或污染传感器等。这些数据源生成的大量数据可以帮助我们研究很多有意思的问题。

让我从第一类复杂结构数据，个人生成的数据说起。图5是一部分来自推特 (Twitter)的数据，我们可以看到这是非结构化的数据。当我们处理这样的数据时，会面临两方面的困难。首先，如何从非结构化数据中提取信息？这是一个技术上的问题。有两种解决方法：第一种方法其实非常简单，那就是找一个数据提供商。在摩根大通公司汇总的清单里，有77页都是关于数据提供商的列表。这些数据提供商能够提供各种各样的数据，而它们的主要工作就是将非结构化的数据转化为（我们熟悉的容易操作的）面板数据。

图5

图6是JP摩根公司清单的一张词云图，其中提及最多的词汇是“卫星”，数据提供商会将类似卫星数据这样的非结构化数据转化为结构化数据（以方便研究者进行下一步的数据处理）。第二种解决方法是寻求跨学科的合作。我有一篇论文正是通过这种跨学科的合作完成的。

图6

那么，在分析复杂结构数据的过程中我们能够做出哪些贡献呢？更具体的说，当分析大量的复杂结构数据时，我们能否为创造独特的描述经济活动的变量？下面以我和圣母大学的Da、Nitesh和Xu合作的论文作为例子进行说明。信息扩散在经济学领域中是一个非常重要的概念，有很多理论和实证分析表明人们的口头交流对经济活动具有非常重要的作用。但对此进行研究时面临的问题是口头的交流无法被记录下来（缺少数据以至于无法直接进行分析）。于是很多研究者寻找口头交流的代理变量，比如通过两个人是否是邻居，是否关系比较亲近，是否在同一学校上学来估计两个人之间的口头交流情况。基本的思路就是，如果两个人上同样的学校，那么他们就有比较大的概率彼此认识并进行口头交流。这是一个很聪明的想法，但通过这些代理变量我们很难直接观测到信息的扩散。最近有两篇基于刑事案件调查的文章通过特殊的方式使得我们能直接观测到信息的扩散，那就是通过法庭的记录。因为在对案件的调查取证中会调查谁对谁说了什么。虽然法庭记录的数据是小样本数据，但仍为我们提供解决这个问题提供了思路。

那么，（对于信息扩散的研究）我们所寻找到的大数据解决方案是什么呢？让我们想一下Tweets（发布信息）和Retweets（转发信息）的过程，通过这一过程我们是可以直接观察到信息扩散的。我们看下面的一个例子，比如：我的合作者Zhi有10000个粉丝，当他发布“Twitter数据是非结构化数据”到Twitter时，由于Nitesh是Zhi的一个粉丝，相当于Zhi把这句话告诉了Nitesh。然后Nitesh又把这个消息转发给Jian。因此信息的发布和转发就是信息扩散的一个过程。那么，我们如何去捕捉信息扩散的过程呢？在图5的Twitter数据中。我们首先需要知道这个Twitter信息的ID，信息发布的时间，发布者有多少个粉丝，新的转发者有多少粉丝。比如，当我们看某一次转发的数据时，我们能知道这个Twitter信息是被某个人传播给了另外一个人，然后另外这个人又转给了其他人。因此，我们既要关注某一特定的Twitter用户，并且也要关注有多少人关注这个用户。这样做的目的是什么呢？我们希望构建一个实证模型去研究信息的扩散。简而言之就是经过一段时间之后，有多少人知道了某一信息。尽管Tweet并不是完美的代理变量，但是至少根据粉丝的人数，我们可以构建一个信息扩散速度的模型。比如说，图7中这三条线分别代表5%，50%，95%分位数所测量的会接触到这个信息的人数。

图7

在这里我还是要推荐下我自己建的大数据学习交流qq裙： 957205962，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴

（在这个研究中）我们发现了什么呢？虽然人们已经知道社交媒体有很多功能了，但是我们发现了其中有一个特别的功能，那就是社交媒体有时会散布“旧新闻”。这是什么意思呢？打个比方，有一天你从一个朋友的Twitter上得到一个消息，某公司（有一个利好消息，因此）有投资价值，但当你看到这个（看似最新的）消息时，实际上它已经是一个旧闻了。事实上，在一个事件发生十分钟之后，有关这个事件的消息就早已过时了。但是很多的散户交易者仍然会对（过时的社交媒体）消息进行回应，觉得这是个可以被利用的利好消息，并为此感到兴奋（而买入这个公司的股票），然后（这个公司的股票）价格会出现一个短期的上涨压力，形成与基本价值的偏离，但下一天上涨压力过去之后股价又恢复到其基本价值。

这意味着聪明的投资者应该与过时的媒体新闻反向行动，比如当它们看到一个利好消息时，先卖出然后再迅速买回。哥伦比亚大学的金融学教授Paul Tetlock有一篇论文讲道，过时的新闻在传统新闻媒体中的传播，股价发生偏离后价格恢复发生的过程非常缓慢（通常需要几天或者几周）。在我的论文中的研究时期（2013-2014年）价格恢复的过程快很多（一两天之内）。

所以这里有一个尚未解答的问题：这些聪明的投资者是不是机器交易者（Machines）呢？因为我们知道有很多机器交易者是由人们编写程序以告诉它们根据社交媒体的信息进行交易的。最初我们认为它们是随着（社交媒体信息所表达出的）情绪进行正向的投资，有利好消息时就买，利空消息时就卖。后来我们意识到机器也有可能进行与人类情绪进行反向的投资。所以我们就又有了两个更宏观的问题：一是机器是否反向地与人们的行为偏差进行交易呢？如果答案是肯定的，那么它们是有意这么做的吗？还是说它们只是在遵循着（一些代码所指定的）决策规则，其实并没有意识它们在反向地与人们的行为偏差进行交易？第二个问题是机器交易的发展是否让市场变得更加有效了？这会是非常有趣的经济学问题。

我总结一下关于大数据的复杂结构部分。第一是技术层面：面临大数据复杂结构难题时，我强烈推荐大家去找一个数据供应商，或者和其他领域的专家进行合作。第二是经济学研究层面：非结构化数据一方面可以为经济活动提供独特的描述变量，另一方面还能够帮助金融经济学家去检验经济学理论。

四、大数据催生新的经济理论

现在我们谈大数据催生新的经济理论。

我们从一个实证研究项目讲起。大家可能知道高频交易者，它们的交易速度非常快，交易频率甚至可以达到百万分之一秒乃至十亿分之一秒。那么一个自然而然的问题是，是什么导致了交易者在交易速度上的竞争？对于这一问题我有一个简单的解释。

我们学习的一个经济学模型，瓦尔拉斯模型中有一个隐含的但是非常重要的假设，那就是价格是连续的。我仍然记得我的博士资格考试中有一个试题让我找出价格水平，最后解出的价格为二的平方根。但这个价格在现实中存在吗？答案是不存在。因此价格的非连续性是交易速度竞争的原因之一。第二个原因就是监管规则。如果你想在美国股市交易买卖股票，首先需要进行报价。而报价的最小变动单位是1分钱，这是由SEC（美国证监会） 612号规则所规定的。那么交易是如何发生的？或许你会觉得交易中会涉及到做市商，事实上他们早已在美国证券市场市场上消失了。现在的美国股票交易市场被称作限价交易指令薄，股票交易流动性的供给是交易者自愿的（不强制交易者提供流动性）。举个例子，假设Toni（Toni Whited本次会议的另一名组织者）想用100美元每股的价格购买100股股票，Toni提交了100美元每股的限价交易买单，因此她是流动性的供给方。Toni需要有其他人接受她的限价交易委托单才可以完成交易，如果此时我进入市场发出市价交易订单接受了Toni的限价交易订单，那么这笔交易就在100美元这个价格成交了。前者（指Toni）发出限价交易订单，是流动性供给方；后者（我）发出市价交易订单，是流动性需求方。但假设如果我也和Toni一样发出限价交易买单提供流动性，这时市场上会同时存在两个流动性供给方，此时就必须有规则决定交易的先后顺序。现在美国的证券交易所监管通常实行两个规则：首先是价格优先规则，即谁出价更优谁先交易。如果Toni卖价更低，那么Toni先交易。但如果我们两个人有相同的出价时，就需要第二个规则：时间优先规则，即谁先到谁先交易。如果Toni先提交订单，那仍然是她先进行交易。

最终我意识到，是什么导致了交易者的“速度竞赛”？答案是在交易价格非连续的情况下, 交易者报价在同一价格时, 速度决定了交易的先后顺序。

（根据以上的分析）我提出一个假设：在现行的统一以一分钱为最小报价单位的股票交易市场上，高频交易者会为低价格的股票提供更多的流动性，因为1分钱的报价最小变动单位（对于低价格的股票）影响更大更有约束力。但是在实证研究里，人们会提的第一个问题就是：如何识别因果关系（Identification）！人们可能会说低价格股票与其他股票有其他方面的不同。

那么我们是如何识别因果关系的呢？我们通过交易型开放式指数基金（ETF）的一些特点来进行识别。基本的思路是：我们寻找追踪同一个指数的ETF基金（双胞胎基金），有时这样的双胞胎基金中的一组发生基金拆分而导致价格下降（因此可以作为处理组），另一组则没有发生基金拆分价格不变（因此可以作为控制组）。那么在这一研究过程中为什么会面临大数据问题呢？因为ETF基金拆分的情况非常罕见，分析四年的数据里只有64组分拆或合并基金的情况。需要分析的数据总共大约有十万亿字节。每一天的数据都是非常巨大的，而我们需要从四年的数据中进行寻找，所以这是一个大数据项目。

那么，我们的研究发现了什么呢？以下是我们的发现。在非高频交易者比高频交易者具有价格优势的情况下，非高频交易者报价能够（对ETF基金）给出一个更优的价格。（举个例子，非高频交易者卖价为$100.03，高频交易者卖价为$100.04）。基金分拆后，价格减少为原来的一半。保持其他条件不变，非高频交易者应将报价调整为$50.015，而高频交易者应将报价调整为$50.02。但这时1分钱的最小报价变化单位的监管规则发挥了作用，非高频交易者不能报价在$50.015，只能报和高频交易者一致的价格（$50.02），但非高频交易者不具有时间优先性。（高频交易者具有在相同报价上优先交易的优势），这是高频交易兴起的原因之一。

在这个例子从而引申出了更多的研究问题，谁是这些非高频交易者呢？他们是自然人吗？我认为很可能不是。为什么非高频交易者的报价比高频交易者的报价更好？为什么高频交易者不报一个更好的价格呢？

这些问题就需要用理论来解决。（为了回答上面那些问题）我们提出了一个模型。这个模型很复杂，我将尽量将其简化展示给大家。

很多前期的相关研究认为市场上只有两种交易者（世界只有黑和白）：一类是计算机交易者，一类是人类交易者。但我最终认识到应该还存在第三种类别的交易者：半人半计算机交易者。我们将这种交易者称为BATs (Buy-side Algorithmic Traders，买方算法交易者)。那哪些交易者是“半人半计算机交易者”呢？我们知道现在很多资产管理公司做投资决策虽然也用到机器学习技术，但主要的投资仍是由人来做决定的（例如决定买100万股Google的股票）。但现在股票交易市场的结构非常复杂，这些公司使用机器算法去执行这些投资决策，来决定在怎样去买卖这个股票，其目的是最小化交易成本。因此买方算法交易者（BATs）的交易速度要比人类交易者快，但又比高频交易者慢。为什么它会比高频交易者慢呢？因为BATs进行交易时不需要像高频交易者那样实时的监控市场以获取任何可以获利的机会。

让我们从一个由Budish, Cramton和Shim在2015年提出的基准模型讲起。在这个模型中时间和价格都是连续的。其中的交易者分为两种类型：高频交易者和非高频交易者。高频交易者实时监控市场以寻找任何可能获利的机会，他们有时是流动性供给方，有时是流动性需求方。而非高频交易者以刚性的需求购买或卖出股票，他们的交易强度是，并且仅作为流动性需求方。假设有一个证券，其内在价值为，以复合泊松过程变化。是一个公开的信息，它以的跳跃强度发生跳跃，在相同的可能性下，它可能向上跳跃，也可能向下跳跃，跳跃幅度大小是d。

我对他们的模型进行一下总结。假设高频交易者在的价格尝试卖出股票，这时非高频交易者进入市场（接受这个要价）买入股票。这对高频交易者来说是一个好消息，因为高频交易者可以获取s/2的利润。那么高频交易者面临的成本是什么呢？由于股票价值有上升的可能，它所面临成本就是被其他高频交易者“狙击”其订单的风险。市场上还存在着其他的高频交易者。当一个高频交易者在要价卖出时，如果股票的价值忽然跳跃到，其他的高频交易者将会变成“狙击手”。他们会迅速观察到在处还有一个过时的报价（没有来得及撤单的报价）。这个过时报价的高频交易者可能逃跑（及时撤单），但在一定的概率下可能被狙击（没有来得及撤单而被其他高频交易者买走）。（如果被狙击了）那么提供流动性的这个高频交易者将受到损失，狙击的高频交易者获得利润。因此我们总结一下这个基准模型的主要内容：即使股票价值是公开信息，但由于狙击风险的存在，出价和要价之间的差价也不会为零。

我的研究在上面模型的基础上引入了另一个交易者（半人半计算机交易者，BATs）。回到我们最初的策略，在基准模型中，半人半机器交易者（作为非高频交易者）仅作为流动性的需求方，他们将支付。一个聪明的交易者会这样做吗？绝对不会。因为如果价格是连续的话，它可以用很简单的策略打败这个最初的策略。假设我是这个半人半机器交易者，我可以在价格（无穷小的正数）上报一个限价交易买入订单。这时所有的高频交易者都会看到，这里有一个获利的机会，收益是ε。此时因为高频交易者会寻找任何可能获利的机会，他们会立刻在百万分之一秒甚至十亿分支一秒内产生流动性需求（与半人半机器交易者进行交易）。对于半人半机器交易者来讲，交易成本是，远小于。

以上分析的关键点是什么呢？这是一个机器之间相互作用的模型，研究的是是快速的机器（半人半计算机交易者）与更快速的机器（高频交易者）之间的相互作用，因此它们的策略非常有趣。在这里出现的问题是：为什么半人半机器交易者总是提供流动性呢？关键就在于机会成本。因为半人半机器交易者必须要进行买卖，它们在提供流动性方面有着极低的机会成本。下面我们考虑高频交易者的策略，高频交易者面临两个价格的选择，一个是自己提供流动性的价格，另一个是接受别人提供流动性的价格，有什么区别呢？当高频交易者提供流动性在一个（较高的）价格时，要承受被（别的高频交易者）狙击的风险；当接受流动性在一个较低的（来自BATs的）价格时，能够直接达成交易且没有被狙击的风险。

在这一过程中需要强调的是：机器与机器的互动模糊了很多传统的定义。例如，在之前的我提到的（半人半机器交易者与高频交易者进行的交易的）例子中，根据传统的在限价指令交易文献中的定义，半人半机器交易者是先出现在市场的，（在传统定义中）它是流动性的提供方，但是半人半机器交易者（发出的订单）引发高频交易者立即的回应，在这两种机器的相互过程中，到底谁提供流动性成为了开放性的问题。

我，Sida和Xing最初写这篇文章的目的是为了回答为什么非高频交易者能够给出比高频交易者更优的报价。我们提到了原因是机会成本。但最终我们意识到这个新的模型还产生了很多的经济学预测和政策建议，尤其是当我们引入离散价格的时候。新的模型的主要结论是（机器与机器之间的互动）得到了四个均衡结果，（这些结果）在预测谁提供流动性，以及它们何时提供流动性的问题上非常有效。我们分析出在哪些不同情况下是高频交易者或者半人半机器交易者提供流动性。

我想强调的是，我认为对机器和机器相互作用为研究经济学理论提供了新的机遇。由于机器的行为都是经过编码产生的，机器必然遵从一些决策规则。如果我们能发现机器行为背后的经济学机理，就可以进行很好的预测，因为机器不会受到情绪等未被编码的因素的影响。

这些发现也产生了政策上的启示。例如美国证监会最近进行了一个试验，它随机地选取了1200支股票，将它们的最小报价变动单位从1分钱提高到5分钱。我们的这个模型的政策含义和模型产生的排队均衡结果相关，我们预测美国证监会的这个试验会增加高频交易者的数量。

下面我想谈一些有关金融生态系统的内容。当我是一名博士生的时候，我使用过13F数据（一个关于机构交易者交易的数据）。在13F数据中谁是短期交易者？有论文认为交易频率小于4个月的交易者是短期交易者，原因是13F数据是季度数据，而我们无法获得季度以内的数据。最近有关高频交易的文献的研究对象是这个金融生态系统的另一端：交易频率在百万分之一秒到十亿分之一秒的交易者。那么问题是有交易频率居于这两者中间的交易者吗？我很肯定是有的。但对于这些交易者的研究目前相对缺乏。我已经举出了这类交易者的两个例子：一是半人半机器交易者，它们以毫秒或秒为频率进行交易；另一类是使用机器学习技术的交易员，它们的交易频率可能更慢，从几分钟到几个月不等。但（对这个问题的研究）存在一个难题：那就是在美国的交易数据中我们无法直接观察到交易者的身份信息（因此很难知道交易者究竟是什么角色，交易是由谁进行的）。

我和我的同事Alex Chinco合作的一篇论文在尝试使用公开的数据来解决这一问题。我们知道，股票成交量的数据是公开的可以获得的。我们试图通过小波估计方法（Wavelet estimator）处理这些成交量数据（分析交易频率）。首先，我们将每个股票的交易量数据以分钟为单位进行整合，这样每分钟我们得到一个观测值。我们可以通过观察每分钟的数据来计算交易量的变化；然后运用小波估计将每个股票的交易量变化分解为不同的频谱。

例如，图8是一个周期为8的例子，在这个例子里，采用去均值的交易量作为纵坐标。我们可以看到，去均值后第二个时段交易量为100，第六时段为-100，其他时间段为0。我们可以以低频（Low frequency）、中频（Median frequency）和高频（High frequency）来看这八个时段。若以低频来看这八个时段，我们将八个时段分为两部分（1-4分钟和5-8分钟），我们只比较这前半部分与后半部分的交易量变化情况；若以中频来看，我们将1-2分钟作为一个部分去与3-4分钟的部分进行比较；若以高频来看，我们则观察每分钟的变化情况。我今天不去讨论小波分析的细节。

图8

图9是小波估计得到的一组分析结果：在第一组的例子中，所有的交易量变化发生在前半部分和后半部分之间（在1-4分钟时为100，5-8分钟时为-100），我们称交易的全部变化来自于低频变化；在另一个组例子中，交易量变化全部在很短的频率内发生（1、3、5、7分钟为100，2、4、6、8分钟为-100），我们称交易的全部变化来自于高频变化。

图9

我总结出大数据的研究策略如下：首先对大数据进行分析，然后构建新的理论，新的理论帮助我们对未被挖掘和研究的领域进行分析，再进一步产生新的实证预测、政策启示，甚至激发我们发现新的实证研究工具。

在这里我还是要推荐下我自己建的大数据学习交流qq裙： 957205962，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴

五、总结

总而言之，大数据在给我们带来挑战的同时，同时也提供了开发新技术和解决问题前所未有的机遇。

对技术层面的总结：超级计算机可以帮助我们克服大数据量带来的挑战；机器学习技术可以解决高维度的问题；在解决大数据复杂结构的问题上，有时我们可以通过数据供应商获得（从复杂结构转化为行列结构的）独特的数据，有时可以尝试与其他学科专家合作（比如当数据供应者不能提供我们需要的信息时）。

而（相对解决技术难题）更重要的是，大数据为我们发现和解决新问题敞开一扇新的大门。使用超级计算机对大数据进行分析后，我们可以发现新的实证规律；我们也可能改变前人基于小数据样本得出的结论；大数据还激发我们为新的数据寻找经济学解释；大数据创造出的独特变量既可以用于检验已有的理论，也可以帮助我们创造新的理论。

最后，我希望分享给大家一些自己的思考。我们知道，行为金融学是建立在心理学基础上的学科，其很多理论来源于心理学。那么，基于现阶段大约85%的交易量来源于机器这一现实，大数据和机器学习很可能将成为下一个时代金融学理论的基础，我把它称之为算法行为金融学。谢谢！

大数据在金融中的应用

猜你喜欢