机器学习在量化投资上的一些鄙见

首先,提供一个从量化投资决策过程的角度。我想在任何一个负责任的机构,任何类型的策略,都需要向投资人回答“我们挣什么钱”这个最重要的问题。

在中低频策略领域,量化投资仅仅是认识市场的一种手段或哲学之一,绝不代表仅仅只是Data Manipulation。这意味着什么呢?这意味着纵然量化投研人员需要花大量的时间在学习新的技术与手段,但是认识市场、了解市场,发现市场的无效,也是量化投研必要的日常主题之一。假如我能够发现一个特别明显、持续、强劲的市场无效点且加以量化,在可以的前提下,线性模型无疑是最好的。

线性模型最大的优势就是“鲁棒性”好,对于金融数据这种高噪声的数据模式是最为稳健的。而且,往往线性模型的经济学解释和数学解释都非常直观。举个比较极端的例子,假如你有一系列信号,然后用SVM来预测股票涨跌。但是一旦经过一个月的实盘,你发现SVM分类持续出错,在实盘环境下,你想迅速找出问题所在并应对调整正确是非常困难的。这时候线性模型的优势就体现出来了,你可以很方便的通过归因分析发现哪些因子可能被under estimated, 哪些被over estimated。简而言之,“很多时候”,机器学习是Black Box。而非监督式的学习就更是耍流氓了。

对于实际投资而言,可解释性、鲁棒性往往与过拟合是一个硬币的正方面。比如WorldQuant在之前的论文中,提出:输入固定的“操作符”、基础信号,在一定的复杂度内可以通过它们来随机生成信号。但是,即使通过这种方法找出一些In sample表现非常优异的信号,你敢将其运用到实盘吗?这恐怕要打一个巨大的问号吧?最终,可能还是需要通过这些信号来探寻其背后的经济学意义,才能简化用于实战。

但是,机器学习在量化领域还是有着很深的介入的,它解决着线性模型天生的缺陷或弊端,在国内并非很少人应用。除去凸优化、降维(提取市场特征)等领域的应用,目前两个最重要的弊端就是“非动态性”和“非线性”。比如上面回答提到的adaboosting。很多时候,金融关系之间并不是线性的,也不是静态的。这个时候,统计学习的优势就会体现出来,它们能够迅速地适应市场,或者用一种更“准确的”方式来描述市场。而统计学习关注方法本身的统计学特征,应该说更适用于投资。

参见德银关于adaboosting在Alpha上的报告。

举例来说,IC(Information Coefficient,参见QEPM)是指信号与未来收益率之间的截面相关性,是一点典型的线性关系。它被经常用来描述信号的优劣。如果IC > 0,则意味着截面意义上,信号与下一期的收益率是正相关的。很多时候,它被用来分配在信号之间的权重。但是,(一)、IC在不同的市场状况下可能表现非常不同,所以我们可以用决策树/HMM等等方式来对此建模;(二)、IC可能不是一个很好地描述因子准确度的指标。所以,我们可以把股票分成N个篮子,计算因子在每个篮子的预测准确度。所以,我们可以把它转换成一个分类问题。我们可以用Boosting/SVM/Logit等等等等的方式来建模。

所以,在量化投资中,总是先有问题,再去寻找工具。应该说,统计学习是众多武器库中的一种。

其次,在国内,机器学习在量化内应用跟领域很大的关系。比如CTA的运用可能就要多于股票。CTA处理数据的维度要远小于股票,但是可获取市场的长度和动态却强于股票。其次,期货市场的momentum要强于股票市场的momentum,从这个意义上来讲,它的趋势相对股票要更为明显和低噪声。这些特征都更有利于机器学习发挥它的作用。

再次,在国内,机器学习的应用跟频率也有很大的关系。跟很多方法一样,机器学习在大样本下的表现要远优于小样本的表现。统计上来讲,因为机器学习能够不断试错,不断“学习”,所以通过不断的训练,实现对各种情况下概率的准确估计,从而实现超越普通模型。这也是为什么AlphaGO需要训练各大高手的对局棋谱的原因。

比如,在国内一些交易执行算法的设计上,就可能借鉴了机器学习。通过学习订单薄特征,我们可以对下一期盘口变化做一些概率上的预测,由于算法执行频率较高,经过一定样本的训练之后,能够显著地提升算法表现。

但是我仍是谨慎看好深度学习等机器学习方法的。原因在于,这些方法与现行的大部分方法不在一个维度上认识市场,而这个优势使得它们能够捕捉到其他方法正常无法捕捉到的收益。索罗斯说,不做拥挤的交易,这句话反过来说,一个新的认识市场的角度才能带来alpha。

--------------------------------------------

下面是胡说八道:

我总是希望提醒自己,更多把量化作为与市场交互的方式,“增强学习”自己对于市场的理解和认知,而不是让机器替代这一过程。我记得邱国鹭曾经在书里写过主动投资是一个非常有积累的行业,因为在这个行业里,经验是不可替代的。但是他觉得做IT就不是这样,因为IT的更新太快,积累太容易被淘汰和更新。他观点的对错按下不表,但其实,对于量化投资,又何尝不是这样。

只有把通过量化所感知的市场逻辑转化为自己的投资逻辑,无论机器或者主动,我想才能真正立于不败之地吧。

与诸君共勉。

From:知乎Austin

--------------------------------------------------------------------------------------

猜你喜欢

转载自blog.csdn.net/myquant/article/details/89532755