这个东西是如何学习的？

现在到了文章中比较有趣的部分。到现在为止，我们所做的一切都叫作正向传递。在训练算法以及在生产中使用的时候，我们都要涉及以上这些步骤。这里我们要谈论一下向后传递，而且只谈论在训练中让算法学习的那一部分。

因此，在训练期间我们不仅准备了数年的历史数据，还准备了一系列预测目标，即0和1的列表。这个列表显示的内容，实际上表达的是VIX是否按照我们想要的方式去做了。

为了学习，我们将市场数据反馈到网络中，并将它的输出数据与计算得出的数据进行比较。在我的例子中，比较将只是一道简单的减法问题，也就是我们的模型误差为：

或者用文字来表达的话，即实际发生的事件与预测的事件之间的差的平方的平方根。

这就是美丽所在。这是一个微分函数，也就是说，如果我们的预测做出了微小的改变，我们也可以通过误差的变化而观察出来。我们的预测是可微函数的结果，SoftMax 输入到 softMax，LSTMs 都是可微分的数学函数。现在所有的函数都满是参数，也就是很久之前我就谈论过那些大的 excel 电子表格。考虑到模型中所有 excel 电子表格中数以万计的参数，所以在这个阶段，我们做的是取误差的导数。在求导过程中我们能够看到，参数值的改变会影响最终的误差。明白其影响原理之后，我们就可以改变其中的某些参数，以降低最终的误差值。

此过程会一直传播直到模型的开端。它调整了我们将输入嵌入到市场向量的方式，因此市场向量代表了任务中最重要的信息。

它调整了每个 LSTM 选择记住的时间和内容，这就使得它们的输出与任务最为息息相关。

它调整了 LSTM 学到的抽象概念，以便它们可以学到任务中最重要的抽象概念。

在我看来是很惊人的，因为它具有我们在任何地方都未曾指定过的所有的复杂性和抽象性。这都是从我们所认为的错误规范中推断出来的。

▌其它想法

这里有一些关于此项目的前沿观点以及我可能会尝试的内容，同时我会说明我觉得有意义的原因，这些想法可能真的会有用。

流动性和资本的有效利用

通常情况下，特定市场的流动性越强，越有效率。我认为这就相当于鸡和蛋的循环，然而当市场的流动性越来越强，它就能吸引更多的资本流出，而不受资本伤害。随着市场的流动性越来越强，有更多的资本可以使用，你会发现更多有经验的玩家纷纷加入。这是因为成为一个富有经验的人是非常昂贵的，所以你必须以大量的资本作为回报，以保证你的运营成本。

很快就能推论出，在不太流动的市场中竞争没那么复杂，因此这样的系统带来的机会可能最终不会涉及交易。重点在于，如果我试图交易的话，我将会选择市场上流动性相对较小的那一部分，可能会是 TASE 100，而不是 S&P 500。

这个东西是新的

至少在我这样平凡的人看来，这些算法的知识、执行算法的框架以及训练它们的计算能力都是新的。假设顶级玩家在几年前就想出了这个东西，并且有能力执行这么长时间，但是正如我在上面提到的，他们也很可能在能够支持其规模的流动市场中执行。我认为下一层市场参与者的技术同化速度较慢。从这个意义上来讲，在尚未开发的市场上，很快就会有一场比赛。

多个时间帧

虽然我在上面提到了单一的输入流，我想一个更有效的训练方式将是（至少）在多个时间帧上训练市场向量，并在推理阶段进行反馈。也就是说，最慢的时间帧将每30秒采样一次，我希望网络去学习延长最多时间的依赖性。

我不知道它们是否相关，但是我认为存在多个时间帧的模式，如果计算成本能足够低，那么值得将它们纳入模型。我仍在绞尽脑汁的想如何在计算图表上表示它们，或许它不是强制性的。

市场向量

当在 NLP 中使用词向量时，我们通常会从预训练模型开始，并在模型训练期间继续调整这些嵌入。在我的例子中，没有可用的预训练市场向量，也没有一个确定的算法来训练它们。

更值得认真考虑的一个问题是，翻译和语言识别中的从序列到序列模型的成功，序列最终被编码为一个独立的向量，然后被解码成不同的表征形式（比如从语音到文本的形式或者从英语到法语的形式）。在这个观点下，我所描述的整个架构实质上是个编码器，而我并没有真正的向其中放置过解码器。

但是，我想用第一层来实现某些特定的功能，使其在输入4000维向量后输出一个300维的向量。我想让它找到各种股票之间地相关性或关系，并组成它们的特征。

另一种方法是，通过 LSTM 来运行每个输入，可能连接所有的输出向量，并考虑编码阶段的输出。我认为这样效率很低，因为仪器和特征之间的相互作用和相关性将会丢失，而且这将会需要相比之前多于10倍的计算量。另一方面，这样的架构可以在多个 GPU 和主机之间畅通并行，无疑是一个优点。

这个东西是如何学习的？

猜你喜欢