用于衍生品定价和动态对冲的多智能体深度强化学习和基于 GAN 的市场模拟

计算能力的进步使机器学习算法能够直接从大量数据中学习。深度强化学习是一种特别强大的方法,它使用代理通过与数据环境交互来学习。尽管许多交易员和投资经理依赖传统的统计和随机方法来为资产定价并制定交易和对冲策略,但深度强化学习已被证明是学习定价和对冲最优策略的有效方法。机器学习通过直接从数据中学习,消除了对潜在市场动态的各种参数假设的需要。本研究检验了使用机器学习方法来开发衍生品定价动态对冲的数据驱动方法。然而,像强化学习这样的机器学习方法需要大量的数据来学习。我们探索了基于生成对抗网络的方法的实施,以从过去的历史数据中生成真实的市场数据。该数据用于训练强化学习框架并评估其稳健性。结果证明了深度强化学习方法在所提出的基于 GAN 的系统市场模拟框架中对衍生品定价和对冲头寸的有效性。

通过使用生成对抗市场模型改进基于强化学习的交易的泛化

Improving Generalization in Reinforcement Learning–Based Trading by Using a Generative Adversarial Market Model

随着人工智能的日益成熟,强化学习(RL)已广泛应用于投资组合管理。然而,缺点依然存在。具体来说,由于基于 RL 的投资组合优化框架的训练环境通常是基于文献中的历史价格数据构建的,因此代理人可能

1) 违反马尔可夫决策过程 (MDP) 的定义,

2) 忽略了自身的市场影响, 或

3) 未能说明交互过程中的因果关系;

这些最终导致代理人做出糟糕的概括。为了克服这些问题——特别是为了帮助基于 RL 的投资组合代理做出更好的泛化——我们引入了一个交互式训练环境,该环境利用生成模型,称为限价订单簿生成对抗模型 (LOB-GAN),来模拟金融市场。具体来说,LOB-GAN 对市场订购行为进行建模,并将 LOB-GAN 的生成器用作市场行为模拟器。市场行为模拟器结合现实的证券撮合系统构建了一个模拟的金融市场,称为虚拟市场。然后将虚拟市场用作基于 RL 的投资组合代理的交互式培训环境。实验结果表明,我们的框架将样本外投资组合性能提高了 4%,优于其他泛化策略。

猜你喜欢

转载自blog.csdn.net/sinat_37574187/article/details/130301525
GAN