教你如何用聚类方法分析加密货币市场

出品：贪心科技（公众号：贪心科技）

作者：Sebastian quintero

前言

作者是Radicle团队首席数据科学家，致力于通过数据分析方法对于加密货币市场进行分析，判断潜在的货币规律以及不为人知的货币间相关性，投资有风险，分析仅仅用于研究，无关投资趋势。为了更好地理解货币的相关性，作者部署了一个近邻传播算法，并在市值表顶端找到三个不同的密码资产集群，然后将其一起处理。

几个月前，Radicle的Crypto团队开始研究加密指数，不是作为投资工具，而是为了在评估密码经济中的新分散项目时拥有明确而无偏见的基准。本文讨论了一些初步的统计工作，这些工作有助于我们更好地理解货币动作。简而言之，我们部署了机器学习来解决内部辩论的一个焦点问题：究竟是基于价值主张的具有独特运动的加密货币独立资产，还是它们都与比特币的波动性新闻周期完全相关？

为什么这很重要？如果每个令牌都简单地遵循比特币的运动，那么一个指数对于评估绩效来说是无用的机制。

当前的工具和最佳实践不足以回答这个问题。在这个范围的一端，你会发现带有箭头的时间序列图表，用来表达关于这个世界的一些无可争辩的真相，另一方面是相关矩阵，这些矩阵提供了一个很好的总体思想，即货币资产在一定程度上一起移动一段时间，但没有足够的粒度背景来得出决定性的结论。

幸运的是，这个问题的设置看起来几乎就像一个标准的无监督聚类问题 - 我们有一些未标记的数据，我们希望按照相似性将其组织成组。我之所以说几乎是因为，如果你是数据科学家，你应该注意到与香草聚类任务有三个区别：（1）时间序列数据，（2）加密货币经济中的市场资本化是幂律分布的，（3）我们不想指定事先返回的簇的数量，就像使用k均值聚类一样，因为这会破坏此练习的整个目的。

在问题明确的情况下，我们部署了一个近邻算法，以找到三个不同的加密货币资产集群，位于市值表顶端，具有相似的运动。本文的其余部分讨论了我们的方法的理论和实践的基本原理，详细说明了结果，并结束了一些简短的总结发言。

PS：在继续之前，必须一如既往地强调统计方法，无论多么穷尽，只能提供一个概率的世界观。他们不宣布因果关系或绝对真理。不过，这给了我们很多想法。希望你会同意。

为什么选择近邻传播方法？

从一开始我们就确定了该算法需要维护的一些基本要求，以便产生科学的结果。总体而言，我们发现近邻传播算法不仅满足了我们所有的需求，而且在理论和实践中也是一个非常强大的算法。

近邻算法由Frey和Dueck在Science上发表，将数据点之间的相似度作为输入度量值，并在数据点之间交换实值消息，直到高质量的群集自然出现。在交换消息时，算法识别样本，这些样本是描述群集很好的观察结果。基本上，您可以将范例视为质心，不同之处在于它们不是每个组中所有对象的平均值，而是一个描述其最近邻居的实际观察数据点。就我们的目的，这意味着我们的范例将是一些真正的加密资产。也就是说，在运行算法之后，我们仍然计算质心“趋势”线并将它们显示在下面的图中以便于解释。

在确定样本的情况下，算法本身挑出数据中存在多少自然群集。根据创作者的观点，真正需要仔细调整的唯一超参数是阻尼因子，该因子用于避免数据点之间传递信息时的数值振荡。创作者建议将阻尼因子设置为0.9。在我们的任务中，0.5和0.83之间的值用来识别四个群集。将其增加到0.83以上后只有三个集群。更具体地说，将较低的阻尼因子设置为从较低的阻尼集合组合三和四，前两组完全不变。最后，我们将阻尼因子设置在0.83以上，因为结果更加直观。

我们考虑了其他一些算法，但是没有一个满足我们的一个或多个需求。我们知道，识别一年内只有几个月非常相似的加密货币，但与今年余下的时间完全不一样的加密货币是不可取的。同样重要的是，我们希望尽可能地衡量并隔离新闻周期对市场资本化的日常影响;忽视任何延迟效应。因此，相似性需要在每个日期索引处单独来进行评估，但是需要在整个阵列上进行评估。动态时间扭曲是一种流行的方法，用于测量具有不同长度和不同步相似性的时间序列数据的相似性，这种方法无法正常工作完全是因为它试图找出异相相似性。当数据有意地同相并且长度相同时，我们有一个很大的问题。如上所述，因为我们不想告诉机器人应该有多少个聚类，所以k均值聚类及其多种变体将无法工作。

对于距离测度，如果我们可以规范幂律分布数据，就可以确定标准的负欧氏距离能很好地完成工作。为此，每个矢量首先进行对数转换，然后通过减去其均值并除以其标准偏差来标准化，这样可以产生一个干净和可比的数据集。

方便的是，上述所有内容都意味着sci-kit learn的近邻传播算法实现将会很好，适合我们的目的。根据市场资本情况，我们从2月初的Coinmarketcap.com提取了前50大加密资产的历史数据。在这50个加密货币中，只有26个足够长，足以进行有效聚类（至少一年）。

结果

下面的并列图对应于三个识别的簇中的每一个。在左侧，我们以时间序列形式呈现聚类，其中示例为白色，聚类中所有对象的质心线为亮黄色。空间中的其他成分显示为淡黄色。在右侧，我们为每个群集提供相应的盒图，从不同的角度有效地提供了相同的数据。近邻传播算法找到了三个示例：Ripple，Tether和DigixDAO。第一个集群由大量建立的加密资产组成。

该集群中值得注意的资产是Ethereum和Ripple，分别是按市值计算的第二大和第三大资产。集群中的其他人有平台（BitShares），支付网络（Stellar），货币（Litecoin，Nem，Bytecoin，Verge，Dogecoin）和分散式应用程序（Siacoin）。所有这些资产都是在2015年之前或之前创建的，早在加密狂热之前就已经掌握了。

下一个集群包含比特币，Tether，Dash，Monero以及整个样本的总市值。这个集群中的资产都是货币，Dash和Monero是匿名硬币，专注于隐私。这是一个有趣的结果，因为有人认为Tether支撑比特币，因此整个市场都被称为以美元支持1比1的代币。 2017年12月初，Tether被美国商品期货交易委员会传唤。就第三组而言，我们并不确定该怎么做。虽然我们预计也许会看到比特币和以太坊之间的差异，但这个集群表明密码空间中的异质性比我们预期的要多。我们的Crypto分析师注意到这些趋势正在成为dApp平台，并且他们似乎是稍微更新的资产。像往常一样，我的外卖是现实世界比我们通常假设的要复杂得多，如果我们增加我们的加密资产样本，我们可能会发现更多像这样的群集。

结论

从上面的图可以推断出一些值得注意的见解。第一个显而易见的是，我们发现不止一个集群，这意味着没有，加密资产并不完全遵循比特币的不稳定新闻周期。也就是说，似乎存在自然串联的硬币群，而且随着密码样本的增加，我们预计会有更多的硬币。

总的来说，这项研究帮助我们得出结论：评估密码资产的基本框架是一种合适的方法学方法。在评估加密平台时，我们看看他们试图解决的问题，他们竞争的机会的大小，他们的竞争环境是否适合分权，以及更多。我们所有的工作都可以在rad.report/crypto上找到。

我们自己的Harryicle，Radicle的Crypto Lead将出席本周在旧金山举行的LendIt FinTech会议，并介绍Crypto Research＆Valuation面板。如果您在会议或该地区，如果您想了解更多信息，可以通过Twitter与他联系。他会很乐意讨论我们的Crypto工作。

披露

Radicle的团队成员在一个或多个加密货币中担任不同职位。这些职位并未以任何方式影响这项工作。我们的目标是提供客观公正的分析。最后，这份文件并不构成财务建议。加密货币是高风险投机投资。投资风险自负。

如果对本文有自己的见解，欢迎在评论区留言, 或者扫码关注公众号交流。

此为贪心科技原创，转载请联系本公众号获得授权。

字数：2300

阅读时长：5分钟

教你如何用聚类方法分析加密货币市场

猜你喜欢