R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

在最近的一篇文章中，我描述了一个Metropolis-in-Gibbs采样器，用于估计贝叶斯逻辑回归模型的参数。

结论是，对数后验的评估是一个重要的运行时间瓶颈。在每次迭代中，对数后验被评估两次：一次在当前抽取，另一次在拟议的抽取。

这篇文章就此问题进行了研究，以展示Rcpp如何帮助克服这一瓶颈。 TLDR：只需用C ++编写log-posterior而不是矢量化R函数，我们就可以大大减少运行时间。R实现运行速度慢大约4-7倍。如果您正在为自己的采样器编写代码，那么分析代码并重写Rcpp中的瓶颈可能会非常有益。

我模拟了与上一篇文章类似的模型中的数据：

$Y_i \ sim Ber（P（Y_i = 1）），\ i \ in \ {1，\ dots，n \}$

$logit（P（Y_i = 1））= \ beta_0 + \ beta_1A_i + \ beta_2age_ {1i} + \ beta_3age_ {2i} = x_i'\ vec \ beta$

$\ beta_0，\ beta_1，\ beta_2，\ beta_3 \ sim N（0,1000 ^ 2）$

对于这个分析，我编写了两个Metropolis-Hastings（MH）采样器：sample_mh（）和sample_mh_cpp（）。前者使用对数后验编码作为向量化R函数。后者使用C ++（log_post.cpp）中的log-posterior编码，并使用Rcpp编译成R函数。Armadillo库对C ++中的矩阵和向量类很有用。

那么让我们看看使用C ++的采样器是如何做的。我运行100,000次MH迭代，其跳跃分布协方差 $.03我$ ，其中 $一世$ 是 $4 \次4$ 单位矩阵。因此，在每次迭代中，提出了系数向量。从这个意义上说，采样器是一个“阻塞”的MH。下面用红线表示链，表示生成数据的参数值。