这家大学团队如何连续5年准确预测美国流感趋势？经验贝叶斯模型（Empirical Bayes Framework)

更多专业的人工智能相关文章，微信搜索 : robot-learner ，或扫码

自2014-2015到2018-2019的五个流感季节中，该美国大学研究团队的模型连续5年对美国流感趋势预测最准。

准确预测当年的流感季节发生趋势对经济民生有重要意义，比如对流感高峰何时到了的准确判断有助于合理安排疫苗的研发和生产。

首先为了达到预测的目的，我们需要有历史数据。自1997-1998流感季以来，美国疾病控制和预防中心（CDC）建立一个横跨全国50个州2900多家门诊中心的监测系统。每一周，这些门诊中心自愿上传就诊数量中涉及流感的比例数据。根据各地上传数据，CDC结合各地人口数量，最后给出全国按比例调节过的流感就诊比例数据。从2013-2014流感季开始，CDC推出了”预测流感“挑战，邀请各大顶尖研究机构团队参与流感季节趋势的预测。

那么CDC需要预测流感季节的哪些指标呢？一共有下面4个关键指标：

开始（onset）: 流感季节开始定义为连续3周就诊比例超过一个基准线（比如2%水平），那么这个一开始3周里面的第一周就是开始周。
高峰周（peak week）：流感就诊比例达到最值的周。
高峰值（peak）: 流感季节的就诊比例最大值
持续时间（duration）：流感季节持续的周数

一年52个周。一般来说，从下半年的第40周，也就是9月中旬左右，到第二年的上半年20周，也就是5月份左右，为流感季节。

根据CDC官方网站的报道，来自美国卡耐基梅隆大学（CMU）,由Dr. Roni Rosenfeld领导的DELPHI团队连续5年在几十个顶尖团队中脱颖而出，最准确的预测了全国流感趋势。

上图为某一年的流感趋势和后期预测。

一般来说预测具有周期性的趋势数据有几种办法，比如：

模拟相关过程发生原理，即使这个模拟可能会简化真实的发生机制。比如SIR模型简化易感人群的感染率和回复率，从而动态的预测每一天的实际患病人数。我们在前几篇的文章中曾经介绍过SIR模型的数学原理。感兴趣的朋友欢迎阅读。
时间序列等参数化的统计方法，这种方法基本上不假设过程发生的实际原理，而是通过找到过去的数据和现在数据的关系，从而预测将来的数据。

卡耐基梅隆团队在这次准确预测流感趋势中使用的模型是一种经验贝叶斯框架（Empirical Bayes Framework）模型，同样不假设过程发生机制，而是通过对历史数据的学习，结合今年已经发生的数据，不断调整对流感后期的预测。这个方法本身并不复杂，值得大家借鉴。这个模型的几个步骤如下：

充分利用历年历史数据，对历年流感季节数据进行光滑拟合，和误差估计。光滑拟合方法为二次趋势过滤（quadratic trend filtering），类似于分段的二次项拟合。
结合各年拟合后的光滑数据和噪音数据，对预测当年的数据进行各种转换，得到先验知识（prior）。
比较历年历史数据趋势和当年已经产生的流感就诊率数据，得到历史数据和当年已经发生数据相似性。构建后验知识分布（posterior），通过重要性抽样（importance sampling）方法得到今年后期的分布概率。
每一周在得到更新的真实数据后，可以重复上一个步骤，修正对后期的预测。

可以看出，卡耐基梅隆大学的模型简洁而直观。出色的实际预测效果告诉我们，在实际数据挖掘和模型预测中，并非一定要追求特别复杂高深的模型。有时候简单就是美。

参考文献：

PLoS Computational Biology paper, Flexible Modeling of Epidemics with an Empirical Bayes Framework

robot_learner

发布了27 篇原创文章 · 获赞 3 · 访问量 1万+

私信关注

这家大学团队如何连续5年准确预测美国流感趋势？ 经验贝叶斯模型 （Empirical Bayes Framework)

猜你喜欢

这家大学团队如何连续5年准确预测美国流感趋势？经验贝叶斯模型（Empirical Bayes Framework)