深度学习用于医学预后-第二课第四周13-15节-使用生存数的非线性风险评估模型

使用生存数的非线性风险评估模型

在这堂课中，你将学习关于生存树的知识。你将学习如何将患者的变量纳入考虑，比较不同患者的风险。

你将看到生存树与二叉决策树相似，可以让你构建模型来捕捉患者数据中的非线性关系。

在这堂课中，我们将聊一聊生存树。之前，我们研究了人群总体以及个体的风险函数的生存模型。现在我们看到这些个体风险函数的一个关键特征：

它们在风险上是成比例的
我们可以将一个风险因素表示为另一个风险因素的倍数。在公式中，我们看到患者的风险是基础风险率乘以一个因素，这个因素是由他们的变量决定的。

我们在这里看到了年龄和是否吸烟的变量与这些变量相关联的权重。我们来看看这个表达式的作用。这意味着随着年龄增长，风险也在增加。因为请记住，这是一个正数，且正数的指数大于1。

但是，假设我们有一种情况，即比起中年人，年轻人更危险；老年人比中年人更危险。我们无法用年龄的线性函数来捕捉这种关系。因为年龄的线性函数只能模拟危险上升或下降。你不能将其模拟成先下降再上升。因此，这就是使用线性函数和Cox比例风险模型的缺点之一。

Cox比例风险模型的另一个缺点是，两个患者的危险函数始终是成比例的。这意味着我们假设相似患者的风险形状看起来相同。然而，患者可能在不同的时间段内有非常不同的风险曲线。

例如，假设我们观察接受化疗等治疗的患者。对于化疗，让我们假设我们可以有高剂量和低剂量的化疗。如果我们高剂量化疗，那么我们可以预期，治疗后的风险很高，但长期风险较低。而低剂量初始时的危害较小，初始风险较低，但在长期风险较高。

所以，我们无法用Cox比例风险模型来表示这些情况。因为在Cox比例风险模型中，这两条曲线的危险因素差异应始终相同。而在这里，我们可以清楚地看到它们交叉，因此危险因素的差异不是固定的。实际上，随着时间的推移，它们会发生变化。

因此，我们的目标是能够解决这个问题，如果我们有一个由患者组成的人群，我们应该为该群体中的不同类型的人提供不同的风险函数。当提到危险函数时，请记住风险函数可以用于获得累积风险函数。这可以用于获得生存函数和反之亦然。所以我们的目标是能够基于患者数据来构建生存树，捕捉患者数据中的非线性关系。

生存数

假设我们正在观察一群病人，我们正在观察变量，y轴是血压，x轴是年龄。所以我们得到的数据中，我们可以清楚地看到三组人。

我们有一群年龄较大的病人。我们有一群年轻的高血压患者。我们有一组低血压和低龄的病人。注意，每一个代表一个病人的点，都标注了他们的生存时间。

白点是删失数据，蓝色表示有事件（疾病）。因此，我们可以尝试进行人工分类，假设将年龄阈值设为60，血压160，我们就可以得到三个不同的组。

我们在之前的模块中见过决策树。我们来看看它们是什么样子的。

记得之前我们有一个决策树，我们试图对一个人是否有心脏病或死亡的风险进行分类。我们看到我们可以建立这些线，可以把病人分类，他们在适当的风险类别中，我们有低风险，和高风险类别，我们提出了作为我们决策树的一部分。

这里有几个关键的区别。

第一个是我们现在处理的时间到事件模型。因此，在我们的时间到事件模型中，我们不仅仅是在说某件事是低风险还是高风险，我们实际上是在说每一个时间点的风险是什么。记住，我们可以用(t)来表示每个时间点的风险，或者我们可以用累积风险来表示，或者用生存函数来表示，因为它们是可以互换的，在这个特殊的例子中，我们关注的是累积风险。

第二个不同是我们现在处理的是生存数据。所以这些病人不只是像以前那样用红色或蓝色来表示他们是否在10年内死亡或存活，而是用生存时间。还有删失数据。

当我们有一个新病人进来的时候，这个病人52岁，血压132。就可以b组的累积风险估计

Nelson Aalen评估

让我们来谈谈如何实际估计组的累积风险。

这里我们有六个患者，对于每个患者，我们写下结果，即事件时间或时删
失时间。

现在，一旦我们有了这样的表格，我们就已经看到了如何使用Kaplan-Meier方法进行生存估计，得出一个使用这些数据的生存函数。

但是Kaplan-Meier估计不是我们唯一可以使用的估计函数。

另一个称为Nelson-Aalen估计器使我们能够估计人口的累积风险。

我们将不会深入推导这个。我们将通过生成一个人群的累积风险估计的示例进行说明。

让我们仔细看看这个表达式。我们有从i等于0到t的di/ni的求和。di和ni的定义与之前相同。di是在i时刻死亡的人数。ni是在i时刻存活的人数（ $T_i >= i$ ）。

让我们以33岁为例，试着使用这个Nelson-Aalen来估计33岁时的累计风险。所以我们有从i等于0到33的di/ni的求和。得出一个总和为0.75。0.75是我们在等于33岁时估计的累积风险值。当然，我们的时间可以是0到无穷大之间的任何数量，我们可以得到任何时间的累积风险估计值。

文章持续更新，可以关注微信公众号【医学图像人工智能实战营】获取最新动态，一个关注于医学图像处理领域前沿科技的公众号。坚持已实践为主，手把手带你做项目，打比赛，写论文。凡原创文章皆提供理论讲解，实验代码，实验数据。只有实践才能成长的更快，关注我们，一起学习进步~

我是Tina, 我们下篇博客见~

白天工作晚上写文，呕心沥血

觉得写的不错的话最后，求点赞，评论，收藏。或者一键三连
在这里插入图片描述