辨析常见的医学数据分析(相关性分析&&回归分析)

目录

 0  统计学方法的总结梳理

1 常见的三种分类结果?

2 什么是相关性分析?

        相关性分析的结果怎么看?

3 什么是回归分析?

        1)前提

        2)常见的回归模型

4 对于存在对照组实验的医学病例如何分析?

1)卡方检验

2)Fisher 精确概率法

扫描二维码关注公众号,回复: 16868817 查看本文章

 0  统计学方法的总结梳理

         摘自公众号鸿创医研,关于统计学方法的总结梳理如下图:

        为了更好理解下述辨析,假设有一份关于膝关节骨性关节炎的数据:(注:这里仅为示意,没有任何医学借鉴含义)

患者编号 年龄 性别 BMI 是否为关节炎 关节炎严重程度 软骨损伤类型
001 60 0 23.4 1-是 轻度 1-软骨软化
002 56 1 26.1 1-是 中度 2-软骨裂隙
003 64 0 25.5 1-是 轻度 3-局灶性缺损
004 63 0 26.8 1-是 重度 4-弥漫性变薄
*软骨损伤类型的分类方式参考了文献《Deep Learning Approach for Evaluating Knee MR Images: Achieving High Diagnostic Performance for Cartilage Lesion Detection

1 常见的三种分类结果?

        二元分类:e.g. 是/否 为关节炎

        多元有序分类:疾病严重程度的分级(分类结果有序等差,e.g.轻度、中度、重度依次等差递增

        多元无序分类:疾病的种类,e.g.肺癌、乳腺癌、胃癌,这里如软骨损伤的类型。这些分类结果没有等级上的关系,都是并列关系的诊断结果。

2 什么是相关性分析?

        两个变量之间是否存在相关性及计算相关程度的大小

        主要分为两类:线性相关 && 秩相关

线性相关分析 秩相关分析
类型 参数检验 非参数检验
数据需求 双定量变量(连续型数值变量),均满足正态分布 定量或等级变量,即至少有一个变量为偏态分布或等级变量
分析方法 Pearson相关 Spearman相关
相关系数 Pearson相关系数,r Spearman相关系数,r_{s}
p值与结论 p<0.05:两变量总体线性相关 p<0.05:两变量总体相关
r值与结论

|r| > 0.8,两变量存在极强的相关;

0.6 < |r| < 0.8,强相关;

0.4 < |r| < 0.6,中等相关;

|r| < 0.4,弱相关。

        相关性分析的结果怎么看?

                ①先看显著性p值,(变量间是否存在显著性影响的关系)只有存在显著性相关(即 p < 0.05),再分析r值;(若不存在相关性,考虑筛选别的影响因子纳入表格)

                ②看相关性系数r值,判断变量间是显著强相关/中等相关/弱相关。

3 什么是回归分析?

        如果说,相关性分析是看自变量对因变量是否有影响,那么,回归分析是看自变量如何影响因变量的模型拟合。

        相关性分析基于两两变量直接的关系探究;而回归分析一次性纳入了所有可能相关的变量,模拟真实的环境以找到真正有独立影响性的因素,并得到这些因素是如何作用的。

        1)前提

        建立回归模型的多变量不能存在共线性的关系(如,BMI是由身高与体重的线性计算公式得到的,那么建立模型时就不能同时纳入BMI和体重两个自变量)

        2)常见的回归模型

二元Logistic回归 适用于二元分类(是否发生疾病)
多元有序Logistic回归 适用于多元有序分类
多元无序Logistic回归 适用于多元无序分类
Cox回归

含有“时间数据”的二元Logistic回归

(疾病发生的速度

4 对于存在对照组实验的医学病例如何分析?

1)卡方检验

        卡方检验进行分析的目的是比较差异性

        建立了两组假设:①零假设:观察组和对照组的作用结果一致。(如,某新药物【观察组】和常规药物【对照组】的疗效一致。)

                                     ②备选假设:观察组和对照组的作用结果显著不一致。(如,想要证实新药物的疗效更好。)

        卡方检验的p值<0.05,则拒绝零假设,接受备选假设;反之,接受零假设。

        参考:卡方(χ2),四格表应用条件,理论频数_weixin_34307464的博客-CSDN博客,由于基于卡方分布模型,使用卡方检验的前提:①样本总量>40;②四格表的理论频数≠0并且理论频数<5的样本不超过总样本数的20%。

2)Fisher 精确概率法

        对于小样本,或四格表的理论频数=0的情况,使用Fisher 精确概率法。

        目的: 以超几何分布为理论模型,用来检验一次随机实验的结果是否支持对于某个随机实验的假设,当测试结果出现小概率事件则认定原有假设不被支持。

        同样地,Fisher 检验的p值<0.05,则拒绝零假设。

        与卡方检验的区别在于:在实际计算当中分为单边检验(即超几何检验)和双边检测。实际应用中,Fisher检验前先有一个预期,如:想要得到新药比常规药的有效概率更大,则选择Fisher检验的“大于”的单侧;若只是想要得到新药与常规药的有效性有差异,则选择Fisher双边检测。

猜你喜欢

转载自blog.csdn.net/m0_46427461/article/details/133240647