辨析常见的医学数据分析（相关性分析&&回归分析）

0 统计学方法的总结梳理

摘自公众号鸿创医研，关于统计学方法的总结梳理如下图：

为了更好理解下述辨析，假设有一份关于膝关节骨性关节炎的数据：（注：这里仅为示意，没有任何医学借鉴含义）

患者编号	年龄	性别	BMI	是否为关节炎	关节炎严重程度	软骨损伤类型
001	60	0	23.4	1-是	轻度	1-软骨软化
002	56	1	26.1	1-是	中度	2-软骨裂隙
003	64	0	25.5	1-是	轻度	3-局灶性缺损
004	63	0	26.8	1-是	重度	4-弥漫性变薄
*软骨损伤类型的分类方式参考了文献《Deep Learning Approach for Evaluating Knee MR Images: Achieving High Diagnostic Performance for Cartilage Lesion Detection》

二元分类：e.g. 是/否为关节炎

多元有序分类：疾病严重程度的分级（分类结果有序且等差，e.g.轻度、中度、重度依次等差递增）

多元无序分类：疾病的种类，e.g.肺癌、乳腺癌、胃癌，这里如软骨损伤的类型。这些分类结果没有等级上的关系，都是并列关系的诊断结果。

两个变量之间是否存在相关性及计算相关程度的大小。

主要分为两类：线性相关 && 秩相关

	线性相关分析	秩相关分析
类型	参数检验	非参数检验
数据需求	双定量变量（连续型数值变量），均满足正态分布	定量或等级变量，即至少有一个变量为偏态分布或等级变量
分析方法	Pearson相关	Spearman相关
相关系数	Pearson相关系数，r	Spearman相关系数， $r_{s}$
p值与结论	p<0.05：两变量总体线性相关	p<0.05：两变量总体相关
r值与结论	\|r\| > 0.8，两变量存在极强的相关； 0.6 < \|r\| < 0.8，强相关； 0.4 < \|r\| < 0.6，中等相关； \|r\| < 0.4，弱相关。

如果说，相关性分析是看自变量对因变量是否有影响，那么，回归分析是看自变量如何影响因变量的模型拟合。

相关性分析基于两两变量直接的关系探究；而回归分析一次性纳入了所有可能相关的变量，模拟真实的环境以找到真正有独立影响性的因素，并得到这些因素是如何作用的。

建立回归模型的多变量不能存在共线性的关系（如，BMI是由身高与体重的线性计算公式得到的，那么建立模型时就不能同时纳入BMI和体重两个自变量）

二元Logistic回归	适用于二元分类（是否发生疾病）
多元有序Logistic回归	适用于多元有序分类
多元无序Logistic回归	适用于多元无序分类
Cox回归	含有“时间数据”的二元Logistic回归（疾病发生的速度）

卡方检验进行分析的目的是比较差异性。

建立了两组假设：①零假设：观察组和对照组的作用结果一致。（如，某新药物【观察组】和常规药物【对照组】的疗效一致。）

②备选假设：观察组和对照组的作用结果显著不一致。（如，想要证实新药物的疗效更好。）

卡方检验的p值<0.05，则拒绝零假设，接受备选假设；反之，接受零假设。

参考：卡方（χ2），四格表应用条件，理论频数_weixin_34307464的博客-CSDN博客，由于基于卡方分布模型，使用卡方检验的前提：①样本总量>40；②四格表的理论频数≠0并且理论频数<5的样本不超过总样本数的20%。

对于小样本，或四格表的理论频数=0的情况，使用Fisher 精确概率法。

目的：以超几何分布为理论模型，用来检验一次随机实验的结果是否支持对于某个随机实验的假设，当测试结果出现小概率事件则认定原有假设不被支持。

同样地，Fisher 检验的p值<0.05，则拒绝零假设。

与卡方检验的区别在于：在实际计算当中分为单边检验（即超几何检验）和双边检测。实际应用中，Fisher检验前先有一个预期，如：想要得到新药比常规药的有效概率更大，则选择Fisher检验的“大于”的单侧；若只是想要得到新药与常规药的有效性有差异，则选择Fisher双边检测。