关联分析U聚类分析探讨心脏病的诱发

1 数据准备

现有一份heart disease.xls数据,内含21个变量,分别是ID(序号)、sex(性别)、age(年龄)、profession(工作强度)、Marital Status(婚姻状况)、owncar(私家车)、emotion(情绪)、tiredness(疲劳度)、exercise(运动量)、diet(饮食习惯)、sitting-up(熬夜)、petting(是否养宠物)、drink(喝酒)、smoking(吸烟)、familiar medical history(家族病史)、fatness(肥胖程度)、hypertension(血压)、blood sugar(血糖)、blood fat(血脂)、diabetes(糖尿病)、coronary heart disease(冠心病) 

2 变量分析

性别、年龄、工作强度等19个变量或直接或间接对冠心病的诱发产生影响,例如随着年龄的增大,人体器官随之衰老,身体状况下降也会加速心脏病的发作;工作强度高,精神压力大,休息不好明显增加心脏病的风险;精神压力大,情绪不好,抑郁焦虑等不安因素对人的心血管产生极大的影响,从而增大心脏病的风险;每天适当的运动量有助于增强血液循环,增强抵抗力,提高全身各脏器机能,远离疾病,减少患心脏病的风险;饮食与身体健康息息相关,长期高脂肪高热能饮食容易引发各类疾病,直接引发冠心病等。

3 任务要求

任务一:关联分析

对heartdisease.xls进行关联规则分析引发冠心病的关联因素。

任务二:聚类分析

对heartdisease.xls进行聚类分析,选择合适的聚类数,并选择一两个簇对其特征进行解释。

4 完成任务

4.1关联分析

对于任务一,我们选择关联模型下的Apriori算法,其中“冠心病”变量作为后项,19个影响因素变量作为前项,设置前项支持度阈值为10%,规则置信度阈值为81%,得到结果截图如下:


结果分析

1) 经常喝酒抽烟的男性严重影响身体健康,最容易患冠心病,其规则支持度、规则置信度和提升度都是最高的(S=10.0%,C=91.7%);

2) 经常抽烟且高血压、高血脂的男性较容易患冠心病,其规则置信度和提升度都为第二高(S=8.6%,C=86.4%);

3) 经常抽烟偶尔喝酒但血脂较高的男性患冠心病的概率也挺高的(S=9.5%,C=84.0%);

4) 抽烟、熬夜、血压血脂过高都会大大增加患心脏病的风险,特别是男性以及有家族病史的更要注意,每天保证适当的运动量,健康饮食,调整心态及作息习惯,戒烟戒酒,都是预防心脏病的有效方法。

5) 对于已经患有心脏病的人群,则要及时就医,一方面配合治疗,另一方面也要注意饮食,生活习惯,避免熬夜过度疲劳,适量的运动可以提高免疫力,强身健体,最重要的一点是不要喝酒不要抽烟,保持良好的心态,防止病情恶化。

4.2聚类分析

对于任务二,我们选择聚类模型下的K-Meas算法,聚类数为5,得到结果截图如下:

其中每个类占总数的比例(由大到小)分别为43.6%、17.7%、16.4%、12.3%、10 %,对分类字段的依赖性(重要性)依次由血压、冠心病、工作强度、疲劳度、情绪、抽烟、饮食习惯、熬夜、喝酒、血脂、家族病史、运动量、是否养宠物、性别、是否有私家车、血糖、肥胖程度、年龄、糖尿病、婚姻状况逐渐递减,重要性见下表:


5大聚类的各项具体因素见下表:


结果分析

由表可知,聚类3绝大多数是不患心脏病,其生活习性是最健康的且各项指标均正常,而聚类4大多数患心脏病,其生活中有诸多不良行为,如经常抽烟,经常熬夜极度疲劳,压力大精神过于紧张,运动量极少,工作强度高以及生活饮食偏于油腻导致摄入过多热能脂肪影响健康,患心脏病的人群的心脏指标普遍偏高,如高血压、高血脂,这些都是诱发心脏病的重要因素,其次,有家族病史的也会增加患心脏病的风险。

5 浅谈收获

我国心脏病的患病率逐年增加,每年有几十万人死于心脏病。心脏病作为人类健康的头号杀手,全世界三分之一的人口死亡是由于心脏病引起的,所以日常生活中我们要注意饮食和生活习惯,饮食上要做到“三低”:低脂肪、低热能、低胆固醇,生活上要坚持每天适量运动、戒烟、适当喝酒、控制情绪、保证充足睡眠,防止各项心脏指标的升高,好的生活习性必定会回馈我们一个好的身体,从而避免心脏病的诱发。




猜你喜欢

转载自blog.csdn.net/X_dmword/article/details/80723650