项目实战3:Kaggle糖尿病预测

一、数据介绍

        本章建模的数据是从kaggle网站上下载的印第安人糖尿病数据库。

        数据链接:https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

        数据集介绍:该数据集最初来自美国国家糖尿病、消化和肾脏疾病研究所。目的是根据数据集中包含的某些诊断测量值,诊断性地预测患者是否患有糖尿病。这里的所有患者都是至少 21 岁的印第安血统的女性。数据集由几个医学预测变量和一个目标变量组成。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。

图1 糖尿病数据库(数据预览) 

        数据集中各变量的含义介绍如下:

        Pregnancies:怀孕次数

        Glucose:口服葡萄糖耐量试验中 2 小时的血浆葡萄糖浓度

        BloodPressure:舒张压 (mm Hg)

        SkinThickness:三头肌皮褶厚度(mm)

        Insulin:2 小时血清胰岛素 (mu U/ml)

        BMI:体重指数(体重公斤/(身高米)^2)

        DiabetesPedigreeFunction:糖尿病谱系功能

        Age:年龄(岁)

        Outcome:目标变量(0 或 1) 数据集中268 为 1,500为 0,0表示不患糖尿病、1表示患糖尿病。

二、建模步骤

        (1)读取csv数据

        (2)将字符串类型的数据变成浮点型

        ÿ

猜你喜欢

转载自blog.csdn.net/qq_36171491/article/details/124879752