プロジェクトの実践 3: Kaggle 糖尿病予測

1. データの紹介

        この章でモデル化されたデータは、kaggle Web サイトからダウンロードされたインドの糖尿病データベースです。

        データリンク: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

        データセットの紹介: このデータセットはもともと国立糖尿病・消化器・腎臓病研究所から入手したものです。目標は、データセットに含まれる特定の診断測定値に基づいて、患者が糖尿病であるかどうかを診断的に予測することです。ここの患者は全員、インド系の21歳以上の女性です。データセットは、いくつかの医療予測変数と 1 つのターゲット変数で構成されます。予測変数には、患者の妊娠数、BMI、インスリンレベル、年齢などが含まれます。

図 1 糖尿病データベース (データ プレビュー) 

        データセット内の各変数の意味は次のように説明されます。

        妊娠: 妊娠の数

        グルコース: 経口ブドウ糖負荷試験中の 2 時間血漿グルコース濃度

        血圧: 拡張期血圧 (mm Hg)

        SkinThickness: 上腕三頭筋の皮下脂肪の厚さ (mm)

        インスリン: 2 時間血清インスリン (μ U/ml)

        BMI: BMI: BMI (体重キログラム/(身長メートル)^2)

        DiabetesPedigreeFunction: 糖尿病血統関数

        年齢:年齢(歳)

        結果: ターゲット変数 (0 または 1)。データセットの 268 は 1、500 は 0、0 は糖尿病に罹患していないことを意味し、1 は糖尿病に罹患していることを意味します。

2. モデリングの手順

        (1) CSVデータの読み込み

        (2) 文字列型データを浮動小数点型に変換する

        ÿ

おすすめ

転載: blog.csdn.net/qq_36171491/article/details/124879752