1. データの紹介
この章でモデル化されたデータは、kaggle Web サイトからダウンロードされたインドの糖尿病データベースです。
データリンク: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database
データセットの紹介: このデータセットはもともと国立糖尿病・消化器・腎臓病研究所から入手したものです。目標は、データセットに含まれる特定の診断測定値に基づいて、患者が糖尿病であるかどうかを診断的に予測することです。ここの患者は全員、インド系の21歳以上の女性です。データセットは、いくつかの医療予測変数と 1 つのターゲット変数で構成されます。予測変数には、患者の妊娠数、BMI、インスリンレベル、年齢などが含まれます。
図 1 糖尿病データベース (データ プレビュー)
データセット内の各変数の意味は次のように説明されます。
妊娠: 妊娠の数
グルコース: 経口ブドウ糖負荷試験中の 2 時間血漿グルコース濃度
血圧: 拡張期血圧 (mm Hg)
SkinThickness: 上腕三頭筋の皮下脂肪の厚さ (mm)
インスリン: 2 時間血清インスリン (μ U/ml)
BMI: BMI: BMI (体重キログラム/(身長メートル)^2)
DiabetesPedigreeFunction: 糖尿病血統関数
年齢:年齢(歳)
結果: ターゲット変数 (0 または 1)。データセットの 268 は 1、500 は 0、0 は糖尿病に罹患していないことを意味し、1 は糖尿病に罹患していることを意味します。
2. モデリングの手順
(1) CSVデータの読み込み
(2) 文字列型データを浮動小数点型に変換する
ÿ