注: これは機械学習実践的なプロジェクトです (データ + コード + ドキュメント + が付属します)ビデオ説明)、データ + コード + ドキュメント + ビデオ説明が必要な場合は、最後まで直接進むことができます。記事の内容を確認してください。
1.项目背景
一般化線形モデル (GLM) は、回帰分析や分類問題で広く使用されている統計モデルです。線形モデルと非線形変換を組み合わせて、さまざまなタイプのデータに適応できます。
このプロジェクトでは、GLM 回帰アルゴリズムを使用して、一般化された線形回帰モデルを構築します。
2.数据获取
今回のモデリングデータはインターネット上から取得したものです(作者作成) データ項目の統計は以下の通りです。
シリアルナンバー |
変数名 |
説明する |
1 |
×1 |
|
2 |
×2 |
|
3 |
×3 |
|
4 |
×4 |
|
5 |
×5 |
|
6 |
×6 |
|
7 |
×7 |
|
8 |
x8 |
|
9 |
x9 |
|
10 |
×10 |
|
11 |
そして |
従属変数 |
データ詳細は以下の通りです(一部表示)。
3.データの前処理
3.1 用Pandas工具查看数据
Pandas ツールの head() メソッドを使用して、データの最初の 5 行を表示します。
キーコード:
3.2 データが欠落しているビュー
データ情報を表示するには、Pandas ツールの info() メソッドを使用します。
上の図からわかるように、変数は合計 11 個あり、データには欠損値がなく、合計 1,000 個のデータがあります。
キーコード:
3.3 数据描述性统计
Pandas ツールの description() メソッドを使用して、データの平均値、標準偏差、最小値、分位数、および最大値を表示します。
キーコードは次のとおりです。
4.探索的データ分析
4.1 y变量直方图
Matplotlib ツールの hist() メソッドを使用して、ヒストグラムを描画します。
上の図からわかるように、y 変数は主に -400 から 400 の間に集中しています。
4.2 相関分析
上図からわかるように、値が大きいほど相関が強く、正の値は正の相関、負の値は負の相関です。
5.特征工程
5.1 フィーチャ データとラベル データを作成する
キーコードは次のとおりです。
5.2 データセットの分割
train_test_split() メソッドは、トレーニング セットの 80% とテスト セットの 20% を分割するために使用されます。キー コードは次のとおりです。
6.构建GLM回归模型
GLM 回帰アルゴリズムは、主にターゲット回帰に使用されます。
6.1 构建模型
シリアルナンバー |
機種名 |
パラメータ |
1 |
GLM回帰モデル |
ファミリー=sm.families.Gaussian() |
6.2 模型摘要信息
7.模型评估
7.1 評価指標と結果
評価指標には主に説明可能な分散値、平均絶対誤差、平均二乗誤差、R二乗値などが含まれます。
機種名 |
インジケーター名 |
指数値 |
テストセット |
||
GLM回帰モデル |
Rスクエア |
1.0 |
平均二乗誤差 |
0.2637 |
|
説明された分散 |
1.0 |
|
平均絶対誤差 |
0.4158 |
上の表からわかるように、R 二乗は 1.0 であり、モデルが有効であることを示しています。
キーコードは次のとおりです。
7.2 真の値と予測値の比較グラフ
上図から、実際の値と予測値の変動は基本的に一致していることがわかります。
8.结论与展望
要約すると、この記事では GLM アルゴリズムを使用して回帰モデルを構築し、最終的には提案したモデルがうまく機能することを証明します。このモデルは、日常の製品の予測に使用できます。
# 本次机器学习项目实战所需的资料,项目资源如下:
# 项目说明:
链接:https://pan.baidu.com/s/1w7CUykHtRRwGR5kERt3Kqw
提取码:6nx5
より実践的なプロジェクトについては、実践的な機械学習プロジェクトのリストをご覧ください。
機械学習プロジェクト実践集リスト_機械学習実践プロジェクト_Pang Geの本当に良いブログ - CSDNブログ