説明: これは機械学習の実践的なプロジェクトです (データ + コード + ドキュメント + ビデオ説明付き). データ + コード + ドキュメント + ビデオ説明が必要な場合は、記事の最後に直接アクセスして入手できます.
1. プロジェクトの背景
Grey Wolf Optimization Algorithm (GWO) は、オーストラリアのグリフィス大学の学者である Mirjalili によって 2014 年に提案された群知能最適化アルゴリズムです。ハイイロオオカミの群れの捕食行動に着想を得ています。利点: 強力な収束性能、シンプルな構造、調整が必要なパラメーターが少なく、実装が簡単、適応的に調整できる収束係数と情報フィードバック メカニズムがあり、ローカル最適化とグローバル検索のバランスを実現できます。解の精度と収束速度の点で優れたパフォーマンスを発揮します。短所: 収束が早すぎる傾向があり、複雑な問題に直面したときの収束精度は高くなく、収束速度は十分に速くありません。
灰色オオカミのグループには厳格なヒエラルキーがあり、絶対的な発言権を持つ少数の灰色オオカミのグループが、灰色オオカミのグループを獲物に導きます。灰色オオカミは一般的に 4 つのレベルに分けられます。αβδω (大きいものから小さいものへの力)はリーダーシップをシミュレートします。集団狩猟は灰色オオカミの社会的行動であり、社会階級は集団狩猟の過程で重要な役割を果たし、捕食プロセスはαのリーダーシップの下で完了します。これには、主に次の 3 つの手順が含まれます。
- 獲物を追跡して接近する
- 獲物が動かなくなるまで嫌がらせ、追いかけ、取り囲みます
- 獲物を攻撃する
このプロジェクトは、GWO グレイ ウルフ最適化アルゴリズムを使用して XGBoost 分類モデルを最適化します。
2. データ取得
今回のモデリングデータはインターネットから取得したもので(このプロジェクトの作成者が編集)、データ項目の統計は次のとおりです。
データの詳細は次のとおりです (部分表示)。
3. データの前処理
3.1 Pandas ツールでデータを表示する
Pandas ツールの head() メソッドを使用して、データの最初の 5 行を表示します。
キーコード:
3.2 データ欠落ビュー
Pandas ツールの info() メソッドを使用して、データ情報を表示します。
上の図からわかるように、合計 10 個の変数があり、データに欠損値はなく、合計 1000 個のデータがあります。
キーコード:
3.3 データ記述統計
Pandas ツールの describe() メソッドを使用して、データの平均、標準偏差、最小値、分位数、および最大値を表示します。
キーコードは次のとおりです。
4.探索的データ分析
4.1 年変数ヒストグラム
Matplotlib ツールの plot() メソッドを使用して、ヒストグラムを描画します。
4.2 y=1 サンプル x1 変数分布ヒストグラム
Matplotlib ツールの hist() メソッドを使用して、ヒストグラムを描画します。
4.3 相関分析
上図からわかるように、値が大きいほど相関が強く、正の値は正の相関、負の値は負の相関です。
5. 機能エンジニアリング
5.1 特徴データとラベル データの確立
キーコードは次のとおりです。
5.2 データセットの分割
train_test_split() メソッドを使用して、80% のトレーニング セットと 20% のテスト セットに従って分割します。キー コードは次のとおりです。
6. XGBoost 分類モデルを最適化する GWO 灰色オオカミ最適化アルゴリズムを構築する
主に GWO オオカミ最適化アルゴリズムを使用して、ターゲット分類のXGBClassifierアルゴリズムを最適化します。
6.1 GWO グレイウルフ最適化アルゴリズムが探索する最適パラメータ
キーコード:
各反復のプロセス データ:
最適パラメータ:
----------------4. 最適な結果表示 ------------------ 最良の n_estimators は 100 です 最高の learning_rate は 0.05 です |
6.2 最適パラメータ値構築モデル
7. モデル評価
7.1 評価指標と結果
評価指標には、主に正解率、適合率、再現率、F1スコアなどがあります。
上記の表から、F1 スコアが 0.8691 であることがわかります。これは、モデル効果が比較的良好であることを示しています。
キーコードは次のとおりです。
7.2 オーバーフィッティングのチェック
上の図からわかるように、トレーニング セットとテスト セットのスコアは同等であり、オーバー フィッティング現象はありません。
7.3 分類レポート
上の図からわかるように、分類 0 の F1 スコアは 0.88、分類 1 の F1 スコアは 0.87 です。
7.4 混同行列
上の図からわかるように、実際には 0 であるが 0 ではないと予測されるサンプルは 13 個あり、実際には 1 であるが 1 ではないと予測されるサンプルは 12 個あり、全体的な予測精度は良好です。
8. 結論と展望
要約すると、この論文では、GWO グレイ ウルフ最適化アルゴリズムを使用して、XGBoost 分類アルゴリズムの最適なパラメーター値を見つけて分類モデルを構築し、最終的に提案したモデルが適切に機能することを証明します。このモデルは、日用品の予測に使用できます。
本次机器学习项目实战所需的资料,项目资源如下:
项目说明:
链接:https://pan.baidu.com/s/1c6mQ_1YaDINFEttQymp2UQ
提取码:thgk
その他のプロジェクトの実践については、機械学習プロジェクトの実践コレクションのリストを参照してください。