予測モデル Matlab の評価指標

一般に、予測対象となるデータは連続データと離散データに分けることができます。通常、成績スコアや時系列などの連続データと離散データは分割された分類ラベルになります。データの種類が異なると、一部のアルゴリズムの精度を比較するなど、モデルの精度を測定するために異なる指標が使用されます。予測データが離散的であれば、アルゴリズムの精度は当然計算しやすく、データが連続的であれば、アルゴリズムを評価したい。多くのデータはエラーなく正確に予測したいため、正解率は非常に難しいように思えます。その場合、計算される正解率は非常に低くなければならないため、他の指標を使用して測定する必要がありますしたがって、状況別の評価指標は次のようになります。

  1. 連続データ

  • 平均絶対誤差 (MAE)

平均絶対誤差は絶対誤差の平均値であり、絶対誤差は実際の値と予測値の差の絶対値であり、モデルの予測効果をよりよく反映できます。

mae2 = sum(abs(T_sim2 -  T_test)) ./ N ;

T_sim2 はテスト セットの実際の値、T_test はテスト セットの予測値、N はテスト セット データの数です。

  • 平均バイアス誤差 (MBE)

平均偏差誤差は、実際の値と予測値の差です。

mbe2 = sum(T_sim2 -  T_test) ./ N ;

T_sim2 はテスト セットの実際の値、T_test はテスト セットの予測値、N はテスト セット データの数です。

  • 平均パーセント誤差 (MAPE)

平均パーセント誤差は回帰アルゴリズムの評価に使用でき、相対的な尺度です。計算コードは次のとおりです。

T_sim2 はテスト セットの実際の値、T_test はテスト セットの予測値、T_test はテスト セットの予測値です。

error = T_sim2 - T_test;
MAPE1=mean(abs(error./T_test));
disp(['平均百分比误差MAPE为: ',num2str(MAPE1*100),'%'])

注: 上記の指標が小さいほど、モデルの予測効果が高くなります。

注: 以下の指標が小さいほど、モデルの予測効果が高くなります。

  • R方(R-Squared)

R 二乗は、統計で一般的に使用される統計量です。これは、計算が簡単で直感的な相関関係の尺度です。2 つの変数 (身長と体重など) が密接に関連しているかどうかを測定し、値の範囲は [0,1.1] です。 ] が 1 に近づくほど、変数間の相関が高くなります。この指標は通常、回帰のフィッティングに使用されます。一般に、R 二乗は 0.8 以上であり、相関性が高いと言え、フィッティング効果が良好であることを示しています。

R2 = 1 - norm(T_test -  T_sim2)^2 / norm(T_test -  mean(T_test ))^2;

R2=1-SSE/SST

T_sim2 はテスト セットの実際の値、T_test はテスト セットの予測値、T_test はテスト セットの予測値です。

  1. 離散データ

  • 正確さ

離散データの場合、バイナリ分類アルゴリズムで使用されます。実際の値が予測値と等しい場合、モデルの予測が正しいことを意味します。すべてのテスト セットで正しく予測された項目の数を計算し、精度率を計算します。モデルの効果を効果的に測定する

error2 = sum((T_sim2 == T_test )) / N * 100 ;
string = {'测试集预测结果对比'; ['准确率=' num2str(error2) '%']};

T_sim2 はテスト セットの実際の値、T_test はテスト セットの予測値、N はテスト セット データの数です。

おすすめ

転載: blog.csdn.net/a__12345_/article/details/129051023