一般に、予測対象となるデータは連続データと離散データに分けることができます。通常、成績スコアや時系列などの連続データと離散データは分割された分類ラベルになります。データの種類が異なると、一部のアルゴリズムの精度を比較するなど、モデルの精度を測定するために異なる指標が使用されます。予測データが離散的であれば、アルゴリズムの精度は当然計算しやすく、データが連続的であれば、アルゴリズムを評価したい。多くのデータはエラーなく正確に予測したいため、正解率は非常に難しいように思えます。その場合、計算される正解率は非常に低くなければならないため、他の指標を使用して測定する必要があります。したがって、状況別の評価指標は次のようになります。
連続データ
平均絶対誤差 (MAE)
平均絶対誤差は絶対誤差の平均値であり、絶対誤差は実際の値と予測値の差の絶対値であり、モデルの予測効果をよりよく反映できます。
mae2 = sum(abs(T_sim2 - T_test)) ./ N ;
T_sim2 はテスト セットの実際の値、T_test はテスト セットの予測値、N はテスト セット データの数です。
平均バイアス誤差 (MBE)
平均偏差誤差は、実際の値と予測値の差です。
mbe2 = sum(T_sim2 - T_test) ./ N ;
T_sim2 はテスト セットの実際の値、T_test はテスト セットの予測値、N はテスト セット データの数です。
平均パーセント誤差 (MAPE)
平均パーセント誤差は回帰アルゴリズムの評価に使用でき、相対的な尺度です。計算コードは次のとおりです。
T_sim2 はテスト セットの実際の値、T_test はテスト セットの予測値、T_test はテスト セットの予測値です。
error = T_sim2 - T_test;
MAPE1=mean(abs(error./T_test));
disp(['平均百分比误差MAPE为: ',num2str(MAPE1*100),'%'])
注: 上記の指標が小さいほど、モデルの予測効果が高くなります。
注: 以下の指標が小さいほど、モデルの予測効果が高くなります。
R方(R-Squared)
R 二乗は、統計で一般的に使用される統計量です。これは、計算が簡単で直感的な相関関係の尺度です。2 つの変数 (身長と体重など) が密接に関連しているかどうかを測定し、値の範囲は [0,1.1] です。 ] が 1 に近づくほど、変数間の相関が高くなります。この指標は通常、回帰のフィッティングに使用されます。一般に、R 二乗は 0.8 以上であり、相関性が高いと言え、フィッティング効果が良好であることを示しています。
R2 = 1 - norm(T_test - T_sim2)^2 / norm(T_test - mean(T_test ))^2;
R2=1-SSE/SST
T_sim2 はテスト セットの実際の値、T_test はテスト セットの予測値、T_test はテスト セットの予測値です。
離散データ
正確さ
離散データの場合、バイナリ分類アルゴリズムで使用されます。実際の値が予測値と等しい場合、モデルの予測が正しいことを意味します。すべてのテスト セットで正しく予測された項目の数を計算し、精度率を計算します。モデルの効果を効果的に測定する
error2 = sum((T_sim2 == T_test )) / N * 100 ;
string = {'测试集预测结果对比'; ['准确率=' num2str(error2) '%']};
T_sim2 はテスト セットの実際の値、T_test はテスト セットの予測値、N はテスト セット データの数です。