ユーザー調査
- 長所:ユーザーは、指標の多くは、リスクの主観的な認識は、オンラインでの実験より低い反映し、エラーが発生した後、作るのは簡単です取得することができます。
- 短所:募集テストユーザーより大きなコスト、困難な大規模なテストユーザー、試験結果の統計的有意性の欠如を整理します。
オンライン査定
オンライン実験を設計し、ユーザーからのフィードバックの結果に基づいて、オンライン推薦システムのパフォーマンスを測定します。オンラインテストモードとオンライン査定指標 - オンライン査定は、より多くの重要なポイントには2つのオプションです。
ABTestはじめに
ABTestは、一部のユーザーは、2つの部分のユーザからのフィードバックを記録し、プランBを使用するプログラム、ユーザの他の一部を使用することができ、二つのプログラムを開発するために、同じ目標を達成し、その後、より良い対応する評価指標に応じたオプションを確認することです。
インターネット業界では、高速でのオンラインソフトウェアの過程で、ABTestは、私たちはすぐに試行錯誤を支援するための実験方法です。統計的には、ABTestは実際に検証可能な仮説の形です。それは、開発者がシステムに推奨される変更が有効で理解するのに役立つ多くのKPIの改善をもたらすことができます。
好ましいシステムにおいて、ランダムにいくつかのグループに分け、ユーザに特定の規則によって、最終結果のデータの異なるセットを異なるアルゴリズムの効果を比較するために、異なる推薦アルゴリズムを取るために、異なるグループは、最終的にユーザの異なるグループの様々なを通じて、リコール又は評価指標を分析しました。
以下、図ABTestに示す典型的なアーキテクチャを得ました:
ユーザがバレルと、商品のリコールをポイントした後、ユーザーの樽を分割して配布する、これが保証されます、必要なことに留意すべきことは、異なるバケット間でユーザー部品発注とABTest ABTest無相関リコールプール互いに独立して関連していません。
オンライン評価指標
オンライン評価指標は、推薦システムの品質を評価するために、実際のビジネスシナリオにインデックスを参照します。一般的な指標はそうでオンライン査定CTR、コンバージョン率、GMVとが含まれます。
オフライン評価
スプリットデータセット
機械学習データセットでは、一般的にトレーニングデータセット、検証データセットとテストデータセットに分割されます。次のようにそれらの機能があります。
検証データセット(検証データセット):ヘルパーは、ビルドプロセスモデルを評価するためのモデルを構築したモデルは、モデルパラメータの不偏推定値を提供して、スーパーを調整します。
テストデータセット(テストデータセット):完成訓練の最終モデルの性能の評価。
図に示される3つのデータセット次モデルのトレーニングと評価のプロセス。
データセットモードを分割しています。
- 留出法
- クロスバリデーションを折るK-
- ブートストラップ
オフライン評価指標
- 精度指標:推薦システムを評価するための基本的な指標は、精度指標スコアを予測、分類精度指標に分けることができる正確嗜好推奨製品ユーザーの程度を予測することができる指標推薦アルゴリズムの程度を測定し、予測スコア指標協会。
- Meas.Inaccuracy指標:推奨システムは、特定の精度に達した後、推薦システムの豊富さとの多様性を測定します。
前記予測分類精度指標は、次のとおりです。
- AUC
- 精度(精度)
- 正解率(精密)
- リコール(リコール)
- F-対策值。
スコア予測精度の仕様は以下のとおりです。
- 絶対誤差(MAE)を意味
- 平均二乗誤差(MSE)
- 根二乗誤差(RMSE)を意味
関連する予測スコア指標は、次のとおりです。
- からピアソン製品関連システム
- スピアマンの順位相関係数
- ケンドールの順位相関係数
ソート予測精度の仕様は以下のとおりです。
- 評価点を並べ替え
程度の非正確な指標は次のとおりです。
- 多様性
- ノベルティー
- サプライズ度
- カバレッジ
- 信頼
- リアルタイム
- 丈夫
- ビジネス目標