百の顔機械学習ノート-4

モデルの評価

  ROC曲線

  質問:どのようにAUCを計算するには?

  答え:まず、AUCの大きさは、量子化値は、モデルのパフォーマンスを測定するためのROC曲線に反映させることができる、ROC曲線下の面積を指します。AUC値は、それに沿って、水平軸ROC統合を行うための唯一の必要性を算出しました。ROC曲線は、一般的に、この直線Y = X(ない場合、限り確率モデル予測が1-Pに反転されるようにすることは、より良い分類器を得ることができる)の上方に位置しているので、AUCは、一般的に0.5値〜1の間。大きなAUC、より良いより可能性の高い説明分類器前に立って真の陽性サンプル、分類性能。

  質問:PR(に比べROC曲線https://wordpress.aberttsy.cn/index.php/2020/04/01/machine-learning-3/)曲線特性は何ですか?

  答え:そこPR PR曲線の形状は、一般に、より劇的な変化が起こりつつ曲線と比較して、正および負のサンプルの分布が変化する特性ROC曲線は、ROC曲線の形状は、実質的に不変であることができます。 

 

  図から分かるように、曲線PR有意な変化が実質的に変わらない、ROC曲線形状を生じました。この機能は、ROC曲線は、モデル自体のパフォーマンスを測定するより客観的に、異なるテスト・セットによって引き起こされる干渉を最小限にすることができる可能にします。それの本当の意味は何ですか?多くの実用的な問題では、正と負のサンプルの数は、多くの場合、不均一です。例えば、計算広告に多くの場合、モデルの変換を含む、陽性サンプルの数は、サンプル1/1000 1/10000の負の偶数になる傾向があります。あなたが別のテスト・セットを選択した場合は、変更PR曲線が非常に大きくなり、ROC曲線は、モデル自体の品質を反映し、より安定しています。だから、より適切な場面ROC曲線は、、勧告をソート宣伝などに広く使用されています。研究者は、特定のデータセットに複数のパフォーマンスモデルを見たい場合でも、PRカーブやROC曲線の選択は実際的な問題が変化することによるものであることに注意してくださいは、PRカーブはより直接的にその性能を反映することができます。

  コサイン距離

  質問:なぜ、コサイン類似度の代わりにユークリッド距離のを使用するいくつかのシナリオがありますか?

  解答:コサイン類似度として定義される二つのベクトルA及びBについては、角度の、すなわち2つのベクトルの余弦、当該ベクトル間の角度の関係は、それらが範囲[にあるの絶対サイズに関係していません- 1,1]。次いで、一方もしその間コサイン類似度;ギャップテキスト類似の長さの大部分が、内容が類似している場合、もし特徴空間におけるユークリッド距離は、一般的に大きい特徴ベクトル、等の単語または単語頻度角度が小さいので、高い類似性であってもよいです。さらに、テキスト、画像、ビデオ、調査対象のフィーチャ寸法の分野において高いことが多い、高次元の場合、でのコサイン類似度残る「-1同じが1である、0直交する、対向」ユークリッド距離の値は、範囲の大きさに影響されながら性質は、固定されており、かなり曖昧な意味されません。

  いくつかのシナリオでは、ダイの長さのベクトルを介して、正規化された例えばWord2Vecは、コサイン距離をユークリッド距離でこの時間は、すなわち、単調な関係を有します

ここで、|| A-B || 2は、ユークリッド距離、COS(A、B)を表すには、コサイン類似度、コサイン距離で表される(1-COS(A、B))を表します。もし近隣の最小(最大類似度)から選択した場合、このシナリオでは、その後、コサイン類似度の結果を使用して、ユークリッド距離が同じです。

  全体として、差分の絶対値がユークリッド距離を反映し、そして相対的な差は、方向余弦距離を反映します。例えば、行動を見ているユーザの統計2つの演劇は、ユーザAは、ベクトル(0,1)、ユーザBは、(1,0)表示され、両者の間のこの時間コサイン大きな距離を、ユークリッド距離が小さい、我々二つの異なるビデオ・ユーザーの好みの分析のために、より多くの相対的な差を懸念している、明らかにそれが使用されるコサイン距離であるべきです。我々は着陸時間(単位:秒)をユーザ活動を分析するときに監視する時間の平均長さ:特徴として、時間(分)、コサイン距離は(1、10)、(10、100)が考慮される2人のユーザーが非常に接近している;しかし明らかに、これら2つのユーザーの活動は、我々はより多くの差の絶対値を懸念しているこの時点では、ユークリッド距離を使用する必要があり、大きな違いがあります。

  質問:コサイン距離が距離であるかどうかを厳密に定義されましたか?

  答え:まず、距離の定義を見て:セットで、それぞれが一意実数の要素を特定することができれば、公理(正定性、対称、三角不等式)が成立するから、3つ作り、その後、実数は、この要素の上に呼び出すことができます間の距離。コサイン距離を満たす正定対称性、しかし、それは厳密に定義されていない距離を三角不等式を満たしません。

  A / Bテストトラップ

  質問:モデルは完全にオフラインで評価された後、なぜオンラインのA / Bテスト?

  回答:

  (1)オフライン評価モデルは、完全にオーバーフィッティングの影響を排除するため、取得したオフライン評価結果は、完全にオンライン査定を置き換えることはできませんすることはできません。
  (2)オフライン評価は完全に環境工学ラインを削減することができません。一般的には、オフラインでの評価は、多くの場合、その上のデータの損失、データラベルの損失とをディレイライン環境を考慮していません。そのため、オフライン評価の結果は、理想的なエンジニアリング環境下にあります。
  いくつかの商業的インジケータ(3)オンラインシステムが評価され、オフラインで計算することはできません。モデルに関連する他の指標、特にビジネスの指標は、多くの場合、直接得ることができない一方、オフラインの評価は、一般的に、モデル自体に対して評価されています。たとえば、オンラインの新しい推薦アルゴリズム、オフラインに集中する傾向が評価完全に推奨される方法は、ユーザーのクリックスルー率、保持期間、PV訪問の変化などをもたらす理解できるROC曲線、PRカーブ、およびオンライン査定を改善することです。これらは、A / Bテストによって総合的に評価を実施する必要があります。

  質問:オンラインA / Bテストを作成する方法は?

  答え:部品のA / Bテストキットの主な手段のためには、ユーザは、新しいモデルを課すために、実験群と対照群に分け、すなわちユーザ、ユーザの実験群、古いモデルに供した対照群のユーザです。浴槽の分割プロセスでは、試料は独立と公正なサンプリングモードは、同じCANのみバケットをユーザに割り当てられることを保証することに留意すべきで、分別プロセスにおけるバケットは、選択されたUSER_IDは乱数を必要と、そのサンプルバケットが公平であることを確認するように。

  質問:どのように実験群と対照群を分割する(新たに開発されたモデルAが、既存のユーザーはモデルBを使用している、分割方法を尋ね、モデルAを検証することができますか)?

  答え:USER_IDはAモデルの効果を検証するために、モデルBをモデルAを用いて、それぞれ試験群および対照群に分けます。

モデルの評価方法

  質問:モデルの評価プロセスでは、利点と欠点を言うために、検証の主な方法は、何をしています。

  回答:

  (1)ホールドアウトテスト検証の最も簡単で最も直接的な方法であり、試料の元のセットは、ランダムに訓練セットと二つの部分の検証セットに分割されます。例えば、クリックスルー率予測モデルのためには、我々のサンプルスケール70%〜30%が二つの部分、モデル学習用のサンプルの70%に分割し、サンプルの30%が正確に計算するために、ROC曲線を描くなど、モデルの検証のために使用されます再現率と他の指標とはモデルの性能を評価します。ホールドアウト検査の欠点は、検証セットの最後の評価指標に基づいて計算し、元のパケットをたくさん持っていることは明らかです。ランダム性を排除するために、研究者はの「クロスチェック」の考え方を導入しました。

  (2)K倍クロスバリデーション:まず、全体の試料が等しいサイズのサンプルのk個のサブセットに分割され、順次Kサブセットを横切る、ためのトレーニングセットの残りのサブセットの全てとして検証の現在のセットの各サブセット訓練と評価モデル、最終的な評価指標として最後のk個の評価指標の平均値。実際の実験では、kはしばしば10に取り込まれます。検証を残す:各試験セットとして、バリデーションセットとして、他の全てのサンプルを、サンプルを残しました。試料N、順次横断サンプル、n回の総数が、最終的な評価指標の評価指標を与えるために平均化を確認しました。サンプルの合計数の場合に時間のオーバーヘッドの大きな検証を残して、利用可能です。実際には、検証を残して検証滞在pの特殊なケースです。それの時間がオーバーヘッド検証休暇よりはるかに高いので、実際にはほとんど機能していないので検証は、検証セットとして残し、そしておそらく種類の要素n個からp要素を選択した滞在のpのpサンプルまでの時間ですこれが適用されます。

  补充:不管是Holdout检验还是交叉检验,都是基于划分训练集和测试集的方法进行 模型评估的。然而,当样本规模比较小时,将样本集进行划分会让训练集进一步 减小,这可能会影响模型训练效果。

  (3) 自助法是基于自助采样法的检验方法。对于总数为n的样本集合,进行n次有 放回的随机抽样,得到大小为n的训练集。n次采样过程中,有的样本会被重复采 样,有的样本没有被抽出过,将这些没有被抽出的样本作为验证集,进行模型验 证,这就是自助法的验证过程。

  question: 在自助法的采样过程中,对n个样本进行n次自助抽样,当n趋于无穷大时, 最终有多少数据从未被选择过?

  answer:

因此,当样本数很大时,大约有36.8%的样本从未被选择过,可作为验证集。

おすすめ

転載: www.cnblogs.com/tsy-0209/p/12629699.html