[技術の共有] 4:検索の並べ替え-データの収集と構築

この記事オリジナルの著者:鵬Jiangjunは、承認後にリリース。

元のリンク:https : //cloud.tencent.com/developer/article/1528253

はじめに:データはタスクの上限を決定し、モデルメソッドは上限に到達する能力を決定します。機械学習の3つの要素の中で、経験的データは非常に重要な部分であり、機械学習タスクが達成できる最終的な効果を直接決定します。特にビッグデータの時代では、データの取得が以前よりはるかに簡単になり、データセットを選択すると、モデルを変更するよりもはるかに高速に改善できる場合があります。

1:データ収集

注釈付きまたは注釈なしのデータによれば、機械学習タスクは、教師あり学習、教師なし学習、半教師あり学習に分類できます。

教師あり学習では、トレーニング機能とアノテーションを知っています。特徴とアノテーションの関係に適合するトレーニングモデルを見つけます。

教師なし学習では、トレーニングの特性のみを認識し、注釈は知りません。現在、使用できるモデルはほとんどなく、モデルを最適化する方法をガイドするマーク付きの監視情報はありません。

ラベルなしデータと組み合わせて学習用にラベル付きデータの一部を使用する半教師あり学習。半教師あり学習-能動学習には一般的な方法があります。

私はしばらくそれをやっただけで、ここでそれについて話します。

2: 能動学習

いくつかの複雑な教師付き学習タスクでは、ラベル付きのサンプルを取得することは非常に困難で、時間も費用もかかります。たとえば、音声認識(音声認識)、情報抽出(情報抽出)、分類とクラスタリング(分類とフィルタリング)などです。アクティブラーニングシステムは、関連分野の専門家にラベル付けするための最も重要なラベルなしサンプルのいくつかをアクティブに選択することにより、サンプルのラベル付けのボトルネックを解決しようとします(アクティブ学習システムは、ラベル付けされていないラベル付きインスタンスの形式でクエリを要求することにより、ラベル付けのボトルネックを克服しようとしますオラクルによる)。

一般的なプロセスは、小さなサンプルに基づいてモデルをトレーニングし、新しいラベルなしサンプルにラベルを付け、サンプルを選択してラベル付きトレーニングセットを拡張し、再度トレーニングして反復することです。プロセスは次のとおりです。

サンプルの選択には2つのオプションがあります。

A:モデルでラベル付けされた信頼性の高いサンプルをラベル付けされたデータセットに選択します

B:モデルでマークされた不明確なサンプルを選択し、ラベル付けのためにエキスパート(アノテーター)に提供します

手作業での参加を避けることができるので、私はその時にAを選びました。

しかし、結果はそれほど明白ではありません。

考えられる理由は、小さなサンプルから学習したモデルが学習できる重みの組み合わせ方法はすべて、小さなサンプルに基づいているためです。小さなサンプルでトレーニングされたモデルによって選択されたラベルなしデータに基づいて予測された信頼性の高いサンプルは、より多くの情報をもたらさないため、より有用なデータをもたらすことができません。したがって、データをさらに選択しても、新しい情報は制限されます。新しいデータをより正確に予測することはできません。

拡張サンプルを選択する必要がある場合は、予測に自信のないサンプルを選択して再度ラベル付けすることにより、新しい情報を導入できます。これにより、未知のサンプルについて学習するモデルの機能を高速化し、モデルの収束率を加速して、最高の予測精度を実現できます。

3: トレーニングデータの構築

以下は、主に独自のプロジェクトのサンプルを構築するプロセスに焦点を当てています。

Tencent Videoは、1億6000万DAUの製品であり、短いビデオとは異なります。毎日1億の検索リクエストがあります。ユーザーの検索クリックの関心を最もよく把握するには、ユーザーの行動ログを実行する必要があります。トレーニングデータを収集、分析、構築します。多数のトレーニングサンプルを使用すると、オンライン分布との整合性をより適切に維持できます。また、トレーニングサンプルのトレーニングは、オンラインランキングの予測においてより良い役割を果たすことができます。

第1章で作成する必要があるサンプルに必要な機能は次のとおりです。

テキスト関連機能

コンテンツ品質分類機能

コンテンツの特徴

クリッククラス機能

ユーザーポートレート機能

必要な従属変数は次のとおりです。

1回の検索での特定の動画に対するユーザーの行動の結果

上記の複数のログテーブルがマージされてこれらのディメンションのレポート特性が収集され、ユーザーのクリックフィードバックログが検索されたIDに従って集計されて、ソートされたトレーニングサンプルが形成されます。TDWbossapiを介してデータを報告したり、元のMIGのtafを介してユーザーログを報告したり、データがヴィーナスプラットフォームに到達したり、その後の集計やその他の処理を行ったりできます。

このデータは非常に重要であり第1章のどこで学ぶべきかという問題に対応ています。それでも、ユーザーのクリック動作が本当の満足度を測定できない場合があります。しかし、少なくともこのデータは、ほとんどのユーザーの満足度を反映できます。ログ収集プロセスはより一般的なプロセスであるため、詳細には触れません。

ここでは、サンプルを選択するときに注意すべき重要な点をいくつか示します。

3.1:サンプルの収集と配布の一貫性

サンプリングする場合データの分布に注意を払うには多大な労力が必要です。データの分布は実際には非常に複雑であるため、モデルの汎化能力を確保するには、収集されたデータの分布を分析する必要があります。

ここでデータを収集する場合、私たちのチームが収集したトレーニングデータは、ビデオの以下の側面から確認され、オンライン配信との整合性が確保されます。

ユーザーのクリック分布:露出のみ、短いクリック、中程度のクリック、長いクリック。

検索クエリのタイプ:TVシリーズ、映画、子供、ブログ、スポーツなど。

検索クエリのクリック数、人気の上位クエリ、不人気クエリ。

検索クエリの新しい状況

3.2:トレーニングデータサンプルのスクリーニングとクリーニング

実際には、レポートの精度が原因で、一部のプラットフォームではノイズが増加したり、ユーザーがより部分的なクエリを検索したり、異常なクリック(繰り返しクリック)などが発生したりする場合があります。したがって、トレーニングサンプルをクリーンアップしてフィルタリングする必要があります。

より重要なリンクは

1:ラベル設定。構築プロセス中に、ユーザーの行動を4つのタイプ(露出のみ、短クリック、中クリック、長クリック)に分けました。ラベルにはそれぞれ0〜3を付けます。

2:人気の高いクエリの選択について、ユーザークリックとロングクリックタスクの予測では、オンラインクエリと同じ比率を維持しています。

3:ユーザーのクリックデータは切り捨てる必要はありません。それ以降のクリックでは、ページの表示または少量が原因でエラーが発生する可能性があるためです。ここでは、ビデオの最初の5画面(100エントリ)の結果をスクリーンショットで示しています。

4:以下で1回検索します。一部のユーザーは、ランキングサンプルのこの部分を評価する方法をまったく行えません。サンプルの選択プロセスは比較的おおざっぱです。クリックのないセッションまたはクリック数のセッションで、ユーザーがこの検索で​​クリックして公開したビデオが3つ未満の場合、このセッションのセッションデータはトレーニングサンプルに含まれていないと見なされます。

 

歴史シリーズの記事:

[技術の共有] 1:検索の並べ替え-概要

[技術の共有] 2:検索の並べ替え-工業プロセス

[テクノロジーシェアリング] 3つ:検索ランキング-機械学習モデリング

おすすめ

転載: blog.csdn.net/qq_42933419/article/details/104795754