機能エンジニアリング---レコメンデーションシステム
優れた機能プロジェクトを構築するには、次の3つの問題を順番に解決する必要があります。
- 機能エンジニアリングを構築するために従うべき基本原則は何ですか?
- 一般的に使用される機能カテゴリは何ですか?
- 元の特徴に基づいて特徴処理を実行し、レコメンデーションシステムのトレーニングとヨガの推測に使用できる特徴ベクトルを生成するにはどうすればよいですか?
1.レコメンデーションシステムの機能エンジニアリングを構築するための原則
2.レコメンデーションシステムの一般的な機能
2.1ユーザー行動データ
2.2ユーザー関係データ
2.3属性とラベルのデータ
2.4コンテンツデータ
2.5コンテキストデータ
2.6統計データ
2.7結合されたデータ
組み合わせ機能とは、異なる機能を組み合わせることによって生成される新しい機能を指します。
初期のレコメンデーションシステムでは、レコメンデーションモデル(ロジスティック回帰など)には、機能を組み合わせる機能がないことがよくあります。最近の深層学習推奨システムでは、組み合わせた機能は必ずしも手動の組み合わせや手動のスクリーニングによって選択されるとは限りませんが、モデルによって自動的に処理されます。
3.一般的に使用される機能処理方法
レコメンデーションシステムの場合、モデルの入力は多くの場合、数値で構成される特徴ベクトルです。
-
継続性の特性:
ユーザーの年齢、統計的特性、記事のリリース時間、映画の再生時間などの数値特性。このような特徴の処理に最も一般的に使用される処理方法には、正規化、離散化、および非線形関数が含まれます。- 正規化:各フィーチャの寸法を統一します
- 離散化:分位数を決定することによって元の連続値をバケットに分割し、最終的に離散値を形成するプロセス。
- 非線形関数の追加:非線形関数を使用して元の特徴を直接変換してから、トレーニングのために元の特徴と変換された特徴をモデルに追加します。
-
カテゴリ機能
ユーザーの履歴行動データ、属性ラベルデータなどはすべてカテゴリ機能であり、それらの表現は多くの場合、カテゴリまたはIDです。最も一般的に使用される処理方法は、ワンホットエンコーディングを数値ベクトルに変換することです。同じ機能ドメインでの一意でないカテゴリ選択に直面して、マルチホットエンコーディングを使用することもできます。
上記の処理方法では、特徴ベクトルの次元が大きくなりすぎ、特徴がまばらになりすぎて、モデルがアンダーフィットしやすくなり、モデルの重みパラメーターの数が多すぎて、収束が遅くなります。モデル。埋め込みテクノロジーは、最初にカテゴリの特徴を埋め込みベクトルにエンコードし、次に他の特徴と組み合わせて最終的な特徴ベクトルを形成することができます。
4.機能エンジニアリングとビジネス理解
今日、レコメンデーションモデルと機能エンジニアリングが統合される傾向がある場合、機能エンジニアリング自体がディープラーニングモデルの一部になります。
ビジネスの運用モードを深く理解し、ビジネスシナリオにおけるユーザーの思考モードと行動の動機を理解することによってのみ、最も価値のある機能を正確に抽出し、成功するディープラーニングモデルを構築できます。
参照:ディープラーニングレコメンデーションシステム