ディープ ラーニングの実用例: DSSM ツイン タワー モデルに基づく映画レコメンデーション システムの構築

1. 推奨される技術的方法

簡単に言えば、レコメンド システムは、ユーザーと目的のオブジェクトを効率的に一致させることです。技術的には、この 2 つを一致させるには 2 つの方法があります。

1.1 分類ベースのアプローチ

分類の方法はよく理解されており、ユーザーがこのカテゴリを好むかどうかを予測します。

  • 意図したアイテムのマルチカテゴリ モデルをトレーニングして、ユーザーが好むアイテムのカテゴリを予測できます。
  • または、ユーザー + アイテムなどのオールラウンドな特徴をスプライシング トレーニング バイナリ分類モデルとして使用して、それが好みであるかどうかを予測します (次の従来の CTR モデルは、ユーザー アイテムの特徴と対応するラベル 0 または 1 を使用して分類モデルを構築し、ユーザーはこの項目をクリックします ,)。

分類ベースの方法は精度が高く、レコメンデーションのランキング段階でよく使用されます (ラフ ソートやファイン ソートなど)。

技術のアップグレード

テクノロジーは共有とコミュニケーションを学ぶ必要があり、密室で作業することはお勧めできません。人は速く行くことができ、人々のグループはより遠くに行くことができます.

完全なコード、データ、および技術交換の改善はすべて、Knowledge Planet 交換グループに参加することで取得できます. グループには 2,000 人以上のメンバーがいます. 追加するときは、次の点に注意してください: ソース + 興味の方向, これは志を同じくする友人を見つけるのに便利です. .

方法①、WeChat ID追加:pythoner666、備考:CSDN+DSSMツインタワーモデルから
方法②、WeChat検索公式アカウント:Python学習とデータマイニング、バックグラウンド返信:情報

1.2 類似性ベースの方法

物同士、人同士、人と物との距離を計算することで、好みが似ている人にアイテムをレコメンドします。

  • 例えば、連想規則の推薦では、オブジェクト間の共起の程度をある程度の類似度と見なすことができます。
  • 協調フィルタリング アルゴリズムは、アイテムまたはユーザーに基づいて類似のユーザーまたはアイテムを計算できます。
  • そして、この記事で言及されている2 つの塔のモデルは、アイテムとユーザーの間の類似距離を計算し、レコメンデーションを行うことです。

類似性を利用した方法は、効率が速く精度が悪いため、レコメンドの大まかな分類やリコールの段階でよく使用されます。

2. DSSMツインタワーモデル

2.1 DSSM モデルの原理

ディープ セマンティック マッチング モデルとしても知られる DSSM (Deep Structured Semantic Models) は、NLP フィールドでセマンティックの類似性を計算するタスクに適用される記事として Microsoft によって最初に公開されました。
DSSM ディープ セマンティック マッチング モデルの原理は非常に単純です。検索エンジンでクエリとドキュメントを検索しているユーザーの大量の露出とクリック ログ データを取得し、複雑なディープ ラーニング ネットワークを使用して、クエリ サイド機能のクエリ埋め込みとドキュメントのドキュメント埋め込みを構築します。トレーニング フェーズのそれぞれの側面の特徴、オンライン推論中に、意味的類似性は 2 つの意味ベクトルの cos 距離を計算することによって表現され、最終的に意味的類似性モデルが取得されます。このモデルは、文の低次元意味ベクトル表現文埋め込みを取得できるだけでなく、2 つの文間の意味的類似性を予測することもできます。

2.2 DSSM モデル構造

DSSM モデルは、一般に、入力層、プレゼンテーション層、マッチング層の 3 つの層に分けることができます。

  • 入力層は、ユーザーとアイテムの情報を数値特徴入力に変換します。
  • プレゼンテーション層はさらに、ニューラル ネットワーク モデルを使用して特徴表現を学習します。
  • マッチング層は、ユーザーの特徴ベクトルとアイテムの特徴ベクトルの間の類似度を計算します。

構造は次の図に示されています。

3. ツイン タワー モデルのコードの一部

  • 動画のデータセット(ユーザー情報、動画情報、評価行動情報)を読み込んで、データ形式処理、特徴列符号化、データスプライシングを行い、モデル学習の類似度対象として評価を正規化する(注:ここは別の方法でもよい)スコアをしきい値に分割し、分類タスクに従って解決することを考えます)
import pandas as pd
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import matplotlib.pyplot as plt

### 1. 读取电影数据集(用户信息、电影信息、评分行为信息)

df_user = pd.read_csv("./ml-1m/users.dat",
                      sep="::", header=None, engine="python",encoding='iso-8859-1',
                      names = "UserID::Gender::Age::Occupation::Zip-code".split("::"))

df_movie = pd.read_csv("./ml-1m/movies.dat",
                       sep="::", header=None, engine="python",encoding='iso-8859-1',
                       names = "MovieID::Title::Genres".split("::"))

df_rating = pd.read_csv("./ml-1m/ratings.dat",
                        sep="::", header=None, engine="python",encoding='iso-8859-1',
                        names = "UserID::MovieID::Rating::Timestamp".split("::"))


import collections

# # 每个电影只保留频率最高(代表性)的电影题材标签
def get_highrate_genre(x):
    sub_values = {
    
    }
    for genre in x.split("|"):
        sub_values[genre] = genre_count[genre]
    return sorted(sub_values.items(), key=lambda x:x[1], reverse=True)[0][0]

df_movie["Genres"] = df_movie["Genres"].map(get_highrate_genre)
df_movie.head()


# #### 给特征列做序列编码
def add_index_column(param_df, column_name):
    values = list(param_df[column_name].unique())
    value_index_dict = {
    
    value:idx for idx,value in enumerate(values)}
    param_df[f"{
      
      column_name}_idx"] = param_df[column_name].map(value_index_dict)


add_index_column(df_user, "UserID")
add_index_column(df_user, "Gender")
add_index_column(df_user, "Age")
add_index_column(df_user, "Occupation")
add_index_column(df_movie, "MovieID")
add_index_column(df_movie, "Genres")

# 合并成一个df
df = pd.merge(pd.merge(df_rating, df_user), df_movie)
df.drop(columns=["Timestamp", "Zip-code", "Title"], inplace=True)

num_users = df["UserID_idx"].max() + 1
num_movies = df["MovieID_idx"].max() + 1
num_genders = df["Gender_idx"].max() + 1
num_ages = df["Age_idx"].max() + 1
num_occupations = df["Occupation_idx"].max() + 1
num_genres = df["Genres_idx"].max() + 1

num_users, num_movies, num_genders, num_ages, num_occupations, num_genres

# #### 评分的归一化

df["Rating"] = df["Rating"].map(lambda x : (x-min_rating)/(max_rating-min_rating)) # 评分作为两者的相似度
# df["is_rating_high"] = (df["Rating"]>=4).astype(int)  # 可生成是否高评分作为分类模型的类别标签
df.sample(frac=1).head(3)
# 构建训练集特征及标签
df_sample = df.sample(frac=0.1)  # 训练集抽样
X = df_sample[["UserID_idx","Gender_idx","Age_idx","Occupation_idx","MovieID_idx","Genres_idx"]]
y = df_sample["Rating"]

  • 2 タワー モデルを構築し、ユーザー/製品間の類似性をトレーニングして予測します。さらに、ユーザーと製品の特徴表現を抽出して、その後の直接決済の類似性を容易にすることができます。
def get_model():
    """搭建双塔DNN模型"""

# 输入
user_id = keras.layers.Input(shape=(1,), name="user_id")
movie_id = keras.layers.Input(shape=(1,), name="movie_id")
genre = keras.layers.Input(shape=(1,), name="genre")

# user 塔
user_vector = tf.keras.layers.concatenate([
    layers.Embedding(num_users, 100)(user_id), 
    layers.Embedding(num_ages, 2)(age), 
    layers.Embedding(num_occupations, 2)(occupation)
])
user_vector = layers.Dense(32, activation='relu')(user_vector)
user_vector = layers.Dense(8, activation='relu', 
                           name="user_embedding", kernel_regularizer='l2')(user_vector)

# item 塔
movie_vector = tf.keras.layers.concatenate([
    layers.Embedding(num_genres, 2)(genre)
])
movie_vector = layers.Dense(32, activation='relu')(movie_vector)
movie_vector = layers.Dense(8, activation='relu', 
                            name="movie_embedding", kernel_regularizer='l2')(movie_vector)

# 每个用户的embedding和item的embedding作点积
dot_user_movie = tf.reduce_sum(user_vector*movie_vector, axis = 1)
dot_user_movie = tf.expand_dims(dot_user_movie, 1)

output = layers.Dense(1, activation='sigmoid')(dot_user_movie)

return keras.models.Model(inputs=[user_id, gender, age, occupation, movie_id, genre], outputs=[output]) 

model = get_model()
model.compile(loss=tf.keras.losses.MeanSquaredError(), 
              optimizer=keras.optimizers.RMSprop())
fit_x_train = [
    X["UserID_idx"], 
    X["Age_idx"],
    X["Occupation_idx"],
    X["MovieID_idx"],
    X["Genres_idx"]
]

history = model.fit(
    x=fit_x_train,
    y=y,
    batch_size=32,
    epochs=5,
    verbose=1
)

# ### 3. 模型的预估-predict
# 输入前5个样本并做预测

inputs = df[["UserID_idx","Gender_idx","Age_idx","Occupation_idx","MovieID_idx", "Genres_idx"]].head(5)
display(df.head(5))

# 对于(用户ID,召回的电影ID列表),计算相似度分数
model.predict([
    inputs["Age_idx"],
    inputs["Occupation_idx"],
    inputs["MovieID_idx"],
    inputs["Genres_idx"]
])

# 可以提取模型中的user或movie item 的embedding
user_layer_model = keras.models.Model(
    inputs=[model.input[0], model.input[1], model.input[2], model.input[3]],
    outputs=model.get_layer("user_embedding").output
)

user_embeddings = []
for index, row in df_user.iterrows():
    user_id = row["UserID"]
user_input = [
    np.reshape(row["UserID_idx"], [1,1]),
    np.reshape(row["Gender_idx"], [1,1]),
    np.reshape(row["Age_idx"], [1,1]),
    np.reshape(row["Occupation_idx"], [1,1])
]
user_embedding = user_layer_model(user_input)

embedding_str = ",".join([str(x) for x in user_embedding.numpy().flatten()])
user_embeddings.append([user_id, embedding_str])
df_user_embedding = pd.DataFrame(user_embeddings, columns = ["user_id", "user_embedding"])
df_user_embedding.head()

最初の5サンプルを入力して予測し、ユーザーと動画の類似度マッチングスコアを計算し、さらにマッチング度の高い動画をユーザーに推薦します。

おすすめ

転載: blog.csdn.net/weixin_38037405/article/details/130467646