機械学習に基づくコンテンツ推奨アルゴリズムとその心理学と社会学への影響

機械学習に基づくコンテンツ推奨アルゴリズムは、現在さまざまなコンテンツAPPで広く使用されています。ショッピング、ファッション、ニュース相談、学習などの分野で、ユーザーの好みに応じて、より正確なユーザー像やコンテンツのレコメンドを行います。このようなアルゴリズムは、年齢、性別などのユーザーの特性をより正確に分析できるだけでなく、長期的な追跡と保守を通じてユーザーの好みを大まかに判断することもできます。しかし、過度に正確な推奨事項がユーザーに与える潜在的な心理的影響は、科学界からますます注目を集めています。この論文では、まず推奨アルゴリズムの基本原理を紹介し、次にそのアルゴリズムがユーザーに与える心理的および社会学的影響を紹介します。

1. レコメンデーションアルゴリズムの概要

ユーザーの閲覧または購入行動は、特定の粒度を単位として、履歴タイムライン上に一連のチェーンを形成できます。ただし、細分化されたレコメンドシナリオは大きく 2 つに分類できます。1 つは単純な相互作用であり、もう 1 つは複雑な相互作用です。

カテゴリ A、シンプルなインタラクティブ カテゴリ: 通常はニュース、短いビデオ。ユーザーがコンテンツに滞在する時間は、主にブラウジング、単純な連打、いいね、その他の返信を含めて、分、秒単位で測定されることが予想されます。ユーザーは 1 日に何百もの詳細なブラウジング動作を生成する可能性があります。

カテゴリ B、複雑なインタラクション カテゴリ: 通常はショッピングと学習。ユーザーは 1 つの種類のコンテンツに集中し、特定の 1 つのコンテンツに長時間滞在するため、返品、決済、評価など、より複雑なトランザクションが発生します。ユーザーが 1 日に生成する粒子はほんの少量です。

これら 2 種類の推奨アルゴリズムは、データ モデルとトレーニング方法に重点を置いていますが、それでもいくつかの共通点があります。

1.1 コンテンツモデル

機械学習や単純なパターン分類アルゴリズムで処理できるようにコンテンツの属性を記述するには、コンテンツをさまざまな属性を含むベクトルに変換する必要があります。

音楽など、多くの属性が含まれる場合があります。ジャンル、作曲、歌唱、アルバムなどの列挙型のスカラーと、波形処理後に得られる変換ドメイン ベクトルがあり、多くの場合、オーディオ トラック全体の浮き沈み、エネルギー間隔、周波数の組み合わせが反映されます。

ここに画像の説明を挿入

一般的な作業データには、長さ 16 のスカラー フィールドと長さ 128 のベクトル フィールドが含まれており、144 の特徴ベクトルを形成します。コンテンツ モデルでは、このベクトルは特定の曲を表します。

M ⃗ = [ M c ⃗ M v ⃗ ] \vec{M}=\begin{bmatrix} \vec{M_c} & \vec{M_v} \end{bmatrix}M =[Mc Mv

ユーザーの閲覧習慣はベクトルM ⃗ \vec{M}です。M ユーザーの n 回の閲覧履歴を表す単位単位のベクトルのリスト。
{ M ⃗ 0 , M ⃗ 1 , M ⃗ 2 , . . . , M ⃗ n − 1 } \{\vec{M}_0,\vec{M}_1,\vec{M}_2,..., \vec{M}_{n-1}\}{ M 0M 1M 2... M n 1}

1.2 ユーザーのポートレートを使用しない直接予測

カテゴリ A については、大規模な閲覧チェーンが存在するため、単純かつ単純な予測アルゴリズムを採用できます。このアルゴリズムは、K 個のブラウズ データを入力して次の粒子のスカラー予測を試みます。

{ M ⃗ t − K , M ⃗ t − K + 1 , . , M ⃗ t − 1 } = = > M c , t ⃗ \{\vec{M}_{tK},\vec{M}_{t-K+1},...,\vec{M} _{t-1}\}==> \vec{M_{c,t}}{ M t KM t K + 1... M t 1}==>Mc t

予測されたスカラーが取得されると、そのスカラーに関係するアルバム、歌手、およびジャンルをユーザーに推奨できます。

1.3 ユーザーモデルに基づく推奨事項

ユーザー モデルは、コンテンツ視聴者を数学的に説明したものです。ユーザーの性別、年齢など、デジタル嗜好データなど。現在、そのようなアルゴリズムには多くのカテゴリがあり、オープンソース モデルも多数あります。さらに興味深いのは、ユーザーモデルに基づくレコメンデーションでは、年齢や性別など、自然な人が理解できるユーザー特性を正確に取得する必要性が重視されていないことです。たとえば、ある種の推奨アルゴリズムは、情報の圧縮と解凍のための生成アルゴリズムに似ています。

このアルゴリズムは、ユーザー特徴抽出 (学習) と特徴ベースの推奨の 2 つのステップに分かれています。このアイデアは、ユーザーの習慣から特徴文字列 {M} の K グループをランダムに抽出してモデルに入力し、エリア A で NN ネットワークを通過し、ユーザーのポートレート P を出力し、エリア B を通じてコン​​テンツ モデル {M'} を生成するというものです。トレーニングの目的は、P のスケールを制御し、出力コンテンツ セットがユーザーの履歴データ セットと最も一致することを期待することです。

肖像画と推薦

この場合、P はユーザーの特徴を表しますが、ベクトルの特定の意味は重要ではなくなります。多数のユーザーがいる Web サイトでは、ユーザーの完全なセットに対して完全なトレーニングを行う必要はなく、小規模ベクトル P のカテゴリを収集し、テーブルを直接参照して推奨コンテンツを取得するだけで済みます。新規ユーザーのカテゴリーに応じて。

2. 正確な推奨による悪影響

コンテンツの推奨が正確すぎると、予期せぬ心理的および社会学的影響、通常は情報の繭やグループの分離が発生します。

2.1 インフォメーションコクーンルーム

典型的な影響は情報のコクーンです。ユーザーがコンテンツ Web サイトを初めて閲覧するとき、得られる相談の属性は非常に広範囲かつランダムであり、ホームページに表示されるコンテンツの確率分布は滑らかで均一です。この期間は、アルゴリズムがユーザーの習慣を収集する段階です。

閲覧数が増加するにつれて、推薦アルゴリズムはユーザーの好みをより正確に把握できるようになり、ユーザーが取得したコンテンツがいくつかの興味のあるポイントに集中し、アルゴリズムが収束します。

推奨される環境設定
特に影響を受けるのは、レコメンドのアルゴリズムを理解していないユーザーであり、毎日朝起きるとコンテンツが目に入るということが「お気に入り」であることによる現象だとは考えないでしょう。ユーザーが取得する情報はアルゴリズムによって狭いセットに制限されており、潜在的に重要な情報を学ぶことができません。

この状況は、学習や科学の Web サイトでは問題ありません。しかし、総合コンテンツ Web サイトにはデメリットもあります。ユーザーが一定期間大きな心理的プレッシャーにさらされ、ネガティブなコンテンツを検索すると仮定すると、推奨アルゴリズムが火に油を注ぐ可能性があります。特にうつ病になりやすいユーザーの場合、症状を悪化させる可能性があります。

2.2 グループの断片化

アルゴリズムはユーザーの習慣に基づいてユーザーをプロファイリングし、コンテンツを正確にプッシュします。また、ユーザーはポートレートの後にプッシュされるコンテンツの影響を受けるため、グループ集約効果が生じます。人口の観点から見ると、アルゴリズムが織りなす情報の繭の中に、さまざまなシンボルによって形成されるコミュニティが集まり、同じ性質を持つ個体が集まり、集団の分断が進むことになる。
ここに画像の説明を挿入
これにより、グループ全体が継続的に分割され、強化され、多くの安定した包括的なクラスが形成されます。これらのクラスは、アルゴリズムによってコンパイルされた繭の中に存在し、統計的に明らかな小さな確率のイベントがそれぞれの繭内で拡大され、注意が必要な一部の公共の問題は異なる繭内で分離できないため、互いの観点から考えることができません。そしてグループ間の合意。時間が経つにつれて、人口全体が分化し、安定性を失います。

3. 対応の提案

アルゴリズムの観点からは、心理学や社会学に関わる分野に新たなインプットを導入する必要がある。たとえば、うつ病になりやすいことが判明した後、治癒部門のコンテンツをプッシュし、推奨アルゴリズムのリッチさを高めます。

おすすめ

転載: blog.csdn.net/goldenhawking/article/details/131024655