[翻訳] Bing-CF-IDF+: セマンティック駆動のニュース レコメンダー システム

この記事はLin。これは交換と学習のみを目的としており、すべての大物にアドバイスを求めています。
翻訳は簡単ではありません。ご支援いただきありがとうございます。転載のソースを示してください。どうもありがとうございました。

翻訳: Bing-CF-IDF+: セマンティック駆動のニュース レコメンダー システム

翻訳Bing-CF-IDF+: セマンティクス主導のニュース レコメンダー システム

要約:ネットワーク内のニュースの数が増え続けるにつれて、関連するコンテンツを検索する需要も増加しています。セマンティック駆動型レコメンデーション システムは、ユーザーの読書記録からユーザー ポートレートを生成し、ニュースと照合して、未読のニュース アイテムをユーザーにレコメンドします。この論文では、高度なセマンティック駆動型 CF-IDF+ ニュース推奨システムを提案します。ニュースレコメンドシステムは、ニュース記事の概念とそれに関連する概念を識別してユーザーのポートレートを構築し、ユーザーが読んでいないニュース情報を分析および処理します。この分野の性質とドメイン知識への依存により、概念ベースのレコメンデーション システムは、ニュース アイテム内の多くの高頻度の名前付きエンティティを無視しますが、ニュース アイテム関連の情報は含めます。したがって、名前付きエンティティの暗黙的な情報を Bing 距離で見つけ、それを CF-IDF+ 推奨方法に補足します。これにより、当社の Bing-CF-IDF+ 推奨方法は、F1 値とカッパ統計に関して、概念ベースの CF-IDF および CF-IDF+ 推奨方法である従来の TF-IDF よりも優れています。

翻訳者のメモ

ここでのカッパ統計は、私が理解しているように、カッパ係数とも呼ばれるカッパ係数を指します。分類精度の尺度です。

キーワード:ニュース レコメンデーション システム、コンテンツ ベースのレコメンデーション システム、セマンティック ネットワーク、固有表現、Bing-CF-IDF+

概要。Web 上のニュースの量が増え続ける中、関連するコンテンツを自動的に検索する必要性が高まっています。セマンティクス主導のニュース レコメンデーション システムは、以前に読んだ記事で見つかった情報に基づくユーザー プロファイルと新しいニュースを照合することで、未読アイテムをユーザーに提案します。このホワイト ペーパーでは、最先端のセマンティクス駆動型 CF-IDF+ ニュース レコメンデーション システムの拡張を提案します。このシステムは、特定されたニュース アイテムの概念とそれに関連する概念を使用して、ユーザー プロファイルを構築し、未読のニュース メッセージを処理します。ドメインの特異性と知識ベースへの依存により、このような概念ベースのレコメンダーは、ニュース項目のコンテンツに関する関連情報を含む、ニュース項目で見つかった多くの非常に頻繁な名前付きエンティティを無視します。したがって、Bing ベースの距離測定を使用して、名前付きエンティティで見つかった情報を追加することにより、CF-IDF+ レコメンダーを拡張します。当社の Bing-CF-IDF+ レコメンダーは、従来の TF-IDF および概念ベースの CF-IDF および CF-IDF+ レコメンダーよりも優れています。F 1 スコアとカッパ統計量。

キーワード。ニュース推薦システム; コンテンツベースのレコメンダー; セマンティック Web; 名前付き実体; Bing-CF-IDF+;

1 はじめに

Web 上の情報の流れは、これまでにない速さで成長しており、Web ユーザーのニーズを満たす情報量を超えています。ネットワークにアクセスするユーザーの基本的なニーズを満たすためには、関連するコンテンツと無関係なコンテンツを自動的かつ正確に区別することが非常に重要です。レコメンダ システムは、メディアおよびニュース コンテンツ処理の効率的なツールであることが証明されています。レコメンデーション システムは、ドメイン モデルなどのツールを使用して、最近アクセスしたコンテンツを集約し、ユーザーのポートレートを作成できます。類似性の観点から新しいコンテンツを処理することは、ユーザーの肖像とコンテンツ間の類似性を計算し、過剰な情報を処理するためのより効率的でインテリジェントなプログラムを実現し、パーソナライズされた Web エクスペリエンスをサポートするのに役立ちます。

Web 上の増え続ける情報ストリームは、ニーズに合った情報にアクセスしようとする急速に増加する Web ユーザーの人口を徐々に圧倒しています。関連するコンテンツと関連しないコンテンツを区別するための自動化された正確なアプローチは、Web にアクセスする人々の基本的なニーズを満たすために最も重要になってきています。レコメンダ システム [1] は、メディアやニュース コンテンツを効率的に処理するための強力なツールであることが証明されています。このようなシステムは、最近閲覧したコンテンツに関する情報を収集することによって、たとえばドメイン モデル [18] を利用することによって、ユーザー プロファイルを構築します。新しいコンテンツは同様の方法で分析されるため、ユーザー プロファイルとコンテンツ間の類似性を計算できるため、情報の過負荷に対処するための効率的でインテリジェントな手順を通じて、パーソナライズされた Web エクスペリエンス [19、20] がサポートされます。

一般に、レコメンダー システムは、コンテンツ ベースのレコメンダー システム、協調フィルタリング レコメンダー システム、およびハイブリッド レコメンダー システムの 3 つのカテゴリに分類されます。コンテンツ ベースのレコメンデーション システムは、未発見のニュース、メディア、およびその他のコンテンツをユーザーの興味と照合してレコメンデーションを行います。協調フィルタリング レコメンデーション システムは、類似したユーザーを見つけて、最も類似したユーザーにそのユーザーが気に入った新しいコンテンツをレコメンドします。ハイブリッド レコメンデーションは、 2つを組み合わせました。したがって、(このホワイト ペーパーのトピックに従って)コンテンツ ベースのレコメンダー システムのみを以下で説明します。

従来、レコメンダー システムには、コンテンツ ベースのレコメンダー、協調フィルタリングのレコメンダー、ハイブリッドのレコメンダーの 3 種類があります [5]。コンテンツベースのレコメンダーは、目に見えないニュース項目やメディアなどのコンテンツを使用して、ユーザーの興味に一致させます。協調フィルタリング レコメンダーは、類似ユーザーを見つけて、最も類似したユーザーに興味のある新しいコンテンツを推奨します。ハイブリッド レコメンダーは、前者の 2 つの方法を組み合わせます。この論文では、特にニュースの推奨を目的とした新しいコンテンツベースのレコメンダーが提案されています。したがって、このホワイト ペーパーの残りの部分では、コンテンツ ベースのレコメンデーション システムのみについて説明します。

コンテンツ ベースのレコメンデーション システムは、ユーザーの肖像とニュース コンテンツの類似性に基づいて、未読のコンテンツをユーザーにレコメンドします。類似度を計算するにはいくつかの方法があり、各尺度は異なる種類の情報を使用し、1 つはニュースのテキスト文字列に基づいており、もう 1 つは synset または概念に基づいています。このホワイト ペーパーでは、従来の TF-IDF および CF-IDF レコメンダー システムよりも優れていることが証明されている、セマンティック ドリブンの CF-IDF+ レコメンダー システムを拡張します。TF-IDF は用語に基づいて類似性を計算し、CF-IDF は概念の意味をさらに高め、CF-IDF+ はユーザーの肖像画やニュース記事の関連する概念をさらに利用して、より正確な推奨結果を提供します。

コンテンツ ベースのニュース レコメンダーは、ニュース アイテムのコンテンツとユーザー プロファイルの類似性に基づいて、未読のニュース アイテムを提案します。類似度は、さまざまな方法で計算できますが、各尺度は異なる種類の情報を利用します。ニュース項目に含まれる用語 (テキスト文字列) に基づく測定値もあれば、synset または概念に基づく測定値もあります。この論文では、従来の TF-IDF [21] および CF-IDF [12] レコメンダーよりも優れていることが既に証明されている、以前に提案されたセマンティクス駆動型 CF-IDF+ レコメンダー [9] の拡張を提案します。TF-IDF が用語ベースの類似性を採用しているのに対し、CF-IDF は概念の概念を追加します。CF-IDF+ はさらに、ニュース記事やユーザー プロファイルから抽出された概念に関連する概念を利用して、より正確な表現を提供します。

コンテンツ ベースのレコメンデーションのもう 1 つのアプローチは、ドキュメントで名前付きエンティティを使用することです。名前付きエンティティは、オブジェクト (人や場所の名前など) のテキスト インスタンスと考えることができます。通常、名前付きエンティティはテキスト分析と情報抽出に使用されます。たとえば、より効率的な検索のサポート、質問応答アルゴリズム、テキスト分類および推奨システムなどです。最近、システムは大量の構造化または半構造化テキストを処理しようとしています。無関係な単語を無視し、名前付きエンティティのみを考慮することにより、類似度計算の次元を大幅に削減できるため、推奨の精度が確保され、コストが削減されます。私たちのニュース推奨システムでは、コンセプトとシンセットもこの方法で処理されます。これは、システムを補完するのにも役立つ可能性があります。

別のコンテンツベースの推奨方法は、ドキュメント内の名前付きエンティティに基づいています。名前付きエンティティは、人物や場所などのオブジェクトの実世界のインスタンス化と見なすことができます。通常、名前付きエンティティは、テキスト分析と情報抽出の目的で使用されます。たとえば、より効率的な検索と質問応答アルゴリズム、テキスト分類、レコメンダー システムをサポートすることによって使用されます [22]。後者のシステムは、多くの場合、大量の (半) 非構造化テキストを処理する必要があります。無関係な単語を省略し、名前付きエンティティのみを考慮することで、類似度計算の次元を大幅に削減できるため、低コストでありながら正確なレコメンデーションが可能になります。これは、ニュース レコメンダーで採用されている概念と synset の使用法とも一致しており、システムへの有益な追加となる可能性があります。

名前付きエンティティはよくニュースに取り上げられますが、概念ベースのレコメンダー システムはこの部分に注意を払わないため、ほとんど無視されます。したがって、CF-IDF+ 方式は、情報という名前のエンティティによって提供されるすべての情報を使用するわけではありません。この問題に対する合理的な解決策は、何らかの方法を使用して、Web 検索エンジンからのさまざまな Web ページでこれらの名前付きエンティティの出現回数をカウントすることです。以前の作業では、Google Named Entities 関連の機能を使用していましたが、API が無料でなくなった後、Bing に切り替えました。Bing は、この記事の執筆時点ではまだ無料です。

Named entities appear often in news items, yet are mostly neglected because they are, for instance, not present in domain ontologies that underly concept-based recommenders. As a consequence, the CF-IDF+ method does not use all the information that is provided by named entities. A possible solution to this problem is the introduction of a methodology that takes into consideration page counts gathered by Web search engines such as Google or Bing for specific named entities. In earlier work, originally, we made use of Google named entities. However, we had to move to Bing as the usage of Google API was not for free anymore, while Bing API usage was still for free.

译者注

  1. 截至翻译日期,原『论文-参考文献』中所列的Bing API网页已经不可被访问,相关功能转移至Azure中,可以申请一定时间内免费试用
  2. Bing基本服务: https://cn.bing.com/partners/developers#LocalBusinessSearch
  3. 微软Azure-Bing Entity Search: https://azure.microsoft.com/en-us/services/cognitive-services/bing-entity-search-api/

本论文所属推荐方法将在 CF-IDF+ 方法的基础上,考虑新闻中所含命名实体的信息。即,结合 CF-IDF+ 方法和通过 Bing 搜索引擎提供的免费 API 计算的相似度。我们将实现的Bing-CF-IDF+ 推荐系统,由两个部分独立加权组成:CF-IDF+ 推荐系统基于概念计算相似度;Bing推荐系统基于命名实体计算相似度。Bing-CF-IDF+ 推荐系统仅考虑未在概念集中出现的命名实体。这项工作的主要作用是,新闻推荐系统中,领域知识的概念和相关概念(CF-IDF+)与基于搜索引擎的距离度量的综合利用。

この論文で提案されたレコメンダーは、ニュース項目の名前付きエンティティで与えられた情報を使用することにより、CF-IDF+ メソッドを拡張します。これは、CF-IDF+ メソッドの結果と、Bing 検索エンジンによって計算された類似性を組み合わせたものです。Bing 検索エンジンは、調査の実施時に無料の API を提供していました [3]。私たちが提案するレコメンダー Bing-CF-IDF+ は、個別に重み付けされた 2 つの部分で構成されています。CF-IDF+ レコメンダーは概念に基づいて類似度を計算しますが、Bing レコメンダーは名前付きエンティティに基づいて類似度を計算します。概念に表示されない名前付きエンティティのみが、Bing-CF-IDF+ レコメンダーによって考慮されます。この作業の主な貢献は、概念とドメイン オントロジー (CF-IDF+) からの関係と、名前付きエンティティと検索エンジン ベースの距離測定 (Bing) の共同利用です。

后文将依次描述一下内容:第2章,将讨论在已有的推荐系统方面的相关工作;第3章将对我们的方法及其实现作介绍;第4章,评估Bing-CF-IDF+ 的性能,并与 CF-IDF+、CF-IDF、 TF-IDF推荐系统作对比。第5章,提出结论,并补充一些未来的工作方向。

The remainder of this paper is organized as follows. In Sect. 2, related work on previously proposed recommenders is discussed. Section 3 provides an introduction to our method and its implementation, and Sect. 4 evaluates the performance of Bing-CF-IDF+, compared against CF-IDF+, CF-IDF, and TF-IDF recommenders. Section 5 provides conclusions and some additional directions for future work.

2 相关工作

目前,已经存在许多基于配置的新闻推荐系统(profile-based recommenders)的研究。这些推荐系统基于用户的历史浏览记录构建用户画像,在用户画像与新闻内容之间计算相似度,以此向用户推荐他们未读过的文章。本章,将主要分别介绍基于词项、同义词集、概念、关系和命名实体的推荐系统。

プロファイルベースの (ニュース) レコメンダーに関する研究は数多く行われています [14]。これらのレコメンダーは、ニュース項目と、以前に読んだ記事から派生したユーザー プロファイルとの間の類似性レベルを計算し、これらを使用して未公開の項目を推奨します。このセクションでは、用語、synset、概念、関係、および名前付きエンティティを使用するレコメンダーに焦点を当てます。

2.1 用語ベースのレコメンダ システム

ニュース レコメンデーション システムでは、TF-IDF に基づく方法が最も一般的に使用される方法の 1 つです。この方法は、用語頻度 (TF; 用語が文書内で出現する頻度) と逆文書頻度 (IDF; 用語を含む文書の数に関連する尺度) を相関させます。ほとんどの方法は、コサイン類似度 (consine similarity) を使用して、ユーザーとニュース記事の類似度を計算します。

ニュース項目を推奨するために最も一般的に使用される方法の 1 つである TF-IDF [21] は、ニュース項目の用語に基づいています。この方法では、ドキュメント内の特定の用語の頻度である用語頻度 (TF) と、これらの用語を含むドキュメントの割合の尺度である逆ドキュメント頻度 (IDF) [16] を組み合わせます。この方法は、コサイン類似度法と組み合わせて、ユーザーとニュース記事の類似性を判断することがよくあります。

単語を含む文書d ∈ D d \in Dの場合dεD、ある単語t ∈ T t \in TtεTの単語頻度tf ( t , d ) tf(t, d)t f ( t ,d )とその逆文書頻度idf ( t , d ) idf(t, d)i d f ( t ,d )計算方法は次のとおりです。

ドキュメント d ∈ D における用語 t ∈ T の用語頻度 tf(t, d) と、それに関連付けられた逆ドキュメント頻度 idf(t, d) は、次のように計算されます。

tf ( t , d ) = nt , d Σ knt , d tf(t, d) = \frac{n_{t,d}}{\Sigma_k{n_{t, d}}}t f ( t ,d )=Sknt , dnt , d

idf ( t , d ) = log ⁡ ∣ D ∣ ∣ d ∈ D : t ∈ d ∣ idf(t, d) = \log{\frac{|D|}{|d \in D : t \in d| }}i d f ( t ,d )=ログ_dεD:tεd D

単語頻度は、ニュース コンテンツ内の単語の出現数に対する単語の総数の比率です。逆ドキュメント頻度は、ニュースの総数∣ D ∣ |D|です。D 単語tttのニュース数そして、TFとIDFを掛け合わせてTF-IDFを求める。TF-IDF 値が大きいほど、その単語が現在のニュースに表示される頻度が高くなりますが、他のニュース コンテンツには表示されません。

ここで、用語頻度は、その用語ttの頻度を除算することによって計算されますtがニュース項目に出現d ( nt , d ) d (nt,d)d ( nt , _d )ニュース項目ddのすべての用語の合計数d . 逆ドキュメント頻度は、ニュース項目の総数∣ D ∣ |D|D ∣ は、どの期間のニュース項目の量でtttを見つけることができます。その後、TF-IDF は、TF と IDF の乗算として計算されます。

tf - idf ( t , d ) = tf ( t , d ) × idf ( t , d ) tf\verb|-|idf(t, d) = tf(t, d) \times idf(t, d)t f - i d f ( t ,d )=t f ( t ,d )×i d f ( t ,d )

最後に、ユーザーの好みと未読記事との類似度は、コサイン類似度関数によって計算されます。

その後、TF-IDF は、TF と IDF の乗算として計算されます。

simtf - idf ( du , dr ) = dr ⋅ du ∣ ∣ dr ∣ ∣ × ∣ ∣ du ∣ ∣ sim_{tf\verb|-|idf(d_u, d_r)} = \frac{d_r \cdot d_u}{|| d_r|| \times ||d_u||}_t f - i d f ( dあなたdr)=dr×dあなたdrdあなた

その中で、d_r博士drユーザーの好みのベクトルdu d_uを表しますdあなた未読ニュース ベクトルを表します。simtf - idf ( du , dr ) sim_{tf\verb|-|idf(d_u, d_r)}_t f - i d f ( dあなたdr)値が大きいほど、未読ニュースがユーザーの好みに近いことを示します。全ての未読ニュースのうち、ユーザの似顔絵との類似度が一定値以上のニュースを当該ユーザに推薦する。

どこでdr d_rdrはユーザーの関心のベクトル表現であり、du d_udあなたは、未読のニュース アイテムのベクトル表現です。simTF-IDF が大きいほど、未読ニュースとユーザーの関心が類似していることを示します。ユーザープロファイルとの類似値が特定のカットオフ値よりも高いすべての未読ニュースアイテムが、対応するユーザーに推奨されます。

2.2 同義語頻度に基づく推薦システム

TF-IDF に似た方法として SF-IDF (Syset Frequency - Inverse Document Frequency; Syset Frequency - Inverse Document Frequency) があります。この方法は、用語の影響を考慮するだけでなく、synset もさらに考慮します。シソーラスは、WordNet のようなセマンティック ディクショナリから取得されます。意味のあいまいさのために、単語には複数の同義語がある可能性があるため、あいまいさがあります。たとえば、[2] によって提案され、[15] で実装された適応型 Lesk アルゴリズム (Adapted Lesk アルゴリズム) です。

A similar method to the TF-IDF method is the Synset Frequency - Inverse Document Frequency (SF-IDF) method [6]. This method uses synonym sets (synsets) associated to terms rather than terms alone. Synsets are provided by a semantic lexicon such as WordNet [10]. Due to ambiguity, a single term can have multiple synsets, thus requiring word sense disambiguation, e.g., by using the adapted Lesk algorithm proposed in [2] and implemented in [15].

译者注

WordNet 是英文语义词典,可以以在线的方式获取同义词、近义词信息等。中文方面,也有类似网站,可自行从开源社区或某些高校、研究院网站获取。

SF-IDF值及其余弦相似度的计算与前文介绍的TF-IDF值几乎一样,只是将词项 t t t 替换为同义词 s,即 s f ( s , d ) = n s , d / Σ k n k , d sf(s, d) = {n_{s, d}}/{\Sigma_k{n_{k,d}}} sf(s,d)=ns,d/Σknk,d 并且 i d f ( s , d ) = l o g ∣ D ∣ / ∣ d ∈ D : s ∈ d ∣ idf(s, d) = log{|D|/|d \in D : s \in d|} idf(s,d)=logD/dD:sd,则

The SF-IDF measure and its corresponding cosine similarity scores are computed using the same equations as introduced for TF-IDF, only by replacing term t t t by synset s s s, so that s f ( s , d ) = n s , d / Σ k n k , d sf(s, d) = n_{s,d}/\Sigma_k{n_{k,d}} s f ( s ,d )=ns d/ Sknk dそしてidf ( s , d ) = log ∣ D ∣ / ∣ d ∈ D : s ∈ d ∣ idf(s, d) = log |D| / |d ∈ D : s ∈ d|i d f ( s ,d )=l o g D / dεD:sεd ​​、したがって

sf - idf ( s , d ) = sf ( s , d ) × idf ( s , d ) sf\verb|-|idf(s, d) = sf(s, d) \times idf(s, d)s f - i d f ( s ,d )=s f ( s ,d )×i d f ( s ,d )

その後、上で定義したコサイン類似度を使用して、sim SF - IDF sim_{SF\verb|-|IDF}を計算します。_S F - I D Fそれでおしまい。

次に、以前に定義されたコサイン類似度が sim SF の計算に使用されます- IDF sim_{SF\verb|-|IDF}_S F - I D F.

2.3 概念ベースの推薦システム

概念頻度逆ドキュメント頻度法は、ドメイン知識の概念を使用して類似度を計算します。これは、用語または synset を直接使用する場合とは異なります。記事の概念は、自然言語処理 (NLP、自然言語処理) エンジンを介して渡されます。ドキュメントごとに、生成された概念がベクトルに格納され、これらのベクトルを使用して CF-IDF 値を計算することもできます。TF-IDF および SF-IDF と同様に、CF-IDF 値は次のように計算されます。

Concept Frequency - Inverse Document Frequency (CF-IDF) メソッド [12] は、用語や synset ではなく、ドメイン オントロジーの概念を使用して類似度を計算します。記事の概念は、自然言語処理 (NLP) エンジンを使用して取得されます。すべてのドキュメントについて、結果の概念がベクトルに格納され、これらのベクトルを使用して CF-IDF 測定値を計算できます。TF-IDF や SF-IDF と同様、コンセプトccのスコアcは次のように計算されます。

cf - idf ( c , d ) = cf ( c , d ) × idf ( c , d ) cf\verb|-|idf(c, d) = cf(c, d) \times idf(c, d)c f - i d f ( c ,d )=c f ( c ,d )×idf(c,d)

此时,概念频率与逆文档频率定义分别为 c f ( c , d ) = n c , d / Σ k n k , d cf(c, d) = n_{c,d} / \Sigma_k{n_{k,d}} cf(c,d)=nc,d/Σknk,d i d f ( c , d ) = l o g ∣ D ∣ / ∣ d ∈ D : c ∈ d ∣ idf(c,d) = log|D| / |d \in D : c \in d| idf(c,d)=logD/dD:cd s i m C F − I D F sim_{CF-IDF} simCFIDFコサイン類似度の計算は同じままです。

ここで、頻度と逆文書頻度はcf ( c , d ) = nc , d / Σ knk , d cf(c, d) = n_{c,d} / \Sigma_k{n_{k,d}} として定義されますc f ( c ,d )=nc d/ Sknk dそしてidf ( c , d ) = log ∣ D ∣ / ∣ d ∈ D : c ∈ d ∣ idf(c,d) = log|D| / |d \in D : c \in d|i d f ( c ,d )=l o g D / dεD:cεd ​​、それぞれ。コサイン類似度の計算は、sim CF − IDF sim_{CF-IDF}_C F I D F.

2.4 関係ベースのレコメンド システム

SF-IDF と CF-IDF は、関連する同義語または概念で拡張できます。この目的のために、セマンティックレキシコンと用語自体から始めて、他の関連要素を見つけることができます。

SF-IDF と CF-IDF はどちらも、関連する synset または概念が考慮されるように拡張できます。このために、セマンティックレキシコンとオントロジーを使用して、関連する要素を導き出すことができます。

SF-IDF+ [17] では、関連付けられた synset は、関連関係 (WorNet を介して取得できる下位語、反義語、同義語など、27 の固有の意味関係があります) を通じて取得され、SF- に追加されると考えられています。 IDF のベクトル表現。各同義語について、対応する sf-idf+ 値は、SF-IDF 値に事前定義された重みを乗算することによって取得できます。現在の単語に関連付けられた類義語が現在の単語自体よりも重要になることは決してないため、同義語の重みは 0 から 1 の範囲です。式 [7] に示すように、関連する synset がベクトルに追加される方法を示します。

SF-IDF+ [17] では、関連 synset は関係 (WordNet には 27 個の固有の意味的関係 (hyponymy、antonymy、synonymy など) が存在する) によって接続された synset と見なされ、ベクトル表現に追加されます。 SF-IDFから。synset ごとに、元の SF-IDF スコアに事前定義された重みを掛けてスコアが計算されます。関連する synset が synset 自体よりも重要であってはならないため、重みは常に 0 から 1 の範囲です。式で。図 7 には、関連する synset がどのようにベクトルに追加されるかが示されています。

sf - idf + ( s , d , r ) = sf ( s , d ) × idf ( s , d ) × ω r sf\verb|-|idf\verb|+|(s, d, r) = sf( s, d) \times idf(s, d) \times \omega_rs f - i d f + ( s ,d r )=s f ( s ,d )×i d f ( s ,d )×おおr

CF-IDF も同様に拡張されています (CF-IDF+ [9])。3 つの関連付けを通じて、コンテンツ自体の概念から関連する概念が取得されます。

同じ規則が拡張形式の CF-IDF にも適用されます (CF-IDF+ [9])。概念は、スーパークラス、サブクラス、およびドメイン固有の関連概念を持つことができるため、3 つの可能な関係によって関連するオントロジー概念を考慮して、関連する概念を取得します。同様に、概念ccの CF-IDF+ 値cとそれに関連する概念rrドキュメント d のr は次のように計算されます。

cf - idf + ( c , d , r ) = cf ( c , d ) × idf ( c , d ) × ω r cf\verb|-|idf\verb|+|(c, d, r) = cf( c, d) \times idf(c, d) \times \omega_rc f - i d f + ( c ,d r )=c f ( c ,d )×i d f ( c ,d )×おおr

この時点で、cc を使用します。crr重みwr w_rを表すrの 3 つの関係の 1 つwr. 拡張ベクトル表現では、関連付けられた同じ概念 (または同義語) に対して複数の異なる重みがある場合、最大値のみが保持されます。結果のベクトルは、ユーザー プロファイルと未読ニュースの間の余弦類似度を計算するために使用されます。

どこでw_rwrは、 ccの間に存在する前述の 3 つの関係の 1 つに割り当てられた重みを表します。crrr. If multiple weights are computed for the same concept (or synset), only the highest value is retained in the extended vector representation. The extended vector representation is used for computing the similarity between the user profile and the unread news items using the cosine similarity measure.

译者注

同一个关联概念/同义词可能被多个过个本体概念或内容词项关联,即会在关联概念/同义词集中出现多次,并存在多个不同的关联内容。

2.5 基于命名实体的推荐系统

近期,我们又另外尝试在 Bing-SF-IDF+ [7] 算法中,将 SF-IDF+ 与 来自 Bing 的命名实体信息结合,从而获取符合预期的结果。在这里,通过查询 Bing 搜索引擎,并基于包含相应词项的页面数计算相似度,即使是语义词典未收录的命名实体也将被考虑在内。

最近の取り組みでは、Bing-SF-IDF+ [7] で SF-IDF+ と Bing の名前付きエンティティを組み合わせることも試みましたが、有望な結果が得られました。ここでは、セマンティック レキシコンの synset でカバーされていない名前付きエンティティも、Bing 検索エンジンを参照し、ページ数に基づいて類似性を計算することで考慮されました。

計算の結果は、SF-IDF+ と Bing の類似度の加重平均であり、共起類似度によって計算されます。同様に、(関連する) 概念に適用される Bing の利点を調査したいと考えています。

計算は、SF-IDF+ と Bing の類似度スコアの加重平均に基づいており、後者は共起類似度を使用して計算されます。同様に、Bing 名前付きエンティティを (関連する) 概念に適用するメリットを調査したいと考えています。

2.6 パフォーマンス

上記の方法は、長年にわたって十分にテストされています。参考値を提供するために、それらのいくつかは異なる条件で数回テストされました。全体として、各メソッドのパフォーマンス (F1 値で表される)表 1 に示します。一般に、コンセプトベースの方法は、セマンティックベースの基本的な TF-IDF メソッドよりも優れていると言えます。さらに、関係ベースのレコメンデーションは、他のレコメンデーションよりも優れたパフォーマンスを発揮します。名前付きエンティティを含めると、レコメンデーションの品質が向上します。

議論された方法は、何年にもわたって徹底的にテストされてきました。いくつかは参考になり、さまざまな条件下で何度もテストされています。全体として、メソッドのパフォーマンス (F1 に関して) は表 1 に示すとおりです。一般に、概念ベースのメソッドは synset ベースのメソッドやベースラインの TF-IDF メソッドよりも優れていると言えます。さらに、関係ベースのレコメンデーションは、通常のレコメンデーションよりもパフォーマンスが向上しています。名前付きエンティティを含めると、レコメンデーションの品質がさらに向上します。

表 1. 平均F 1 F_11・推薦者への対策

レコメンデーションアルゴリズム μ \muメートル
TF-IDF 0.449 [7]
SF-IDF 0.468 [6]
CF-IDF 0.485 [12]
SF-IDF+ 0.548 [17]
CF-IDF+ 0.571 [9]
Bing-SF-IDF+ 0.579 [7]

译者注

表格中的 μ \mu μ 表示的是 F1 值,是一种综合考虑 Precision 和 Recall 的度量。

3 框架

我们引入下述两个步骤以改进现有方法:用 Bing 命名实体的点互(point-wise)信息相似度计算 Bing 相似度;用基于概念和关联概念的余弦相似度计算 CF-IDF+ 值。Bing-CF-IDF+ 值即为 Bing 值与 CF-IDF+ 值的加权平均值。用户可以自己选择感兴趣的概念或新闻内容来构建用户画像,我们的方法可以从用户自己构建的画像中提取概念和命名实体。新增的新闻用类似的方式处理,同时,消除领域知识已涵盖的命名实体。

We improve the existing methods by introducing a two-step procedure, in which we compute a Bing similarity score using point-wise mutual information similarities for Bing named entities, and a CF-IDF+ similarity score using cosine similarities based on concepts and related concepts. Bing-CF-IDF+ scores are computed as a weighted average between Bing and CF-IDF+ scores. Our approach makes use of a user profile, which can be constructed manually by a user by selecting either interesting concepts or interesting news items from which concepts and named entities can be extracted. Incoming news messages are processed similarly, while eliminating named entities that are already covered by the domain ontology.

译者注

最后一句描述的过程,个人理解为类似 Charu 所著《Recommender System》中描述的基于知识的推荐系统。

3.1 Bing

基于概念的推荐系统仅适用存在于领域知识中的命名实体。然而,一篇文章中,可能有更多领域以外的命名实体,如果不考虑这部分命名实体,可能导致整个相似度分析错误。

概念ベースの推奨方法は、ドメイン オントロジーに含まれる名前付きエンティティのみを使用します。ただし、単一の記事にさらに多くの名前付きエンティティが含まれる可能性があり、それらが考慮されない場合、類似性分析全体が歪曲される可能性があります. したがって、Bing の類似度 [7] では、これらすべての名前付きエンティティが考慮されます。

U と R は、それぞれ、未読ニュース内の名前付きエンティティとユーザーの肖像を表すものとします。

うううう_URRR は、未読のニュース項目とユーザー プロファイル内の名前付きエンティティのセットです。

U={u1、u2、.. . , 英国 } U = \{u_1, u_2, ... , u_k\}={ あなた1あなた2. . . あなたk}

R={r 1 、r 2 、.. . , rk } R = \{r_1, r_2, ... , r_k\}R={ r1r2. . . rk}

未読ニュースUUUの名前付きエンティティはui u_iあなた、ユーザー ポートレートRRRの名前付きエンティティはrj r_jr、U の数はkkk、R の数はlll . 次に、 UUを定義します。U R R Rのデカルト積は次のとおりです。

ここでui u_iあなた未読アイテムUUの名前付きエンティティですU ,rj r_jrユーザー プロファイルRRの名前付きエンティティRkkklllは、それぞれ未読アイテムとユーザー プロファイル内の名前付きエンティティの数です。ここで、デカルト積をとって、未読のニュース項目とユーザー プロファイルから可能な名前付きエンティティのペアのセットを定義しましょう。

V = U × R = ( < u 1 , r 1 > , . . , < uk , rl > ) V = U \times R = (<u_1, r_1>, ... ,<u_k, r_l>)=×R=( <あなた1r1>. . . <あなたkrl>)

次に、「コロケーション抽出における正規化された (点ごとの) 相互情報量」[4] で説明されている方法を使用して、点相互情報の共起類似度を計算します。Bing を使用して、各名前付きエンティティが単独で表示されるページ数と、名前付きエンティティのペアが同時に発生するページ数を計算します。Bing 経由で見つかった Web ページの数として計算されます。名前付きエンティティの各ペアの類似度は、実際の同時確率と予想される同時確率の差です。名前付きエンティティのペアの類似性は次のとおりです。

続いて、[4] で提案されているように、点単位の相互情報共起類似度を計算します。ページ カウントを構築するために、Bing でペアの名前付きエンティティを個別に検索したり、一緒に検索したりします。ページ数は、Bing によって検出された Web ページの数として定義されます。すべてのペアについて、類似度は実際の同時確率と予想される同時確率の差として計算されます。ペアの類似度は次のように定義されます。

sim PMI ( u , r ) = logc ( u , r ) N c ( u ) N × c ( r ) N sim_{PMI}(u, r) = log{\frac{\frac{c(u, r) }{N}}{\frac{c(u)}{N} \times \frac{c(r)}{N}}}_PMI _ _あなたr )=ログ_ _Nc ( u )×Nc ( r )Nc ( u , r )

翻訳者のメモ

念のため、log A − log B = log A / B logA - logB = log{A/B}ログA _ _ログB _ _=ログA / B . _ _

其中, c ( u , r ) c(u, r) c ( u ,r )は名前付きエンティティのペア( u , r ) (u, r)あなたr ) (Bing から) 共起ページの数。c ( u ) c ( u )c ( u )およびc ( r ) c(r)c ( r )は、それぞれ出現するuuuおよび名前付き実体rrrページ数NNNは、Bing で利用できる Web ページの総数です。N は約 150 と推定されます。Bing 類似度sim Bing sim_{Bing}_ビンゴ_ _ _定義は次のようになります。

どこでc ( u , r ) c(u, r)c ( u ,r )はペア( u , r ) (u, r)の Bing ページ数ですあなたr ) ,c ( u ) c(u)c ( u )およびc ( r ) c(r)c ( r )名前付きエンティティuuのページ数あなたrrr、およびNNN Bing が検出できる Web ページの総数。NNNは約 150 億と推定されます。Bing 類似度測定sim B ing sim_{Bing}_ビンゴ_ _ _は次のように定義されます。

sim B ing ( du , dr ) = Σ ( u , r ) ∈ V sim PMI ( u , r ) ∣ V ∣ sim_{Bing}(d_u, d_r) = \frac{\Sigma_{(u, r) \in V}{sim_{PMI}(u, r)}}{|V|}_ビンゴ_ _ _( dあなたdr)=V S( u , r ) V_PMI _ _あなたr )

3.2 CF-IDF+

CF-IDF+ メソッドは、概念と関連する概念を計算します。概念は、サブクラスまたはスーパークラスとして概念が関連付けられたクラスである場合もあれば、ドメイン関係を通じて他の概念を見つけるインスタンスである場合もあります。概念間の関係には、ニュース記事の貴重な情報が含まれており、レコメンデーションの精度を向上させることができます。CF-IDF と同様に、CF-IDF+ メソッドは、ニュース項目の概念と関係をベクトル化して格納します。ccc、関連するすべての概念を含む新しい概念セットは、次のように定義されます。

The CF-IDF+ method makes use of concepts and related concepts. A concept can be a class, which can have superclasses and subclasses. It can also be an instance and refer to other concepts using domain relationships. The relations between concepts contain valuable information about a news article and can therefore increase recommendation accuracy. Similar to the CF-IDF method, the CF-IDF+ method stores the concepts and related concepts of a news item into a vector. For every concept c c c, a new set of concepts is defined which contains all related concepts:

C ( c ) = { c } ∪ r ∈ R ( c ) r ( c ) C(c) = \{c\} \cup_{r \in R(c)} r(c) C(c)={ c}r R ( c )r ( c )

その中で、cccはニュース項目の概念r ( c ) r(c)r ( c )は関係rrr見つかった概念cccR ( c ) R(c)R ( c )は概念cccの関係のコレクション。

どこでcccはニュース項目の概念r ( c ) r(c)r ( c )は概念ccに関連する概念関係rrによるcr、およびR ( c ) R(c)R(c) is the set of relationships of concept c c c.

所有新闻项的概念的扩展集合合并为如下大集合 U U U

The extended sets of concepts for all news items are now unified to one large set U U U:

U = { C ( u 1 ) , C ( u 2 ) , . . . , C ( u m ) } U = \{C(u_1), C(u_2), ... ,C(u_m)\} U={ C(u1),C(u2),...,C(um)}

其中, C ( u m ) C(u_m) C(um) 是新闻项的扩展概念集合 m t h m^{th} mth 扩展概念

どこでC ( um ) C(u_m)C ( uメートル)mthm^{th}メートルニュース項目の拡張概念セットの拡張概念CF-IDF+ スコアとそのコサイン類似度は、前述の式を使用して計算できます。これらのスコアが所定のカットオフ値を超える場合、そのニュース項目はユーザーに推奨されます。

3.3 Bing-CF-IDF+

各未読ニュース項目とユーザー プロファイル間の Bing 類似性と CF-IDF+ 類似性を計算できます。Bing-CF-IDF は、Bing の類似度と CF-IDF+ の類似度の重み付けされた組み合わせです。類似度を相互に比較できるように、最小値と最大値で 0 と 1 の間で正規化します。

これで、すべての未読ニュース項目とユーザー プロファイル間の Bing と CF-IDF+ の類似度を計算できます。Bing-CF-IDF+ は、Bing と CF-IDF+ の類似性測定値の重み付けされた組み合わせです。類似性の相互比較のために、sim CF − IDF + sim_{CF-IDF+}_C F I D F +およびsim B ing ( du , dr ) sim_{Bing}(d_u, d_r)_ビンゴ_ _ _( dあなたdr)は、0 と 1 の間の最小最大スケーリングを使用して正規化されます。

s i m C F − I D F + ( d u , d r ) = s i m C F − I D F + ( d u , d r ) − m i n u s i m C F − I D F + ( d u , d r ) m a x u s i m C F − I D F + ( d u , d r ) − m i n u s i m C F − I D F + ( d u , d r ) sim_{CF-IDF+}(d_u,d_r) = \frac{sim_{CF-IDF+}(d_u, d_r) - min_usim_{CF-IDF+}(d_u, d_r)}{max_u sim_{CF-IDF+}(d_u, d_r) - min_usim_{CF-IDF+}(d_u, d_r)} simCFIDF+(du,dr)=maxusimCFIDF+(du,dr)minusimCFIDF+(du,dr)simCFIDF+(du,dr)minusimCFIDF+(du,dr)

sim B ing ( du , dr ) = sim B ing ( du , dr ) − マイナスim B ing ( du , dr ) maxusim B ing ( du , dr ) − マイナスim B ing ( du , dr ) sim_{Bing} ( d_u , d_r) = \frac{sim_{Bing}(d_u, d_r) - min_usim_{Bing}(d_u, d_r)}{max_u sim_{Bing}(d_u, d_r) - min_usim_{Bing}(d_u, d_r)}_ビンゴ_ _ _( dあなたdr)=マエックス_ _あなた_ビンゴ_ _ _( dあなたdr)みん_ _あなた_ビンゴ_ _ _( dあなたdr)_ビンゴ_ _ _( dあなたdr)みん_ _あなた_ビンゴ_ _ _( dあなたdr)

翻訳者のメモ

ここで言及されているのは、「... 0 と 1 の間の最小最大スケーリングを使用して正規化された ...」、文字通りの翻訳は「最小値と最大値を使用して 0 と 1 の間でスケーリングすること」です。このプロセスは、実際には min-max 正規化を記述したもので、ドキュメントによっては「最小最大正規化」と訳されたり、「min-max スケーリング (Min-max スケーリング)」と訳されたりします。特徴のスケーリング方法です。通常の範囲は [0, 1] または [-1, 1] です。

デュデュdあなた博士d_rdrそれぞれ、未読のニュース項目とユーザーのポートレートを表します。2 つの加重平均は Bing-CF-IDF+ 類似度sim B ing − CF − IDF + ( du , dr ) sim_{Bing-CF-IDF+}(d_u, d_r)_B i n g C F I D F +( dあなたdr)

どこでdu d_udあなた博士d_rdrは、それぞれ未読のニュースとユーザー プロファイルです。Bing-CF-IDF+ 類似度sim B ing − CF − IDF + ( du , dr ) sim_{Bing-CF-IDF+}(d_u, d_r)_B i n g C F I D F +( dあなたdr) は、両方の類似性について加重平均をとることによって計算されます。

s i m B i n g − C F − I D F + ( d u , d r ) = α × s i m B i n g + ( 1 − α ) × s i m C F − I D F + sim_{Bing-CF-IDF+}(d_u, d_r) = \alpha \times sim_{Bing} + (1 - \alpha) \times sim_{CF-IDF+} simBingCFIDF+(du,dr)=α×simBing+(1α)×simCFIDF+

其中,在训练集上进行网格搜索对 α \alpha α 优化。当相似度超出预定义阈值 t t t 时,推荐新闻项。请注意,这里只考虑找不到的表示概念的命名实体。

ここでα \alphaα は、トレーニング セットのグリッド検索最適化を使用して最適化されます。ここでも、類似度の測定値が事前定義されたしきい値を超えると、ニュース アイテムが推奨されますttトンここでは、概念を示すものとして見つからない名前付きエンティティのみが考慮されることに注意してください。

3.4 実行

Bing-CF-IDF+ レコメンデーション システムは、セマンティック Web テクノロジで実装された Java ベースのパーソナライズされたニュース サービスである Hermes フレームワーク [11] に適用されます。Hermes は、ユーザー クエリ レコードとニュース アイテムの RSS フィードをクロールし、ドメイン コンセプトを格納する内部ナレッジ ベースを使用して複数の推奨方法を提供します。Hermes は、対応する閲覧記録から構築されたユーザーのポートレートに基づいて結果を推奨します。Hermes には、基本機能を拡張するためのプラグインがいくつか含まれています。Athena プラグインは、内部の OWL ドメインの知識を使用して、ニュース項目を分類および推奨します [13]。いくつかの概念ベースのレコメンデーション方法に加えて、Athena は、視覚化されたナレッジ グラフでユーザーが関連するトピックを選択できるようにするユーザー ポートレート構築ツールも提供します。Ceryx プラグイン [6] は、Athena の拡張機能として機能します。Athena と同様に、Ceryx もペルソナを使用してタスクを実行します。ただし、関連するニュース項目を見つけるためのアルゴリズムは少し異なります。用語と概念を分類することに加えて、Ceryx は単語の意味を理解します。したがって、Ceryx は SF-IDF+ や CF-IDF+ のような推奨プロセスを実行できます。Bing-CF-IDF+ レコメンデーション システムも Ceryx 用に作成されました。

The Bing-CF-IDF+ recommender is implemented in the Hermes framework [11], which is a Java-based personalizing news service using Semantic Web technologies. Hermes ingests user queries and RSS feeds of news items, and supports multiple recommendation methods using an internal knowledge base for storing ontological concepts. Hermes provides recommendations based on user profiles that are constructed based on browsing behaviour. Hermes contains several plugins that extend the basic functionality. The Athena plug-in classifies and recommends news items using an internal OWL domain ontology [13]. Next to several concept-based recommender methods, Athena supports an additional profile builder, where a user is allowed to select relevant topics in a visual knowledge graph. The Ceryx plug-in [6] is an extension to Athena. Just like Athena, Ceryx works with a user profile. However, the algorithm to find related news items is slightly different. Besides classifying terms and concepts, Ceryx also determines the senses of words. Therefore, Ceryx is capable of handling recommender methods like SF-IDF+ and CF-IDF+. The Bing-CF-IDF+ recommender is also written for Ceryx.

4 评估

为了评估新推出的 Bing-CF-IDF+ 算法,我们比较它与其他基于概念的替代方案,例如:CF-IDF 和 CF-IDF+,以及传统 TF-IDF 文档。本章首先阐述关于数据和性能度量的实验配置。接下来,讨论语义关系的权重及其性质。最后,比较各算法之间的性能。

In order to evaluate the performance of the newly proposed Bing-CF-IDF+ method, we compare it with its concept-based alternatives, i.e., CF-IDF and CF-IDF+, as well as the TF-IDF baseline. This section starts by elaborating on the experimental setup regarding data and performance measures. Next, the weights of the semantic relationships and their properties are discussed. Last, performance measures are compared.

4.1 测试工具

数据集随机切分为训练集(60%)和测试集(40%)。首先,从训练集中添加用户感兴趣的新闻项,用于创建用户画像。最佳权重由验证集确定,验证集由训练集切分得到,即,训练集切分为等大小的验证集和训练集。我们最终得到三个不同的集合:验证集(30%)、训练集(30%)和测试集(40%)。验证集和测试集由未读新闻项组成。可以先用验证集确定最优权重,再用测试集计算性能。

The data set is randomly split into a training set and a test set, with respectively 60% and 40% of the data. First, a user profile is created by adding the interesting news items from the training set. The optimal weights are determined by using a validation set which is created by splitting the training set into two equally-sized sets, i.e., a validation set and a training set. We end up having three different sets: a validation set (30%), a training set (30%), and a test set (40%). The validation set and the test set are considered to consist of ‘unread’ news items. The validation set can now be used to determine the optimal weights, needed to calculate performance measures by using the test set later on.

前述のように、CF-IDF+ レコメンダー システムは、各ニュース アイテムの類似度を計算します。類似度が特定の臨界値よりも大きい場合、対応する未読ニュース項目が対応するユーザーに推奨される場合があります。推奨事項は、真陽性 (TP)、偽陽性 (FP)、真陰性 (TN)、または偽陰性 (FN) に分類できます。情報検索メトリックは、この混同マトリックスから選択できます: 精度、再現率 (感度)、および特異性。また、これから F1 値(精度と再現率の調和平均を使用)と ROC 曲線(真陽性率または偽陽性率または 1 マイナス感度の逆演算によって得られる感度)を導き出すことができます。最後に、カッパ統計を計算することにより、分類能力がランダムな推測よりも高いかどうかを検証します [8]。セマンティック関係のパラメータは、グローバルな F1 値を最適化する段階的なプロセスを通じて個別に最適化されます。さらに、Bing と CF-IDF+ の重みα \alphaを決定します。アルファパラメータも同様の方法で最適化されます。

As discussed before, the CF-IDF+ recommender computes similarity measures for every unread news item. In case this similarity measure exceeds a certain cut-off value, the unread news item is recommended to the user. The results of the recommenders can be classified for news items as either true positive (TP), false positive (FP), true negative (TN), or false negative (FN). A selection of information retrieval metrics can be deduced from this confusion matrix: precision, recall (sensitivity), and specificity. Additionally, we can deduce the F1-scores (i.e., the harmonic mean of precision and recall) and ROC-curve (i.e., the True Positive Rate or sensitivity plotted against the False Positive Rate or 1 − specificity) from these measures. Last, we compute the Kappa statistic [8] to verify whether the classification power is higher than a random guess. The parameters for semantic relationships are optimized individually through an incremental procedure, optimizing the global F1-scores. Additionally, the α parameter that determines the weight of the Bing and CF-IDF+ parts is optimized similarly.

表 2.興味深い (I+) ニュース項目とそうでない (I−) ニュース項目の量、およびアノテーター間合意 (IAA)

トピック 私+ 私- IAA
アジアまたはその国 21 79 99%
金融市場 24 76 72%
グーグルまたはそのライバル 26 74 97%
ウェブサービス 26 74 94%
マイクロソフトまたはそのライバル 29 71 98%
国民経済 33 67 90%
テクノロジー 29 71 87%
アメリカ 45 55 85%

表 3. Bing-CF-IDF+ レコメンダーのパラメーターの平均と分散

wsuper w_{super}wスーパー_ _ _ _ wsub w_{sub}ws u b wrel w_{rel}w_ _ \アルファa
$ \in $ 0.426 0.384 0.523 0.170
σ 2 \シグマ^2p2 0.135 0.120 0.103 0.020

4.2 パラメータの最適化

スーパークラス、サブクラス、およびドメイン関係の重みパラメーターを最適化するために、各臨界値に対してステップ値 (増分) として 0.01 を使用し、同時に2 つの類似度尺度のα \alphaのバランスをとります。αこれらのパラメータの平均と分散を計算した結果を表 3 に示します。

カットオフ値ごとに、0.01 の増分で、スーパークラス、サブクラス、およびドメインの関係の重みパラメーターを最適化し、α α2 つの類似度のバランスを取るα 。結果は表 3 に表示され、これらの各パラメーターの平均と分散が計算されます。

一般に、Bing の類似度は CF-IDF+ よりも重みが低く、Bing の入力値がセマンティックな関係よりもレコメンダー システムに与える影響が少ないことを示しています。これは、概念が名前付きエンティティよりも多くの情報を含んでいるという事実を示しています。さらに、識別された 266 個の名前付きエンティティのうち 44 個が、使用されているドメイン知識に表示されます。これは、使用可能な名前付きエンティティの 20% が失われていることを示しています。それにもかかわらず、α \alphaαの値も 0 より大きいため、推奨方法で Bing の名前付きエンティティを使用すると便利です。意味関係に関しては、ドメイン関係 ($w_{rel}$) の概念は、サブクラス、スーパークラス (それぞれ wsub w_{sub}$) の概念よりも平均的に重要なようです。ws u b w s u p e r w_{super} wスーパー_ _ _ _) がより重要であると同時に、サブクラスの関係によって得られる概念よりも、スーパークラスの関係によって得られる概念の方が重要です。これは [9] の調査結果と一致しており、また私たちの期待とも一致しています。なぜなら、ユーザーが興味を持っている項目については、スーパークラスはより一般的な情報を提供するのに対し、サブクラスはユーザーの関心をさらに具体化するだけだからです。

平均して、Bing の類似性測定は CF-IDF+ 測定よりも重みが低く、Bing からの入力がセマンティックな関係よりもレコメンデーションに与える影響が小さいことを示しています。これは、概念が名前付きエンティティよりも多くの情報価値を含んでいるという事実によって説明できます。さらに、識別された 266 個の名前付きエンティティのうち 44 個が、使用されているオントロジーに表示され、利用可能な名前付きエンティティの 20% が失われていることを示しています。それにもかかわらず、αααは 0 より大きいため、推奨方法で Bing の名前付きエンティティを使用する用途があります。セマンティック関係に関しては、平均して、ドメイン関係を通じて取得された概念のようです (wrel w_{rel}w_ _) サブクラスやスーパークラスよりも重要である ( wsub w_{sub}ws u bwsuper w_{super}wスーパー_ _ _ _、それぞれ)、スーパークラスを通じて取得された概念は、サブクラスの関係から推測される概念よりも重要です。これは [9] の結果に対応し、スーパークラスは関心のあるトピックに関するより一般的な情報を提供するのに対し、サブクラスは具体的すぎるリスクがあるため、私たちの期待に一致します。

翻訳者のメモ

最後の文は個人の了解による自由訳です。

4.3 試験結果

各カットオフの最適値を決定したので、全体的な精度、再現率、および F1 スコアを計算できます。表 4 は、各レコメンダー システムの平均 F1 スコアを示しており、Bing-CF-IDF+ が他のレコメンダー システムよりも優れたパフォーマンスを発揮することが強調されています。実際、レコメンダー システムが複雑になればなるほど、平均パフォーマンスは向上します。表 5 に示すように、CF-IDF が TF-IDF より優れていることを除いて、すべての改善が効果的です。

Now that the optimal values of the parameters are determined for each cut-off value, we can compute the global precision, recall, and F1-measures. Table 4 displays the mean F1-scores for each recommender, underlining that Bing-CF-IDF+ outperforms the other recommenders. In fact, the more complex the recommender, the better the average performance. As shown in Table 5, all improvements are significant, except for CF-IDF over TF-IDF.

我们的观察结果如 Fig. 1a 所示。从该图表来看,显然,在整个临界值范围内,Bing-CF-IDF+ 都优于其他推荐系统。在低临界值范围内,TF-IDF 比 CF-IDF 和 CF-IDF+ 有更好的表现(低于预期的召回率,和高于预期的精度)。由于 CF-IDF 变种的性质,这一结果符合预期,因为当使用概念而非词项(或命名实体),我们用少量的特征,采取更严格的方式来匹配(用户兴趣项)。

Our observations are also supported by Fig. 1a. From the plot, it is evident that, throughout the range of cut-off values, Bing-CF-IDF+ outperforms the other recommenders consistently. TF-IDF is more performant for lower cutoff values (i.e., higher expected recall and lower expected precision) than CF-IDF and CF-IDF+. Due to the nature of CF-IDF variants, this is an expected outcome, because when using concepts rather than terms (or named entities for that matter), we enforce a much more restricted approach with a very limited amount of tokens (concepts) to match on.

Fig. 1b 和 Fig. 1c 也体现了这一点。这些图表还表明,尽管 Bing-CF-IDF+ 的召回率和 CF-IDF+ 很相似,但 Bing-CF-IDF+ 的精度明显高于 CF-IDF+。因此,引入语义关系似乎改善了召回率,同时额外引入 Bing 命名实体改善精度并未影响 CF-IDF 的召回率。

This is also depicted in Fig. 1b and 1c. These figures also show that, while recall for Bing-CF-IDF+ and CF-IDF+ is very similar, the precision of BingCF-IDF+ clearly improves over CF-IDF+. Recall for CF-IDF (and TF-IDF) is much lower. Therefore, it seems that the addition of semantic relations improves recall, and the additional inclusion of Bing named entities improves precision, without making concessions to the recall of CF-IDF.

下一步,我们评估Bing-CF-IDF+、CF-IDF+、CF-IDF 和 TF-IDF 推荐方法的接受者操作特征曲线(ROC curves)。ROC曲线如 Fig. 2 所示,Bing-CF-IDF+ 和 CF-IDF+ 的假阳性率优于 CF-IDF 和 TF-IDF。这表明 Bing-CF-IDF+ 和 CF-IDF+ 在更多复杂情况下,更能抑制假阳性,召回率(真阳性率)更高,拥有更高的精度。然而,在物品宏观角度而言,不同推荐系统之间的曲线面积只有细微差异(大约为 0.85)。Bing-CF-IDF+ 比 TF-IDF 拥有更高的精度和更低的召回率。

Next we evaluate the Receiver Operating Characteristic (ROC) curves for the Bing-CF-IDF+, CF-IDF+, CF-IDF, and TF-IDF recommenders. The ROC curve in Fig. 2 shows that the Bing-CF-IDF+ and CF-IDF+ outperform CFIDF and TF-IDF for low False Positive Rates. This indicates that recall (True Positive Rate) is higher for (Bing-)CF-IDF+ in more difficult situations against a handful of false positives, i.e., a higher precision. However, in the grand scale of things, the areas under the curve differ only slightly between the recommenders (value is approximately 0.85). This is in line with the higher precision and lower recall of Bing-CF-IDF+ when compared to TF-IDF.

译者注

这里作者说了一大堆,总结起来就是,根据 Fig. 2 我们可以知道,Bing-CF-IDF+ 和 CF-IDF+ 比 CF-IDF 和TF-IDF 拥有更高的精度和更低的召回率(误判可能性较低)。

最后,我们通过计算 Kappa 统计判断推荐系统分类是否优于随机猜测分类。其值越高,表明分类效果越好。不同临界值的 Kappa 统计如 Fig. 3 所示。由图可知,Bing-CF-IDF+ 推荐方法的 Kappa 统计比其他三个推荐方法的 Kappa 统计更高。只有临界值为0.25时,Bing-CF-IDF+ 的系数与 TF-IDF 类似,并且临界值为0.70时与 CF-IDF+ 一致。因为 Bing-CF-IDF+ 推荐方法的 Kappa 统计整体而言明显较高,因此,我们可以说,整体而言,Bi那个-CF-IDF+拥有比 CF-IDF+,CF-IDF 和 TF-IDF 推荐方法更好的分类能力。

最後に、カッパ統計を計算して、レコメンダーによって作成された提案された分類が、ランダムな推測によって作成された分類よりも優れているかどうかを測定します。値が大きいほど分類力が高く、優先されます。図 3 では、さまざまなカットオフ値に対するカッパ統計の結果を確認できます。プロットは、全体として、BingCF-IDF+ レコメンダーのカッパ統計が他の 3 つのレコメンダーのカッパ統計よりも高いことを示しています。カットオフ値 0.25 の場合のみ、Bing-CF-IDF+ と TF-IDF+ の統計は類似しており、カットオフ値 0.70 の場合、Bing-CF-IDF+ と CF-IDF+ の統計は類似しています。 . Bing-CF-IDF+ レコメンダーは明らかにすべてのカットオフ値よりも高い Kappa 統計値を持っているため、全体として、Bing-CF-IDF+ は CF-IDF+ よりも分類力が高いと言えます。

図 1.レコメンダーのグローバル精度、再現率、および F1 スコア

図 2.レコメンダーの ROC 曲線

図 3.レコメンダーのカッパ統計

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lk51CqRz-1589347021601)(image-20200513103222972.png)]

5 まとめ

以前の作業では、いくつかの新しい推奨アルゴリズムが登場しました。従来の単語ベースの TF-IDF は、意味語彙の synset を考慮した SF-IDF やドメイン知識の概念を考慮した CF-IDF などの方法に改良されています。CF-IDF+ は、サブクラスやスーパークラスなどの関連する概念に基づいて、ニュース アイテムのコンテンツも照合します。ただし、名前付きエンティティがドメイン知識によって無視されると、推奨結果には表示されません。したがって、Bing-CF-IDF+ 類似度を導入します。これは、CF-IDF+ 類似度測定に基づいて、名前付きエンティティの Bing Web 検索類似度値に 2 つのステップを追加します。

以前の研究では、いくつかの新しい推奨方法が提案されています。従来の用語ベースの TF-IDF は、SF-IDF や CF-IDF などの方法によって改善されました。これらの方法では、セマンティック レキシコンからの synset とドメイン オントロジーからの概念がそれぞれ考慮されます。CF-IDF+ の類似性測定は、サブクラスやスーパークラスなどの関連概念に基づいてニュース項目にも一致します。ただし、名前付きエンティティは、ドメイン オントロジーで省略されている場合は常に、推奨事項で完全にカバーされているわけではありません。そのため、BingCF-IDF+ 類似度測定を導入しました。これは、名前付きエンティティの Bing Web 検索類似度スコアを使用して CF-IDF+ 類似度測定を拡張する 2 段階の手順です。

新しい Bing-CF-IDF+ レコメンダー システムのパフォーマンスを評価するために、Bing と CF-IDF+ の概念間の意味的関連性の重みを最適化しました。セマンティック リレーショナル、概念ベース、および名前付きエンティティ ベースのレコメンデーション システムのパラメーターは、グリッド検索を使用して最適化され、各臨界値のグローバルF 1 F1を最大化します。F1 值,即,最小值新闻项被推荐的最小值(可能性)。我们已经用100条金融新闻项和8个用户画像测试 Bing-CF-IDF+ 的性能。我们评估结果表明,Bing-CF-IDF+ 相似性度量在 F 1 F1 F1 值和 Kappa 统计方面,优于 TF-IDF、CF-IDF 和 CF-IDF+。

In order to evaluate the performance of the new Bing-CF-IDF+ recommender, we have optimized the weights for the semantic relationships between the concepts and for the Bing and CF-IDF+ recommenders themselves. These parameters are optimized using a grid search for both the semantic relationships and the concept-based and named entity-based recommenders, while maximizing the global F 1 F1 F 1 - カットオフ値ごとの尺度、つまり、推奨されるニュース項目の最小スコア。100 の金融ニュース項目と 8 つのユーザー プロファイルで、既存のレコメンダーに対して Bing-CF-IDF+ のパフォーマンスをテストしました。私たちの評価では、Bing-CF-IDF+ の類似性測定は、F 1 F1に関して TF-IDF、CF-IDF、および CF-IDF+ よりも優れていることを示しました。F 1測定値とカッパ統計量。

私たちは、さまざまな将来の仕事の方向性を想定しています。パラメータの最適化は、インクリメンタル グリッド検索で行われるようになりました。戦略は、遺伝的進化などのアルゴリズムを使用してさらに洗練することもできます。さらに、関係のより大きなコレクションを研究したいと考えています。ここで、直接のスーパークラスとサブクラスを検討しました。しかし、概念の間接的なスーパークラスとサブクラスを想定することも価値があります。最後に、より多くのニュース項目のコレクションに基づく、より徹底的で信頼できる評価は、Bing-CF-IDF+ の強力なパフォーマンスをよりよく反映します。

We envision various directions for future work. Parameter optimization has been performed using an incremental grid search. This could improved by applying more advanced optimization strategies, such as genetic algorithms. Moreover, we would like to investigate a larger collection of relationships. Now, we have considered the direct super- and subclasses, but hypothetically, non-direct superand subclasses of concepts could be valuable as well. Last, a more thorough and powerful evaluation based on a larger set of news items would further underline the strong performance of Bing-CF-IDF+.

译者注

网格搜索(grid-search)是一种调参手段。是枚举搜索的一种。比如,一个模型有两个参数,分别为 A 和 B,列出A的所有可能和B的所有可能,各自代表一个维度,则可以得到一个二维表,表中每一个元素都是一种可能性。此时,网格搜索的方法是,遍历这个表,将所有参数组合情况依次代入模型中,以计算各个组合情况的的性能,可以得到至少一种性能最高的参数组合情况。推荐参考:https://www.jiqizhixin.com/graph/technologies/0b250c7d-d9ad-4c03-8503-c0b9e82685a3。

参考文献

  1. Adomavicius, G., Tuzhilin, A.: Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions. IEEE Transactions on Knowledge and Data Engineering 17(6), 734–749 (2005)
  2. Banerjee, S., Pedersen, T.: An adapted Lesk algorithm for word sense disambiguation using WordNet. In: Gelbukh, A.F. (ed.) 4th International Conference on Computational Linguistics and Intelligent Text Processing (CICLING 2002). Lecture Notes in Computer Science, vol. 2276, pp. 136–145. Springer (2002)
  3. Bing: Bing API 2.0. Whitepaper. From: http://www.bing.com/developers/s/APIBasics.html (2018)
  4. Bouma, G.: Normalized (pointwise) mutual information in collocation extraction. In: Chiarcos, C., de Castilho, R.E., Stede, M. (eds.) Biennial GSCL Conference 2009 (GSCL 2009). pp. 31–40. Gunter Narr Verlag T¨ubingen (2009)
  5. Burke, R.: Hybrid recommender systems: Survey and experiments. User Modeling and User-Adapted Interaction 12(4), 331–370 (2002)
  6. Capelle, M., Moerland, M., Frasincar, F., Hogenboom, F.: Semantics-based news recommendation. In: Akerkar, R., B˘adic˘a, C., Dan Burdescu, D. (eds.) 2nd International Conference on Web Intelligence, Mining and Semantics (WIMS 2012). ACM (2012)
  7. Capelle, M.、Moerland, M.、Hogenboom, F.、Frasincar, F.、Vandic, D.: Bing-SFIDF+: ハイブリッド セマンティクス主導のニュース レコメンダー。In: Wainwright, RL, Corchado, JM, Bechini, A., Hong, J. (eds.) 30th Symposium on Applied Computing (SAC 2015), Web Technologies Track. pp.732–739。ACM (2015)
  8. Cohen, J.: 公称尺度の一致係数。教育的および心理学的測定 20(1)、37–46 (1960)
  9. de Koning, E.、Hogenboom, F.、Frasincar, F.: CFIDF+ によるニュースの推奨。In: Krogstie, J., Reijers, HA (eds.) 30th International Conference on Advanced Information Systems Engineering (CAiSE 2018)。コンピュータサイエンスの講義ノート、vol。10816、pp。170–184。スプリンガー (2018)
  10. Fellbaum, C.: WordNet: 電子語彙データベース。マサチューセッツ工科大学プレス (1998)
  11. Frasincar, F., Borsje, J., Levering, L.: A Semantic Web-based approach for building personalized news services. International Journal of E-Business Research 5(3), 35–53 (2009)
  12. Goossen, F., IJntema, W., Frasincar, F., Hogenboom, F., Kaymak, U.: News personalization using the CF-IDF semantic recommender. In: Akerkar, R. (ed.) International Conference on Web Intelligence, Mining and Semantics (WIMS 2011). ACM (2011)
  13. IJntema, W.、Goossen, F.、Frasincar, F.、Hogenboom, F.: オントロジーに基づくニュースの推奨。で: Daniel, F., Delcambre, LML, Fotouhi, F., Garrig´os, I., Guerrini, G., Maz´on, JN, Mesiti, M., M¨uller-Feuerstein, S., Trujillo, J., Truta, TM, Volz, B., Waller, E., Xiong, L., Zim´anyi, E. (eds.) 第 13 回拡張に関する国際会議でのビジネス インテリジェンスと WEB に関する国際ワークショップ (BEWEB 2010)データベース技術およびデータベース理論に関する第 13 回国際会議 (EDBT/ICDT 2010)。ACM (2010)
  14. Jannach, D.、Resnick, P.、Tuzhilin, A.、Zanker, M.: 推奨システム - 行列の完成を超えて。ACM の通信 59(11)、94–102 (2016)
  15. Jensen、AS、Boss、NS: テキストの類似性: テキストを比較して、同じトピックがどれだけ密接に議論されているかを発見します。学士論文、デンマーク工科大学 (2008)
  16. Jones, K.S.: A statistical interpretation of term specificity and its application in
    retrieval. Journal of Documentation 28(1), 11–21 (1972)
  17. Moerland, M., Hogenboom, F., Capelle, M., Frasincar, F.: Semantics-based news recommendation with SF-IDF+. In: Camacho, D., Akerkar, R., Rodr´ıguez-Moreno, M.D. (eds.) 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS 2013). ACM (2013)
  18. Robal, T., Haav, H., Kalja, A.: Making Web users’ domain models explicit by applying ontologies. In: Hainaut, J., Rundensteiner, E.A., Kirchberg, M., Bertolotto, M., Brochhausen, M., Chen, Y.P., Cherfi, S.S., Doerr, M., Han, H., Hartmann, S., Parsons, J., Poels, G., Rolland, C., Trujillo, J., Yu, E.S.K., Zim´anyi, E. (eds.) Advances in Conceptual Modeling - Foundations and Applications, ER 2007 Workshops CMLSA, FP-UML, ONISW, QoIS, RIGiM, SeCoGIS. Lecture Notes in Computer Science, vol. 4802, pp. 170–179. Springer (2007)
  19. Robal, T., Kalja, A.: Conceptual Web users’ actions prediction for ontology-based browsing recommendations. In: Papadopoulos, G.A., Wojtkowski, W., Wojtkowski, W.G., Wrycza, S., Zupancic, J. (eds.) 17th International Conference on Information Systems Development (ISD 2008). pp. 121–129. Springer (2010)
  20. Robal, T., Kalja, A.: Applying user domain model to improve Web recommendations. In: Caplinskas, A., Dzemyda, G., Lupeikiene, A., Vasilecas, O. (eds.) Databases and Information Systems VII - Selected Papers from the Tenth International Baltic Conference (DB&IS 2012). Frontiers in Artificial Intelligence and Applications, vol. 249, pp. 118–131. IOS Press (2013)
  21. Salton, G., Buckley, C.: Term-weighting approaches in automatic text retrieval. Information Processing and Management 24(5), 513–523 (1988)
  22. Sekine, S., Ranchhod, E. (eds.): Named Entities: Recognition, clasification and use. John Benjamins Publishing Company (2009)

おすすめ

転載: blog.csdn.net/qq_23937195/article/details/106096188