[Traducción] Bing-CF-IDF+: un sistema de recomendación de noticias impulsado por la semántica

Este artículo fue traducido por Lin Hongzhao @funco , es solo para intercambio y aprendizaje, y sinceramente les pido consejo a todos los grandes.
La traducción no es fácil, gracias por su apoyo, indique la fuente para la reimpresión, muchas gracias.

Traducción : Bing-CF-IDF+: un sistema de recomendación de noticias impulsado por la semántica

原文Bing-CF-IDF+: un sistema de recomendación de noticias basado en la semántica

Resumen: A medida que crece el número de noticias en la red, también crece la demanda por encontrar contenidos relacionados. El sistema de recomendación impulsado por la semántica genera retratos de usuario a través de los registros de lectura del usuario y los compara con noticias, para recomendar noticias no leídas a los usuarios. Este documento propone un sistema avanzado de recomendación de noticias CF-IDF+ impulsado por la semántica. El sistema de recomendación de noticias construye retratos de usuarios identificando los conceptos de noticias y sus conceptos relacionados, y analiza y procesa la información de noticias que los usuarios no han leído. Debido a la naturaleza de este campo y su dependencia del conocimiento del dominio, los sistemas de recomendación basados ​​en conceptos ignoran muchas entidades nombradas de alta frecuencia en las noticias, pero contienen información relacionada con las noticias. Por lo tanto, encontramos la información implícita de las entidades nombradas a través de la distancia de Bing y la complementamos con el método de recomendación CF-IDF+. Esto permite que nuestro método de recomendación Bing-CF-IDF+ supere los métodos de recomendación tradicionales TF-IDF, CF-IDF y CF-IDF+ basados ​​en conceptos en términos de valor F1 y estadísticas Kappa.

nota del traductor

Las estadísticas de Kappa aquí, según tengo entendido, se refieren al Coeficiente Kappa, también conocido como Coeficiente Kappa. es una medida de la precisión de la clasificación.

Palabras clave: sistema de recomendación de noticias; sistema de recomendación basado en contenido; red semántica; entidad nombrada; Bing-CF-IDF+

Abstracto. With the ever growing amount of news on the Web, the need for automatically fifinding the relevant content increases. Semantics-driven news recommender systems suggest unread items to users by matching user profifiles, which are based on information found in previously read articles, with emerging news. This paper proposes an extension to the state-of-the-art semantics-driven CF-IDF+ news recommender system, which uses identifified news item concepts and their related concepts for constructing user profifiles and processing unread news messages. Due to its domain specifificity and reliance on knowledge bases, such a concept based recommender neglects many highly frequent named entities found in news items, which contain relevant information about a news item’s content. Therefore, we extend the CF-IDF+ recommender by adding information found in named entities, through the employment of a Bing based distance measure. Our Bing-CF-IDF+ recommender outperforms the classic TF-IDF and the concept-based CF-IDF and CF-IDF+ recommenders in terms of the F 1-score y el estadístico Kappa.

palabras clave Sistema de recomendación de noticias; Recomendador basado en contenido; Web semántica; entidades nombradas; Bing-CF-IDF+;

1. Introducción

El flujo de información en la web crece a un ritmo cada vez mayor y supera la cantidad de información que satisface las necesidades de los usuarios de la web. Para satisfacer las necesidades básicas de los usuarios para acceder a la red, es extremadamente importante distinguir de forma automática y precisa el contenido relevante e irrelevante. Los sistemas de recomendación han demostrado ser herramientas eficientes para el procesamiento de contenido de medios y noticias. El sistema de recomendación puede usar herramientas como modelos de dominio para agregar contenido visitado recientemente para crear retratos de usuario. Procesar contenido nuevo desde la perspectiva de la similitud ayuda a calcular la similitud entre los retratos de los usuarios y el contenido, realizar programas más eficientes e inteligentes para procesar el exceso de información y luego respaldar una experiencia web personalizada.

The ever growing information stream on the Web is gradually overwhelming the rapidly increasing population of Web users that try to access information matching their needs. An automated and accurate approach for distinguishing between relevant and non-relevant content is becoming of utmost importance for fulfilling the basic needs of the people accessing the Web. Recommender systems [1] have proven to be powerful tools for efficient processing of media and news content. Such systems build up user profiles by gathering information on recently viewed content, e.g., by exploiting domain models [18]. New content is analyzed in a similar fashion, so that similarities between user profiles and content can be computed, thus supporting a personalized Web experience [19,20] through efficient and intelligent procedures to deal with the information overload.

En general, los sistemas de recomendación se dividen en tres categorías: sistemas de recomendación basados ​​en contenido, sistemas de recomendación de filtrado colaborativo y sistemas de recomendación híbridos. El sistema de recomendación basado en contenido relaciona noticias, medios y otros contenidos no descubiertos con los intereses de los usuarios para hacer recomendaciones; el sistema de recomendación de filtrado colaborativo encuentra usuarios similares y recomienda contenido nuevo que les gusta a los usuarios más similares; la recomendación híbrida es la combinación de la dos combinados. Por lo tanto, (de acuerdo con el tema de este documento) solo se analizan a continuación los sistemas de recomendación basados ​​en contenido.

Tradicionalmente, existen tres tipos de sistemas de recomendación: recomendadores basados ​​en contenido, recomendadores de filtrado colaborativo y recomendadores híbridos [5]. Los recomendadores basados ​​en el contenido utilizan el contenido de las noticias, los medios, etc., que no se ven, para coincidir con los intereses del usuario. Los recomendadores de filtrado colaborativo encuentran usuarios similares y recomiendan nuevo contenido de interés a los usuarios más similares. Los recomendadores híbridos combinan los dos métodos anteriores. En este artículo, se propone un nuevo recomendador basado en contenido que está dirigido específicamente a la recomendación de noticias. Por lo tanto, los sistemas de recomendación basados ​​únicamente en el contenido se analizan en el resto de este documento.

El sistema de recomendación basado en el contenido recomienda contenido no leído a los usuarios en función de la similitud entre los retratos de los usuarios y el contenido de las noticias. Hay varias formas de calcular la similitud, cada medida utiliza un tipo diferente de información, una se basa en cadenas de texto de noticias, la otra se basa en synsets o conceptos. En este documento, ampliamos el sistema de recomendación CF-IDF+ impulsado por la semántica, que ha demostrado superar a los sistemas de recomendación tradicionales TF-IDF y CF-IDF. TF-IDF calcula la similitud en función de los términos, CF-IDF aumenta aún más el significado de los conceptos y CF-IDF+ utiliza aún más los conceptos asociados de retratos de usuarios o artículos de noticias para proporcionar resultados de recomendación más precisos.

Content-based news recommenders suggest unread news items based on similarities between the content of the news item and the user profile. The similarity can be computed in various ways, each measure utilizing different types of information. Some measures are based on terms (text strings) found in news items, while others are based on synsets or concepts. In this paper, we propose an extension to the previously proposed semantics-driven CF-IDF+ recommender [9] that has already proved to outperform the classic TF-IDF [21] and CF-IDF [12] recommenders. Where TF-IDF employs term-based similarities, CF-IDF adds the notion of concepts. CF-IDF+ additionally makes use of concepts that are related to concepts extracted from a news article or user profile, providing more accurate representations.

Otro enfoque de la recomendación basada en el contenido es utilizar entidades con nombre en los documentos. Las entidades nombradas se pueden considerar como instancias textuales de objetos (como nombres de personas y lugares). Normalmente, las entidades con nombre se utilizan para el análisis de texto y la extracción de información. Por ejemplo: soporte para una búsqueda más eficiente, algoritmos de respuesta a preguntas, clasificación de textos y sistemas de recomendación. Recientemente, los sistemas intentan manejar grandes volúmenes de texto estructurado o semiestructurado. Al ignorar las palabras irrelevantes y solo considerar las entidades nombradas, la dimensión del cálculo de similitud puede reducirse en gran medida, lo que garantiza la precisión de la recomendación y reduce los costos. En nuestro sistema de recomendación de noticias, los conceptos y synsets también se procesan de esta manera, lo que también puede ser beneficioso para complementar nuestro sistema.

Otro método de recomendación basado en contenido se basa en entidades nombradas dentro de un documento. Las entidades con nombre se pueden considerar instancias del mundo real de objetos, como personas y ubicaciones. Por lo general, las entidades nombradas se utilizan con fines de análisis de texto y extracción de información, por ejemplo, al admitir algoritmos de búsqueda y respuesta a preguntas más eficientes, clasificación de texto y sistemas de recomendación [22]. Estos últimos sistemas a menudo tienen que lidiar con grandes cantidades de textos (semi) no estructurados. Al omitir las palabras irrelevantes y solo considerar las entidades nombradas, la dimensionalidad de los cálculos de similitud se puede reducir en gran medida, lo que permite recomendaciones menos costosas pero precisas. Esto también está en línea con el uso de conceptos y synsets empleados en nuestros recomendadores de noticias, y podría ser una adición beneficiosa a nuestros sistemas.

命名实体经常出现在新闻中,但他们大多会被忽略,因为基于概念的推荐系统本身并不关注这部分。因此,CF-IDF+ 方法不使用信息命名实体提供的所有信息。对于这一问题,一种合理的方案是,采用某种方法,从 web 搜索引擎中,统计这些命名实体在不同网页的出现次数。在前期工作中,我们利用 Googe Named Entities 相关功能,但在其API不再免费后,我们改用了 Bing,而 Bing 截止撰稿为止,依然免费。

Named entities appear often in news items, yet are mostly neglected because they are, for instance, not present in domain ontologies that underly concept-based recommenders. As a consequence, the CF-IDF+ method does not use all the information that is provided by named entities. A possible solution to this problem is the introduction of a methodology that takes into consideration page counts gathered by Web search engines such as Google or Bing for specific named entities. In earlier work, originally, we made use of Google named entities. However, we had to move to Bing as the usage of Google API was not for free anymore, while Bing API usage was still for free.

译者注

  1. 截至翻译日期,原『论文-参考文献』中所列的Bing API网页已经不可被访问,相关功能转移至Azure中,可以申请一定时间内免费试用
  2. Bing基本服务: https://cn.bing.com/partners/developers#LocalBusinessSearch
  3. Búsqueda de entidades de Microsoft Azure-Bing: https://azure.microsoft.com/en-us/services/cognitive-services/bing-entity-search-api/

El método propuesto en este artículo se basará en el método CF-IDF+, considerando la información de las entidades nombradas contenidas en las noticias. Es decir, una combinación del método CF-IDF+ y la similitud computada a través de la API gratuita que proporciona el buscador Bing. El sistema de recomendación Bing-CF-IDF+ que implementaremos consta de dos partes con ponderación independiente: el sistema de recomendación CF-IDF+ calcula la similitud en función de conceptos; el sistema de recomendación Bing calcula la similitud en función de entidades nombradas. El sistema de recomendación Bing-CF-IDF+ solo considera entidades nombradas que no aparecen en el conjunto de conceptos. La principal contribución de este trabajo es la utilización integral del concepto de conocimiento del dominio y conceptos relacionados (CF-IDF+) y las métricas de distancia basadas en motores de búsqueda en los sistemas de recomendación de noticias.

The recommender proposed in this paper extends the CF-IDF+ method by using information given in the named entities of news items. It combines the results of the CF-IDF+ method with similarities computed by the Bing search engine, which offered, at the time of conducting the research, a free API [3]. Our proposed recommender, Bing-CF-IDF+, consists of two individually weighted parts. The CF-IDF+ recommender computes the similarity based on concepts, whereas the Bing recommender computes the similarity based on named entities. Only the named entities that do not appear in the concepts are considered by the Bing-CF-IDF+ recommender. The main contribution of this work is the joint exploitation of concepts and their relationships from a domain ontology (CF-IDF+), on one side, and named entities and a search engine-based distance measure (Bing), on the other side, in a news recommender system.

El contenido se describirá a su vez en las siguientes secciones: el Capítulo 2 analizará el trabajo relacionado con los sistemas de recomendación existentes; el Capítulo 3 presentará nuestro método y su implementación; el Capítulo 4 evaluará el rendimiento de Bing-CF-IDF+ Performance y lo comparará con Sistema de recomendación CF-IDF+, CF-IDF, TF-IDF. El Capítulo 5 presenta las conclusiones y añade algunas direcciones para el trabajo futuro.

El resto de este documento está organizado de la siguiente manera. Insecto. 2, se analiza el trabajo relacionado con los recomendadores propuestos anteriormente. La Sección 3 proporciona una introducción a nuestro método y su implementación, y la Secc. 4 evalúa el rendimiento de Bing-CF-IDF+, en comparación con los recomendadores CF-IDF+, CF-IDF y TF-IDF. La Sección 5 proporciona conclusiones y algunas direcciones adicionales para el trabajo futuro.

2. Trabajo relacionado

Actualmente, se han realizado muchos estudios sobre recomendadores basados ​​en perfiles. Estos sistemas de recomendación construyen retratos de usuarios basados ​​en los registros históricos de navegación del usuario, calculan la similitud entre el retrato del usuario y el contenido de noticias, y recomiendan artículos que no han leído a los usuarios. En este capítulo, presentaremos principalmente sistemas de recomendación basados ​​en términos, synsets, conceptos, relaciones y entidades nombradas.

Los esfuerzos de investigación sobre recomendaciones basadas en perfiles (noticias) han sido abundantes [14]. Estos recomendadores calculan los niveles de similitud entre las noticias y los perfiles de usuario derivados de artículos leídos anteriormente y los utilizan para recomendar elementos no vistos. En esta sección, nos enfocamos en los recomendadores que emplean términos, synsets, conceptos, relaciones y entidades nombradas.

2.1 Sistema de recomendación basado en términos

Para el sistema de recomendación de noticias, basado en TF-IDF es uno de los métodos más utilizados. El método correlaciona la frecuencia del término (TF; con qué frecuencia aparece el término en un documento) y la frecuencia inversa del documento (IDF; una medida relacionada con la cantidad de documentos que contienen el término). La mayoría de los métodos utilizan la similitud de coseno (consine similarity) para calcular la similitud entre los usuarios y los artículos de noticias.

TF-IDF [21], uno de los métodos más utilizados para recomendar noticias, se basa en los términos de las noticias. El método combina la frecuencia de términos (TF), que es la frecuencia de términos específicos dentro de un documento, y la frecuencia de documentos inversa (IDF) [16], que es una medida de la fracción de documentos que contienen estos términos. Este método a menudo se combina con el método de similitud del coseno para determinar la similitud entre los usuarios y los artículos de noticias.

Para un documento d ∈ D d \in D que contiene una palabradD , alguna palabrat ∈ T t \in TtFrecuencia de palabra de T tf ( t , d ) tf(t, d)t f ( t ,d ) y su frecuencia de documento inversaidf ( t , d ) idf(t, d)i d f ( t ,d) 计算方式如下:

The term frequency of term t ∈ T in document d ∈ D, tf(t, d), and its associated inverse document frequency idf(t, d) are computed as follows:

t f ( t , d ) = n t , d Σ k n t , d tf(t, d) = \frac{n_{t,d}}{\Sigma_k{n_{t, d}}} tf(t,d)=Σknt,dnt,d

i d f ( t , d ) = log ⁡ ∣ D ∣ ∣ d ∈ D : t ∈ d ∣ idf(t, d) = \log{\frac{|D|}{|d \in D : t \in d|}} idf(t,d)=logdD:tdD

词频是新闻内容中,总词数与该词出现次数的比值。逆文档频率是总新闻数 ∣ D ∣ |D| D与包含该词 t t El número de noticias para t . Entonces, TF-IDF se obtiene multiplicando TF e IDF. Cuanto mayor sea el valor de TF-IDF, más a menudo aparece la palabra en las noticias actuales, pero menos en otros contenidos de noticias.

donde las frecuencias de los términos se calculan dividiendo la frecuencia que el término ttt aparece en la noticiad ( nt , d ) d (nt,d)d ( nt , _d ) por el número total de todos los términos en la noticiaddre . La frecuencia inversa del documento se calcula como una división del número total de noticias∣ D ∣ |D|D por la cantidad de noticias en cuyo términottNo se puede encontrar. Posteriormente, TF-IDF se calcula como una multiplicación de TF e IDF,

tf - idf ( t , re ) = tf ( t , re ) × idf ( t , re ) tf\verbo|-|idf(t, d) = tf(t, d) \times idf(t, d)t f - i d f ( t ,re )=t f ( t ,re )×i d f ( t ,re )

Finalmente, la similitud entre las preferencias de los usuarios y sus artículos no leídos se calcula mediante la función de similitud del coseno:

Posteriormente, TF-IDF se calcula como una multiplicación de TF e IDF:

simtf - idf ( du , dr ) = dr ⋅ du ∣ ∣ dr ∣ ∣ × ∣ ∣ du ∣ ∣ sim_{tf\verb|-|idf(d_u, d_r)} = \frac{d_r \cdot d_u}{|| d_r|| \veces ||d_u||}yo soy _t f - yo re f ( retu, rer)=rer×retudrdtu

Entre ellos, dr d_rdrRepresenta el vector de preferencia del usuario, du d_udtuRepresenta el vector de noticias no leídas. simtf - idf ( du , dr ) sim_{tf\verb|-|idf(d_u, d_r)}yo soy _t f - yo re f ( retu, rer)Cuanto mayor sea el valor, más cerca estarán las noticias no leídas de las preferencias del usuario. De entre todas las noticias no leídas, se recomiendan al usuario correspondiente aquellas cuya similitud con el retrato del usuario es superior a un determinado valor.

donde dr d_rdres la representación vectorial del interés del usuario y du d_udtu is the vector representation of an unread news item. The larger simTF-IDF is, the more similar the unread news item and user’s interest are. All unread news items that have a higher similarity value with a user profile than a certain cut-off value are recommended to the corresponding user.

2.2 基于同义词频率的推荐系统

一种与TF-IDF相似的方法是SF-IDF(Syset Frequency - Inverse Document Frequency; 同义词频率-逆文档频率)。该方法不仅考虑到词项的影响,还进一步考虑了同义词集(synsets)。同义词集从类似 WordNet 的语义词典获取。由于含义模糊,一个词可能存在多个同义词,因此,存在歧义,例如,由 [2] 提出,并于 [15] 实现的自适应Lesk算法(adapted Lesk algorithm)。

Un método similar al método TF-IDF es el método Synset Frequency - Inverse Document Frequency (SF-IDF) [6]. Este método utiliza conjuntos de sinónimos (synsets) asociados a términos en lugar de términos solos. Synsets son proporcionados por un léxico semántico como WordNet [10]. Debido a la ambigüedad, un solo término puede tener múltiples synsets, lo que requiere la desambiguación del sentido de la palabra, por ejemplo, mediante el uso del algoritmo Lesk adaptado propuesto en [2] e implementado en [15].

nota del traductor

WordNet es un diccionario semántico de inglés, que puede obtener sinónimos e información de sinónimos en línea. En chino, también hay sitios web similares, que se pueden obtener de la comunidad de código abierto o de los sitios web de algunas universidades e institutos de investigación.

El cálculo del valor de SF-IDF y la similitud del coseno es casi el mismo que el valor de TF-IDF presentado anteriormente, excepto que el término ttt se reemplaza por un sinónimo s, es decir,sf ( s , d ) = ns , d / Σ knk , d sf(s, d) = {n_{s, d}}/{\Sigma_k{n_{k, d}}}s f ( s ,re )=nortes , d/ Sknortek , d并且idf ( s , d ) = log ∣ D ∣ / ∣ d ∈ D : s ∈ d ∣ idf(s, d) = log{|D|/|d \in D : s \in d|}i d f ( s ,re )=l o gramo re / reD:sd , entonces

La medida de SF-IDF y sus puntajes de similitud de coseno correspondientes se calculan usando las mismas ecuaciones que se introdujeron para TF-IDF, solo reemplazando el término ttt por synsetsss , de modo quesf ( s , d ) = ns , d / Σ knk , d sf(s, d) = n_{s,d}/\Sigma_k{n_{k,d}}sf(s,d)=ns,d/Σknk,d and i d f ( s , d ) = l o g ∣ D ∣ / ∣ d ∈ D : s ∈ d ∣ idf(s, d) = log |D| / |d ∈ D : s ∈ d| idf(s,d)=logD/dD:sd, and hence

s f - i d f ( s , d ) = s f ( s , d ) × i d f ( s , d ) sf\verb|-|idf(s, d) = sf(s, d) \times idf(s, d) sf-idf(s,d)=sf(s,d)×idf(s,d)

Después de eso, calcule sim SF - IDF sim_{SF\verb|-|IDF} usando la similitud del coseno definida anteriormenteyo soy _S F - I D FEso es todo.

Luego, la similitud de coseno previamente definida se usa para calcular sim SF - IDF sim_{SF\verb|-|IDF}yo soy _S F - I D F.

2.3 Sistemas de recomendación basados ​​en conceptos

Los métodos de frecuencia de documento inverso de frecuencia de concepto utilizan conceptos de conocimiento de dominio para calcular la similitud, que es diferente del uso directo de términos o conjuntos sintéticos. El concepto del artículo se pasa por el motor de Procesamiento del Lenguaje Natural (NLP, Natural Language Processing). Para cada documento, los conceptos generados se almacenan en vectores, y estos vectores también se pueden utilizar para calcular valores CF-IDF. Similar a TF-IDF y SF-IDF, los valores de CF-IDF se calculan de la siguiente manera:

El método Frecuencia de concepto - Frecuencia de documento inversa (CF-IDF) [12] calcula medidas de similitud utilizando conceptos de una ontología de dominio en lugar de términos o conjuntos sintéticos. Los conceptos de un artículo se obtienen mediante un motor de Procesamiento del Lenguaje Natural (NLP). Para cada documento, los conceptos resultantes se almacenan en un vector y estos vectores se pueden utilizar para calcular la medida CF-IDF. Similar a TF-IDF y SF-IDF, puntajes para el concepto ccc se calculan de la siguiente manera:

cf - idf ( c , d ) = cf ( c , d ) × idf ( c , d ) cf\verb|-|idf(c, d) = cf(c, d) \times idf(c, d)c f - yo re f ( c ,re )=c f ( c ,re )×idf(c,d)

此时,概念频率与逆文档频率定义分别为 c f ( c , d ) = n c , d / Σ k n k , d cf(c, d) = n_{c,d} / \Sigma_k{n_{k,d}} cf(c,d)=nc,d/Σknk,d i d f ( c , d ) = l o g ∣ D ∣ / ∣ d ∈ D : c ∈ d ∣ idf(c,d) = log|D| / |d \in D : c \in d| idf(c,d)=logD/dD:cd s i m C F − I D F sim_{CF-IDF} simCFIDFEl cálculo de la similitud del coseno sigue siendo el mismo.

donde las frecuencias y las frecuencias inversas del documento se definen como cf ( c , d ) = nc , d / Σ knk , d cf(c, d) = n_{c,d} / \Sigma_k{n_{k,d}}c f ( c ,re )=nortec , d/ Sknortek , dy idf ( c , d ) = log ∣ D ∣ / ∣ d ∈ D : c ∈ d ∣ idf(c,d) = log|D| / |d \en D : c \en d|i d f ( c ,re )=l o gramo re / reD:Cd , respectivamente. Los cálculos de similitud de coseno permanecen sin cambios parasim CF − IDF sim_{CF-IDF}simCFIDF.

2.4 基于关系的推荐系统

可以用相关同义词或概念扩展 SF-IDF 和 CF-IDF。为此,可以从语义词典和词项本身出发,找出其他相关元素。

Both SF-IDF and CF-IDF can be extended in such a way that also related synsets or concepts are taken into consideration. For this, the semantic lexicon and ontology can be used in order to derive related elements.

SF-IDF+ [17] 认为关联同义词集通过关联关系获取(有 27 种独有的语义关系,如:上下义关系(hyponymy)、反义词、同义词等,这些可以通过 WorNet 获取),并添加到 SF-IDF的向量表示中。对于各同义词,通过SF-IDF值与预定义的权重相乘可以求得相应的 sf-idf+ 值。由于当前词的关联同义词,永远不能不当前词本身更重要,因此,同义词的权重范围在0至1之间。如公式 [7] 所示,它展示了如何将关联的同义词集添加至向量中:

In SF-IDF+ [17], related synsets are considered to be synsets that are connected through a relation (27 unique semantic relationships, e.g., hyponymy, antonymy, synonymy, etc., exist in WordNet), and are added to the vector representation from SF-IDF. For each synset, scores are computed by multiplying the original SF-IDF score with a predefined weight. Weights always range between 0 and 1, as related synsets should never be more important that the synset itself. In Eq. 7, it is shown how the related synsets are added to the vector:

s f - i d f + ( s , d , r ) = s f ( s , d ) × i d f ( s , d ) × ω r sf\verb|-|idf\verb|+|(s, d, r) = sf(s, d) \times idf(s, d) \times \omega_r sf-idf+(s,d,r)=sf(s,d)×idf(s,d)×ωr

用同样的方式扩展CF-IDF(CF-IDF+ [9])。通过三种关联关系,从内容本身的概念获取相关概念。

The same rules apply also for CF-IDF in its extended form (CF-IDF+ [9]). Related concepts are retrieved by taking into account related ontology concepts by three possible relationships, as a concept can have superclasses, subclasses, and domain-specific related concepts. Similarly, the CF-IDF+ value for a concept c c c and its related concept r r r in document d is computed as follows:

c f - i d f + ( c , d , r ) = c f ( c , d ) × i d f ( c , d ) × ω r cf\verb|-|idf\verb|+|(c, d, r) = cf(c, d) \times idf(c, d) \times \omega_r cf-idf+(c,d,r)=cf(c,d)×idf(c,d)×ωr

此时,用前文所述 c c c r r r 的三种关系之一来表示权重 w r w_r wr。在扩展向量表示中,如果同一关联概念(或同义词)存在多个不同的权重,仅保留最大值。所得向量用于计算用户画像与其未读新闻的余弦相似度。

where w r w_r wr represents the weight assigned to one of the three previously mentioned relationships present between c c c and r r r _ Si se calculan varios pesos para el mismo concepto (o synset), solo se retiene el valor más alto en la representación vectorial extendida. La representación vectorial extendida se usa para calcular la similitud entre el perfil de usuario y las noticias no leídas usando la medida de similitud del coseno.

nota del traductor

El mismo concepto/sinónimo asociado puede estar asociado con múltiples conceptos de ontología o términos de contenido, es decir, puede aparecer varias veces en el conjunto de concepto/sinónimo asociado y tener múltiples contenidos asociados diferentes.

2.5 Sistema de recomendación basado en la entidad nombrada

Recientemente, hicimos un intento adicional de combinar SF-IDF+ con información de entidad nombrada de Bing en el algoritmo Bing-SF-IDF+ [7] y obtuvimos los resultados esperados. Aquí, consultando el motor de búsqueda Bing y calculando la similitud en función del número de páginas que contienen el término correspondiente, se tendrán en cuenta incluso las entidades nombradas no incluidas en el diccionario semántico.

In recent endeavours, we additionally tried combining SF-IDF+ with named entities from Bing in Bing-SF-IDF+ [7], which showed promising results. Here, named entities that are not covered by the synsets from a semantic lexicon were still taken into account by consulting the Bing search engine and computing similarities based on page counts.

计算结果是 SF-IDF+ 和 Bing相似值的加权平均值,后者是通过共现相似度 (co-occurrence similarity measure) 计算得到的。类似的,我们希望研究 Bing 应用于(相关)概念的优点。

Computations are based on a weighted average of SF-IDF+ and Bing similarity scores, where the latter is computed using a co-occurrence similarity measure. Similarly, we would like to investigate the merits of the application of Bing named entities to (related) concepts.

2.6 性能

Los métodos descritos anteriormente han sido bien probados a lo largo de los años. Para proporcionar un valor de referencia, algunos de ellos se probaron varias veces en diferentes condiciones. En general, el rendimiento de cada método (representado por el valor F1) se muestra en la Tabla 1. En general, podemos argumentar que los métodos basados ​​en conceptos superan a los métodos TF-IDF básicos y basados ​​en la semántica. Además, la recomendación basada en relaciones tiene un mejor rendimiento que otras recomendaciones. La inclusión de entidades nombradas ayuda a mejorar la calidad de las recomendaciones.

Los métodos discutidos han sido probados exhaustivamente a lo largo de los años. Algunos han servido como referencia y han sido probados varias veces en diferentes condiciones. En general, el rendimiento de los métodos (en términos de F1) es como se describe en la Tabla 1. En general, podemos decir que los métodos basados ​​en conceptos superan a los métodos basados ​​en synset y al método TF-IDF de referencia. Además, los recomendadores basados ​​en relaciones muestran una mejora en el rendimiento con respecto a sus contrapartes regulares. La inclusión de entidades nombradas aumenta aún más la calidad de la recomendación.

Tabla 1. Promedio F 1 F_1F1-medidas para los recomendadores

algoritmo de recomendación μ \mumetro
TF-FDI 0.449 [7]
SF-FDI 0.468 [6]
CF-IDF 0.485 [12]
SF-IDF+ 0.548 [17]
CF-IDF+ 0.571 [9]
Bing-SF-IDF+ 0.579 [7]

译者注

表格中的 μ \mu μ 表示的是 F1 值,是一种综合考虑 Precision 和 Recall 的度量。

3 框架

我们引入下述两个步骤以改进现有方法:用 Bing 命名实体的点互(point-wise)信息相似度计算 Bing 相似度;用基于概念和关联概念的余弦相似度计算 CF-IDF+ 值。Bing-CF-IDF+ 值即为 Bing 值与 CF-IDF+ 值的加权平均值。用户可以自己选择感兴趣的概念或新闻内容来构建用户画像,我们的方法可以从用户自己构建的画像中提取概念和命名实体。新增的新闻用类似的方式处理,同时,消除领域知识已涵盖的命名实体。

We improve the existing methods by introducing a two-step procedure, in which we compute a Bing similarity score using point-wise mutual information similarities for Bing named entities, and a CF-IDF+ similarity score using cosine similarities based on concepts and related concepts. Bing-CF-IDF+ scores are computed as a weighted average between Bing and CF-IDF+ scores. Our approach makes use of a user profile, which can be constructed manually by a user by selecting either interesting concepts or interesting news items from which concepts and named entities can be extracted. Incoming news messages are processed similarly, while eliminating named entities that are already covered by the domain ontology.

译者注

最后一句描述的过程,个人理解为类似 Charu 所著《Recommender System》中描述的基于知识的推荐系统。

3.1 Bing

基于概念的推荐系统仅适用存在于领域知识中的命名实体。然而,一篇文章中,可能有更多领域以外的命名实体,如果不考虑这部分命名实体,可能导致整个相似度分析错误。

Los métodos de recomendación basados ​​en conceptos solo hacen uso de entidades nombradas que están incluidas en la ontología del dominio. Sin embargo, podría haber muchas más entidades nombradas en un solo artículo que, si no se tomaran en consideración, podrían sesgar todo el análisis de similitud. Por lo tanto, la medida de similitud de Bing [7] tiene en cuenta todas estas entidades nombradas.

Deje que U y R denoten entidades nombradas y retratos de usuarios en noticias no leídas, respectivamente.

Vamos UUU yRRR ser conjuntos de entidades nombradas en una noticia no leída y el perfil de usuario:

tu = { tu 1 , tu 2 , . . . , reino unido } U = \{u_1, u_2, ... , u_k\}tu={ tu1,tu2,. . . ,tuk}

R = { r 1 , r 2 , . . . , rk } R = \{r_1, r_2, ... , r_k\}R={ r1,r2,. . . ,rk}

Noticias no leídas UULa entidad nombrada en U es ui u_ituyo, retrato de usuario RRLas entidades nombradas en R son rj r_jrj, el número de U es kkk , el número de R esllyo _ Entonces definimosUUU daRREl producto cartesiano de R es el siguiente:

donde ui u_ituyoes una entidad nombrada en un elemento no leído UUtu ,rj r_jrjuna entidad nombrada en el perfil de usuario RRR ykk and l l l are the number of named entities in the unread item and the user profile, respectively. Now let us define the set of possible named entity pairs from the unread news item and the user profile by taking their cartesian product:

V = U × R = ( < u 1 , r 1 > , . . . , < u k , r l > ) V = U \times R = (<u_1, r_1>, ... ,<u_k, r_l>) V=U×R=(<u1,r1>,...,<uk,rl>)

随后,用 《Normalized (pointwise) mutual information in collocation extraction》[4] 所述方法计算点互信息共现相似度。用 Bing 分别计算各命名实体单独出现的页面数和命名实体对共现页面数。计算方式是通过 Bing 找到的 Web 页面数。对每个命名实体对而言,相似度即为实际联合概率与期望联合概率之差。命名实体对相似度如下:

Subsequently, we compute the point-wise mutual information co-occurrence similarity measure as proposed by [4]. We search the named entities in a pair both separately and together in Bing to construct page counts. A page count is defined as the number of Web pages that are found by Bing. For every pair the similarity is computed as the difference between the actual and the expected joint probability. The similarity measure for a pair is defined as:

s i m P M I ( u , r ) = l o g c ( u , r ) N c ( u ) N × c ( r ) N sim_{PMI}(u, r) = log{\frac{\frac{c(u, r)}{N}}{\frac{c(u)}{N} \times \frac{c(r)}{N}}} simPMI(u,r)=logNc(u)×Nc ( r )nortec ( , r )

nota del traductor

En caso de que haya un recordatorio, log A − log B = log A / B logA - logB = log{A/B}log A _ _registro B _ _=registro A / B . _ _

Entre ellos, c ( u , r ) c(u, r)c ( ,r ) representa un par de entidades con nombre( u , r ) (u, r)( tu ,r ) (de Bing) el número de páginas concurrentes. c ( tu ) c(u)c ( u ) yc ( r ) c(r)c(r) 分别为出现命名实体 u u u 和命名实体 r r r 页面数, N N N 是能通过 Bing 获取的 Web 页面总数。N 估计在150左右。 Bing 相似度 s i m B i n g sim_{Bing} simBing 定义如下所示:

where c ( u , r ) c(u, r) c(u,r) is the Bing page count for pair ( u , r ) (u, r) (u,r), c ( u ) c(u) c(u) and c ( r ) c(r) c(r) the page counts for named entities u u u and r r r, and N N N the total number of Web pages that can be found by Bing. N N N is estimated to be around 15 billion. The Bing similarity measure s i m B i n g sim_{Bing} simBing is then defined as:

s i m B i n g ( d u , d r ) = Σ ( u , r ) ∈ V s i m P M I ( u , r ) ∣ V ∣ sim_{Bing}(d_u, d_r) = \frac{\Sigma_{(u, r) \in V}{sim_{PMI}(u, r)}}{|V|} simBing(du,dr)=VΣ(u,r)VsimPMI(u,r)

3.2 CF-IDF+

CF-IDF+ 方法用概念和关联概念计算。概念可以是一个类,关联概念则为其子类或超类;它也可以是一个实例,通过领域关系找到其他概念。概念之间的关系包含新闻文章中有价值的信息,并能提高推荐准确率。与 CF-IDF 类似,CF-IDF+方法将新闻项的概念和关系向量化存储。对于 c c c,包含其所有关联概念的新的概念集合定义如下:

El método CF-IDF+ hace uso de conceptos y conceptos relacionados. Un concepto puede ser una clase, que puede tener superclases y subclases. También puede ser una instancia y referirse a otros conceptos usando relaciones de dominio. Las relaciones entre conceptos contienen información valiosa sobre un artículo de noticias y, por lo tanto, pueden aumentar la precisión de la recomendación. Similar al método CF-IDF, el método CF-IDF+ almacena los conceptos y los conceptos relacionados de una noticia en un vector. Para cada concepto ccc , se define un nuevo conjunto de conceptos que contiene todos los conceptos relacionados:

C ( C ) = { C } ∪ r ∈ R ( C ) r ( C ) C(c) = \{c\} \cup_{r \in R(c)} r(c)C ( c )={ c }r R ( c )r ( c )

Entre ellos, c.c.c es el concepto de la noticia,r ( c ) r(c)r ( c ) es a través de la relaciónrrr encontrado conceptoccEl concepto asociativo de c ,R ( c ) R(c)R ( c ) es el conceptoccUna colección de relaciones para c .

donde ccc es un concepto en la noticia,r ( c ) r(c)r ( c ) son conceptos relacionados con el conceptoccc por relaciónrrr , yR ( c ) R(c)R ( c ) es el conjunto de relaciones de conceptoccdo .

El conjunto ampliado de conceptos de todas las noticias se fusiona en el siguiente gran conjunto UUtu :

Los conjuntos ampliados de conceptos para todas las noticias ahora están unificados en un gran conjunto UUtu :

U = { C ( tu 1 ) , C ( tu 2 ) , . . . , C ( um ) } U = \{C(u_1), C(u_2), ... ,C(u_m)\}tu={ C ( tu1) ,C ( tu2) ,. . . ,C ( tum) }

Entre ellos, C ( um ) C(u_m)C ( tum) es el conjunto de conceptos ampliados de noticiasmthm^{th}metroel concepto extendido

donde C ( um ) C(u_m)C ( tum) es elmthm^{th}metroEl concepto ampliado en el conjunto de conceptos ampliados de la noticia. Las puntuaciones de CF-IDF+ y sus similitudes de coseno se pueden calcular como se presentó anteriormente utilizando las Ecs. 8 y 4. Si estas puntuaciones superan un valor de corte predeterminado, se recomienda la noticia al usuario.

3.3 Bing-CF-IDF+

Podemos calcular la similitud de Bing y la similitud de CF-IDF+ entre cada noticia no leída y el perfil de usuario. Bing-CF-IDF es una combinación ponderada de la similitud de Bing y la similitud de CF-IDF+. Para la comparabilidad mutua de la similitud, normalice entre 0 y 1 con los valores mínimo y máximo.

We can now calculate the Bing and the CF-IDF+ similarity measures between every unread news item and the user profile. Bing-CF-IDF+ is a weighed combination of the Bing and the CF-IDF+ similarity measures. For inter-comparability of the similarities, s i m C F − I D F + sim_{CF-IDF+} simCFIDF+ and s i m B i n g ( d u , d r ) sim_{Bing}(d_u, d_r) simBing(du,dr) are normalized using a min-max scaling between 0 and 1:

sim CF − IDF + ( du , dr ) = sim CF − IDF + ( du , dr ) − minusim CF − IDF + ( du , dr ) maxusim CF − IDF + ( du , dr ) − minusim CF − IDF + ( du , dr ) sim_{CF-IDF+}(d_u,d_r) = \frac{sim_{CF-IDF+}(d_u, d_r) - min_usim_{CF-IDF+}(d_u, d_r)}{max_u sim_{CF-IDF+} (d_u, d_r) - min_usim_{CF-IDF+}(d_u, d_r)}yo soy _C F I D F +( retu,dr)=mx _ _tuyo soy _C F I D F +( retu,dr)m i ntuyo soy _C F I D F +( retu,dr)yo soy _C F I D F +( retu,dr)m i ntuyo soy _C F I D F +( retu,dr)

sim B ing ( du , dr ) = sim B ing ( du , dr ) − minusim B ing ( du , dr ) maxusim B ing ( du , dr ) − minusim B ing ( du , dr ) sim_{Bing}(d_u, d_r) ​​= \frac{sim_{Bing}(d_u, d_r) - min_usim_{Bing}(d_u, d_r)}{max_u sim_{Bing}(d_u, d_r) - min_usim_{Bing}(d_u, d_r)}yo soy _B i n g( retu,dr)=mx _ _tuyo soy _B i n g( retu,dr)m i ntuyo soy _B i n g( retu,dr)yo soy _B i n g( retu,dr)m i ntuyo soy _B i n g( retu,dr)

nota del traductor

Se menciona aquí que "... normalizado usando una escala min-max entre 0 y 1...", la traducción literal es "a escalar... entre 0 y 1 con el mínimo y el máximo". Este proceso en realidad describe la normalización min-max.Algunos documentos lo traducen como "normalización mínimo-máximo", y algunos lo traducen como "escala min-max (escala Min-max)". es un método de escalado de características. El rango habitual es [0, 1] o [-1, 1].

du d_udtuy dr d_rdrrepresentan noticias no leídas y retratos de usuarios, respectivamente. El promedio ponderado de los dos es Bing-CF-IDF+ similitud sim B ing − CF − IDF + ( du , dr ) sim_{Bing-CF-IDF+}(d_u, d_r)yo soy _segundo yo norte gramo - C F - yo re F +( retu,dr)

donde du d_udtuy dr d_rdrson una noticia no leída y el perfil de usuario, respectivamente. La medida de similitud Bing-CF-IDF+ sim B ing − CF − IDF + ( du , dr ) sim_{Bing-CF-IDF+}(d_u, d_r)yo soy _segundo yo norte gramo - C F - yo re F +( retu,dr) se calcula tomando un promedio ponderado de ambas similitudes:

sim B ing − CF − IDF + ( du , dr ) = α × sim B ing + ( 1 − α ) × sim CF − IDF + sim_{Bing-CF-IDF+}(d_u, d_r) = \alpha \times sim_ {Bing} + (1 - \alpha) \times sim_{CF-IDF+}yo soy _segundo yo norte gramo - C F - yo re F +( retu,dr)=a×yo soy _B i n g+( 1un )×yo soy _C F I D F +

Entre ellos, realizar una búsqueda de cuadrícula en el conjunto de entrenamiento para α \alphaOptimización alfa . Cuando la similitud supera el umbral predefinidottCuando t , recomendar noticias. Tenga en cuenta que aquí solo se consideran las entidades con nombre que representan conceptos que no se pueden encontrar.

donde α \alphaα se optimiza utilizando una optimización de búsqueda de cuadrícula en el conjunto de entrenamiento. Nuevamente, se recomienda una noticia cuando las medidas de similitud exceden el valor umbral predefinidottt . Tenga en cuenta que aquí solo se consideran las entidades nombradas que no se encuentran como conceptos denotativos.

3.4 Ejecución

El sistema de recomendación Bing-CF-IDF+ se aplica al framework Hermes [11], que es un servicio personalizado de noticias basado en Java implementado con tecnología de Web Semántica. Hermes rastrea las fuentes RSS de los registros de consultas de los usuarios y las noticias y proporciona múltiples métodos de recomendación utilizando una base de conocimiento interna que almacena conceptos de dominio. Hermes recomienda resultados basados ​​en retratos de usuarios, que se construyen a partir de los registros de navegación correspondientes. Hermes incluye varios complementos para ampliar la funcionalidad básica. El complemento de Athena utiliza el conocimiento interno del dominio OWL para clasificar y recomendar artículos de noticias [13]. Además de varios métodos de recomendación basados ​​en conceptos, Athena también proporciona herramientas de construcción de retratos de usuario para permitirles seleccionar temas relevantes en el gráfico de conocimiento visualizado. El complemento Ceryx [6] actúa como una extensión de Athena. Al igual que Athena, Ceryx también usa personas para realizar tareas. Sin embargo, el algoritmo para encontrar noticias relacionadas es ligeramente diferente. Además de clasificar términos y conceptos, Ceryx entiende el significado de las palabras. Por lo tanto, Ceryx puede realizar el proceso de recomendación como SF-IDF+ y CF-IDF+. El sistema de recomendación Bing-CF-IDF+ también se escribió para Ceryx.

The Bing-CF-IDF+ recommender is implemented in the Hermes framework [11], which is a Java-based personalizing news service using Semantic Web technologies. Hermes ingests user queries and RSS feeds of news items, and supports multiple recommendation methods using an internal knowledge base for storing ontological concepts. Hermes provides recommendations based on user profiles that are constructed based on browsing behaviour. Hermes contains several plugins that extend the basic functionality. The Athena plug-in classifies and recommends news items using an internal OWL domain ontology [13]. Next to several concept-based recommender methods, Athena supports an additional profile builder, where a user is allowed to select relevant topics in a visual knowledge graph. The Ceryx plug-in [6] is an extension to Athena. Just like Athena, Ceryx works with a user profile. However, the algorithm to find related news items is slightly different. Besides classifying terms and concepts, Ceryx also determines the senses of words. Therefore, Ceryx is capable of handling recommender methods like SF-IDF+ and CF-IDF+. The Bing-CF-IDF+ recommender is also written for Ceryx.

4 评估

为了评估新推出的 Bing-CF-IDF+ 算法,我们比较它与其他基于概念的替代方案,例如:CF-IDF 和 CF-IDF+,以及传统 TF-IDF 文档。本章首先阐述关于数据和性能度量的实验配置。接下来,讨论语义关系的权重及其性质。最后,比较各算法之间的性能。

In order to evaluate the performance of the newly proposed Bing-CF-IDF+ method, we compare it with its concept-based alternatives, i.e., CF-IDF and CF-IDF+, as well as the TF-IDF baseline. This section starts by elaborating on the experimental setup regarding data and performance measures. Next, the weights of the semantic relationships and their properties are discussed. Last, performance measures are compared.

4.1 测试工具

数据集随机切分为训练集(60%)和测试集(40%)。首先,从训练集中添加用户感兴趣的新闻项,用于创建用户画像。最佳权重由验证集确定,验证集由训练集切分得到,即,训练集切分为等大小的验证集和训练集。我们最终得到三个不同的集合:验证集(30%)、训练集(30%)和测试集(40%)。验证集和测试集由未读新闻项组成。可以先用验证集确定最优权重,再用测试集计算性能。

El conjunto de datos se divide aleatoriamente en un conjunto de entrenamiento y un conjunto de prueba, con respectivamente el 60 % y el 40 % de los datos. Primero, se crea un perfil de usuario agregando las noticias interesantes del conjunto de entrenamiento. Los pesos óptimos se determinan utilizando un conjunto de validación que se crea dividiendo el conjunto de entrenamiento en dos conjuntos de igual tamaño, es decir, un conjunto de validación y un conjunto de entrenamiento. Terminamos teniendo tres conjuntos diferentes: un conjunto de validación (30%), un conjunto de entrenamiento (30%) y un conjunto de prueba (40%). Se considera que el conjunto de validación y el conjunto de prueba consisten en noticias 'no leídas'. El conjunto de validación ahora se puede usar para determinar los pesos óptimos, necesarios para calcular las medidas de rendimiento utilizando el conjunto de prueba más adelante.

Como se mencionó anteriormente, el sistema de recomendación CF-IDF+ calcula la similitud de cada noticia. Si la similitud es mayor que un valor crítico específico, se pueden recomendar las noticias no leídas correspondientes a los usuarios correspondientes. Las recomendaciones se pueden categorizar como verdadero positivo (TP), falso positivo (FP), verdadero negativo (TN) o falso negativo (FN). Las métricas de recuperación de información se pueden elegir de esta matriz de confusión: precisión, recuperación (sensibilidad) y especificidad. Además, podemos derivar el valor F1 (utilizando la media armónica de precisión y la tasa de recuperación) y la curva ROC (tasa de verdaderos positivos o sensibilidad obtenida mediante la operación inversa de la tasa de falsos positivos o 1 menos la sensibilidad) a partir de esto. Finalmente, verificamos si la capacidad de clasificación es mayor que la adivinación aleatoria mediante el cálculo de la estadística Kappa [8]. Los parámetros de las relaciones semánticas se optimizan individualmente a través de un proceso incremental, optimizando el valor F1 global. Además, determine el peso α \alpha de Bing y CF-IDF+El parámetro alfa también se optimiza de manera similar.

Como se discutió anteriormente, el recomendador CF-IDF+ calcula medidas de similitud para cada noticia no leída. En caso de que esta medida de similitud supere un determinado valor de corte, se recomienda al usuario la noticia no leída. Los resultados de los recomendadores se pueden clasificar para las noticias como verdadero positivo (TP), falso positivo (FP), verdadero negativo (TN) o falso negativo (FN). De esta matriz de confusión se puede deducir una selección de métricas de recuperación de información: precisión, recuperación (sensibilidad) y especificidad. Además, podemos deducir las puntuaciones F1 (es decir, la media armónica de precisión y recuperación) y la curva ROC (es decir, la tasa de verdaderos positivos o la sensibilidad trazada frente a la tasa de falsos positivos o 1 − especificidad) a partir de estas medidas. Por último, calculamos el estadístico Kappa [8] para verificar si el poder de clasificación es mayor que una suposición aleatoria. Los parámetros para las relaciones semánticas se optimizan individualmente a través de un procedimiento incremental, optimizando las puntuaciones F1 globales. Además, el parámetro α que determina el peso de las partes Bing y CF-IDF+ se optimiza de manera similar.

Tabla 2. Cantidad de noticias interesantes (I+) y no interesantes (I−), y acuerdo entre anotadores (IAA)

Tema yo+ I- AIA
Asia o sus países 21 79 99%
Mercados financieros 24 76 72%
Google o sus rivales 26 74 97%
servicios web 26 74 94%
Microsoft o sus rivales 29 71 98%
Economías nacionales 33 67 90%
Tecnología 29 71 87%
Estados Unidos 45 55 85%

Tabla 3. Media y varianza de los parámetros del recomendador Bing-CF-IDF+

wsúper w_{súper}wsúper _ _ _ _ wsub w_{sub}wsu b _ wrel w_{rel}wr e l un \ alfaa
$ \en $ 0.426 0.384 0.523 0.170
σ 2 \ sigma ^ 2pag2 0.135 0.120 0.103 0.020

4.2 Optimización de parámetros

Para cada valor crítico, tome 0.01 como valor de paso (incremento) para optimizar los parámetros de peso de las relaciones de superclase, subclase y dominio y, al mismo tiempo, equilibre el α \alpha de las dos medidas de similitudα _ Los resultados se muestran en la Tabla 3, donde se calcularon la media y la varianza de estos parámetros.

Para cada valor de corte, con un incremento de 0.01, optimizamos los parámetros de ponderación para las relaciones de superclase, subclase y dominio, y el α αα que equilibra las dos medidas de similitud. Los resultados se muestran en la Tabla 3, donde se calculan la media y la varianza de cada uno de estos parámetros.

En general, la similitud de Bing tiene un peso menor que CF-IDF+, lo que indica que los valores de entrada de Bing tienen menos impacto en nuestro sistema de recomendación que las relaciones semánticas. Esto apunta al hecho de que los conceptos contienen más información que las entidades nombradas. Además, 44 de las 266 entidades nombradas identificadas aparecen en nuestro conocimiento de dominio usado, lo que indica una pérdida del 20 % de las entidades nombradas disponibles. Sin embargo, α \alphaEl valor de α también es mayor que 0, por lo tanto, es útil utilizar las entidades nombradas de Bing en el método de recomendación. En cuanto a las relaciones semánticas, los conceptos en relaciones de dominio ($w_{rel}$) parecen ser más significativos que los conceptos en subclases, superclases (wsub w_{sub}$ respectivamente) en términos demediawsu b _wsuper w_{super}wsúper _ _ _ _) es más importante, y al mismo tiempo, los conceptos obtenidos a través de la relación de superclase son más importantes que los conceptos obtenidos a través de la relación de subclase. Esto está en línea con los resultados de la investigación de [9] y también con nuestras expectativas, porque, para los elementos que interesan a los usuarios, las superclases brindan información más general, mientras que las subclases son solo manifestaciones adicionales de los intereses de los usuarios.

En promedio, la medida de similitud de Bing tiene un peso menor que la medida CF-IDF+, lo que indica que la entrada de Bing tiene un impacto menor en nuestro recomendador que las relaciones semánticas. Esto puede explicarse por el hecho de que los conceptos contienen más valor informativo que las entidades nombradas. Además, 44 de las 266 entidades nombradas identificadas aparecen en nuestra ontología empleada, lo que indica una pérdida del 20 % de las entidades nombradas disponibles. Sin embargo, α αα es mayor que cero y, por lo tanto, es útil emplear entidades nombradas de Bing en el método de recomendación. En cuanto a las relaciones semánticas, en promedio, los conceptos recuperados a través de relaciones de dominio parecen (wrel w_{rel}wr e l) para ser más importante que las subclases y las superclases ( wsub w_{sub}wsu b _y wsúper w_{súper}wsúper _ _ _ _, respectivamente), y los conceptos recuperados a través de superclases son más importantes que los deducidos de las relaciones de subclase. Esto corresponde a los resultados de [9] y coincide con nuestras expectativas, ya que las superclases brindan información más general sobre el tema de interés, mientras que las subclases corren el riesgo de ser demasiado específicas.

nota del traductor

La última oración es una traducción libre según la comprensión personal.

4.3 Resultados de la prueba

Ahora, habiendo determinado el valor óptimo para cada punto de corte, podemos calcular la precisión global, el recuerdo y la puntuación F1. La Tabla 4 muestra la puntuación F1 promedio de cada sistema de recomendación, y destaca que Bing-CF-IDF+ funciona mejor que otros sistemas de recomendación. De hecho, cuanto más complejo sea el sistema de recomendación, mejor será el rendimiento medio. Como se muestra en la Tabla 5, todas las mejoras son efectivas excepto que CF-IDF supera a TF-IDF.

Ahora que los valores óptimos de los parámetros están determinados para cada valor de corte, podemos calcular las medidas de precisión global, recuperación y F1. La Tabla 4 muestra las puntuaciones medias de F1 para cada recomendador, lo que subraya que Bing-CF-IDF+ supera a los demás recomendadores. De hecho, cuanto más complejo sea el recomendador, mejor será el rendimiento medio. Como se muestra en la Tabla 5, todas las mejoras son significativas, excepto CF-IDF sobre TF-IDF.

Nuestras observaciones se muestran en la Fig. 1a. Del gráfico, queda claro que Bing-CF-IDF+ supera a otros sistemas de recomendación en todo el rango de cortes. En el rango de umbral bajo, TF-IDF funciona mejor que CF-IDF y CF-IDF+ (recuperación inferior a la esperada y precisión superior a la esperada). Debido a la naturaleza de la variante CF-IDF, se esperaba este resultado, ya que cuando usamos conceptos en lugar de términos (o entidades nombradas), adoptamos un enfoque más estricto para hacer coincidir (términos de interés del usuario) con un número menor de características.

Nuestras observaciones también están respaldadas por la figura 1a. A partir de la gráfica, es evidente que, en todo el rango de valores de corte, Bing-CF-IDF+ supera a los otros recomendadores de manera constante. TF-IDF es más eficaz para valores de corte más bajos (es decir, recuperación esperada más alta y precisión esperada más baja) que CF-IDF y CF-IDF+. Debido a la naturaleza de las variantes CF-IDF, este es un resultado esperado, porque cuando usamos conceptos en lugar de términos (o entidades nombradas para el caso), aplicamos un enfoque mucho más restringido con una cantidad muy limitada de tokens (conceptos) para partido en

La Fig. 1b y la Fig. 1c también reflejan este punto. Estos gráficos también muestran que aunque la recuperación de Bing-CF-IDF+ es similar a la de CF-IDF+, la precisión de Bing-CF-IDF+ es significativamente mayor que la de CF-IDF+. Por lo tanto, la introducción de relaciones semánticas parece mejorar la recuperación, mientras que la introducción adicional de entidades nombradas de Bing para mejorar la precisión no afectó la recuperación de CF-IDF.

Esto también se representa en las figuras 1b y 1c. Estas cifras también muestran que, si bien la recuperación de Bing-CF-IDF+ y CF-IDF+ es muy similar, la precisión de BingCF-IDF+ claramente mejora con respecto a CF-IDF+. La recuperación de CF-IDF (y TF-IDF) es mucho menor. Por lo tanto, parece que la adición de relaciones semánticas mejora la recuperación, y la inclusión adicional de entidades nombradas de Bing mejora la precisión, sin hacer concesiones a la recuperación de CF-IDF.

A continuación, evaluamos las curvas características operativas del receptor (curvas ROC) de los métodos propuestos Bing-CF-IDF+, CF-IDF+, CF-IDF y TF-IDF. La curva ROC se muestra en la Fig. 2, y la tasa de falsos positivos de Bing-CF-IDF+ y CF-IDF+ es mejor que la de CF-IDF y TF-IDF. Esto muestra que Bing-CF-IDF+ y CF-IDF+ son más capaces de suprimir falsos positivos en casos más complejos, con mayor recuperación (tasa de verdaderos positivos) y mayor precisión. Sin embargo, a nivel macro de ítems, solo hay una ligera diferencia (alrededor de 0,85) en el área de las curvas entre diferentes sistemas de recomendación. Bing-CF-IDF+ tiene mayor precisión y menor recuperación que TF-IDF.

A continuación, evaluamos las curvas de características operativas del receptor (ROC) para los recomendadores Bing-CF-IDF+, CF-IDF+, CF-IDF y TF-IDF. La curva ROC en la Fig. 2 muestra que Bing-CF-IDF+ y CF-IDF+ superan a CFIDF y TF-IDF en tasas bajas de falsos positivos. Esto indica que la recuperación (tasa de verdaderos positivos) es mayor para (Bing-)CF-IDF+ en situaciones más difíciles frente a un puñado de falsos positivos, es decir, una mayor precisión. Sin embargo, en la gran escala de las cosas, las áreas bajo la curva difieren solo ligeramente entre los recomendadores (el valor es de aproximadamente 0,85). Esto está en línea con la mayor precisión y menor recuperación de Bing-CF-IDF+ en comparación con TF-IDF.

nota del traductor

Aquí el autor dijo mucho, en resumen, según la Fig. 2, podemos saber que Bing-CF-IDF+ y CF-IDF+ tienen mayor precisión y menor recuperación que CF-IDF y TF-IDF (es menos probable que se juzgue el error ).

Finalmente, juzgamos si la clasificación del sistema de recomendación es mejor que la clasificación de conjetura aleatoria mediante el cálculo de las estadísticas Kappa. Cuanto mayor sea su valor, mejor será el efecto de clasificación. Las estadísticas de Kappa de diferentes valores críticos se muestran en la Fig. 3. En la figura se puede ver que las estadísticas Kappa del método de recomendación Bing-CF-IDF+ son más altas que las de los otros tres métodos de recomendación. Solo cuando el valor crítico es 0,25, el coeficiente de Bing-CF-IDF+ es similar a TF-IDF, y cuando el valor crítico es 0,70, es consistente con CF-IDF+. Dado que la estadística Kappa del método de recomendación Bing-CF-IDF+ es significativamente más alta en general, podemos decir que, en general, Bi that-CF-IDF+ tiene una mejor capacidad de clasificación Good.

Por último, calculamos el estadístico Kappa para medir si las clasificaciones propuestas realizadas por el recomendador son mejores que la clasificación realizada por una suposición aleatoria. Los valores más altos indican más poder de clasificación y son los preferidos. En la Fig. 3, se pueden encontrar los resultados de la estadística Kappa para diferentes valores de corte. El gráfico muestra que, en general, la estadística Kappa del recomendador BingCF-IDF+ es más alta que la estadística Kappa de los otros tres recomendadores. Solo para un valor de corte de 0,25, las estadísticas de Bing-CF-IDF+ y TF-IDF son similares, y para un valor de corte de 0,70, las estadísticas de Bing-CF-IDF+ y CF-IDF+ son similares. . Debido a que el recomendador Bing-CF-IDF+ claramente tiene valores más altos para la estadística Kappa sobre todos los valores de corte, podemos afirmar que, en general, el Bing-CF-IDF+ tiene más poder de clasificación que el CF-IDF+,

Fig. 1. Puntuaciones globales de precisión, recuperación y F1 para los recomendadores

Fig. 2. Curva ROC de los recomendadores

Fig. 3. Estadísticas Kappa para los recomendadores

[Falló la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo anti-leeching, se recomienda guardar la imagen y cargarla directamente (img-lk51CqRz-1589347021601)(image-20200513103222972.png)]

5 resumen

En trabajos anteriores, han surgido algunos algoritmos de recomendación nuevos. El TF-IDF tradicional basado en palabras se mejora a métodos como SF-IDF considerando synsets en léxico semántico y CF-IDF considerando conceptos de conocimiento de dominio. CF-IDF+ también hace coincidir el contenido de las noticias en función de conceptos relacionados, como subclases y superclases. Sin embargo, cuando el conocimiento del dominio ignora una entidad nombrada, no aparecerá en los resultados de la recomendación. Por lo tanto, presentamos la similitud Bing-CF-IDF+, que agrega dos pasos al valor de similitud de búsqueda web de Bing de las entidades nombradas sobre la base de la medida de similitud CF-IDF+.

En trabajos anteriores, se han propuesto varios métodos de recomendación nuevos. El TF-IDF tradicional basado en términos se mejoró con métodos como SF-IDF y CF-IDF, que tienen en cuenta conjuntos sintéticos de un léxico semántico y conceptos de una ontología de dominio, respectivamente. La medida de similitud CF-IDF+ también coincide con artículos de noticias basados ​​en conceptos relacionados como subclases y superclases. Sin embargo, las entidades nombradas no están completamente cubiertas en las recomendaciones cuando se omiten en la ontología del dominio. Por lo tanto, hemos introducido la medida de similitud BingCF-IDF+, que es un procedimiento de dos pasos que amplía la medida de similitud CF-IDF+ con puntuaciones de similitud de búsqueda web de Bing para entidades nombradas.

Para evaluar el rendimiento del nuevo sistema de recomendación Bing-CF-IDF+, hemos optimizado los pesos de la relación semántica entre conceptos en Bing y CF-IDF+. Los parámetros de los sistemas de recomendación semánticos relacionales, basados ​​en conceptos y basados ​​en entidades nombradas se optimizan mediante la búsqueda en cuadrícula para maximizar el F 1 F1 global para cada valor críticoValor F 1 , es decir, el valor mínimo (verosimilitud) de la noticia mínima que se recomienda. Hemos probado el rendimiento de Bing-CF-IDF+ con 100 noticias financieras y 8 retratos de usuarios. Los resultados de nuestra evaluación muestran que la medida de similitud Bing-CF-IDF+ es mejor queF 1 F1En términos de valor F 1 y estadísticas Kappa, es mejor que TF-IDF, CF-IDF y CF-IDF+.

Para evaluar el rendimiento del nuevo recomendador Bing-CF-IDF+, hemos optimizado los pesos para las relaciones semánticas entre los conceptos y para los propios recomendadores Bing y CF-IDF+. Estos parámetros se optimizan mediante una búsqueda en cuadrícula tanto para las relaciones semánticas como para los recomendadores basados ​​en conceptos y entidades nombradas, al tiempo que se maximiza la F 1 F1 globalF 1 -medida por valor de corte, es decir, la puntuación mínima para recomendar una noticia. Hemos probado el rendimiento de Bing-CF-IDF+ frente a recomendadores existentes en 100 noticias financieras y 8 perfiles de usuario. En nuestra evaluación, hemos demostrado que la medida de similitud Bing-CF-IDF+ supera a TF-IDF, CF-IDF y CF-IDF+ en términos de F1 F1Medida F 1 y el estadístico Kappa.

Visualizamos una variedad de direcciones de trabajo futuras. La optimización de parámetros ahora se ha realizado con la búsqueda de cuadrícula incremental. Las estrategias también se pueden refinar aún más utilizando algoritmos como la evolución genética. Además, deseamos estudiar colecciones más grandes de relaciones. Ahora, hemos considerado superclases y subclases inmediatas. Pero también es valioso asumir superclases indirectas y subclases de conceptos. Finalmente, una evaluación más completa y autorizada basada en una colección más grande de noticias reflejará mejor el poderoso desempeño de Bing-CF-IDF+.

Prevemos varias direcciones para el trabajo futuro. La optimización de parámetros se ha realizado mediante una búsqueda de cuadrícula incremental. Esto podría mejorar aplicando estrategias de optimización más avanzadas, como algoritmos genéticos. Además, nos gustaría investigar una colección más grande de relaciones. Ahora, hemos considerado las superclases y subclases directas, pero hipotéticamente, las superclases y subclases no directas de conceptos también podrían ser valiosas. Por último, una evaluación más completa y poderosa basada en un conjunto más amplio de noticias subrayaría aún más el sólido desempeño de Bing-CF-IDF+.

nota del traductor

Grid-search es un medio para ajustar parámetros. Es un tipo de búsqueda de enumeración. Por ejemplo , si un modelo tiene dos parámetros, a saber, A y B, y enumera todas las posibilidades de A y todas las posibilidades de B, cada una de las cuales representa una dimensión, se puede obtener una tabla bidimensional y cada elemento de la tabla es una posibilidad. sexo. En este momento, el método de búsqueda de cuadrícula es recorrer la tabla y sustituir todas las combinaciones de parámetros en el modelo para calcular el rendimiento de cada combinación, y se puede obtener al menos una combinación de parámetros con el rendimiento más alto. Referencia recomendada: https://www.jiqizhixin.com/graph/technologies/0b250c7d-d9ad-4c03-8503-c0b9e82685a3.

referencias

  1. Adomavicius, G., Tuzhilin, A.: Hacia la próxima generación de sistemas de recomendación: un estudio del estado del arte y posibles extensiones. IEEE Transactions on Knowledge and Data Engineering 17(6), 734–749 (2005)
  2. Banerjee, S., Pedersen, T.: Un algoritmo de Lesk adaptado para la desambiguación del sentido de las palabras usando WordNet. En: Gelbukh, AF (ed.) 4ª Conferencia Internacional sobre Lingüística Computacional y Procesamiento Inteligente de Textos (CICLING 2002). Apuntes de conferencias en informática, vol. 2276, págs. 136–145. saltador (2002)
  3. Bing: API de Bing 2.0. Papel blanco. De: http://www.bing.com/developers/s/APIBasics.html (2018)
  4. Bouma, G.: Información mutua normalizada (puntualmente) en la extracción de colocación. En: Chiarcos, C., de Castilho, RE, Stede, M. (eds.) Conferencia Bienal GSCL 2009 (GSCL 2009). págs. 31–40. Gunter Narr Verlag Tubinga (2009)
  5. Burke, R.: Sistemas de recomendación híbridos: encuestas y experimentos. Modelado de usuario e interacción adaptada al usuario 12(4), 331–370 (2002)
  6. Capelle, M., Moerland, M., Frasincar, F., Hogenboom, F.: recomendación de noticias basada en la semántica. En: Akerkar, R., B˘adic˘a, C., Dan Burdescu, D. (eds.) 2nd International Conference on Web Intelligence, Mining and Semantics (WIMS 2012). MCA (2012)
  7. Capelle, M., Moerland, M., Hogenboom, F., Frasincar, F., Vandic, D.: Bing-SFIDF+: un recomendador de noticias basado en la semántica híbrida. En: Wainwright, RL, Corchado, JM, Bechini, A., Hong, J. (eds.) 30th Symposium on Applied Computing (SAC 2015), Web Technologies Track. págs. 732–739. MCA (2015)
  8. Cohen, J.: Un coeficiente de concordancia para escalas nominales. Medición educativa y psicológica 20 (1), 37–46 (1960)
  9. de Koning, E., Hogenboom, F., Frasincar, F.: recomendación de noticias con CFIDF+. En: Krogstie, J., Reijers, HA (eds.) 30th International Conference on Advanced Information Systems Engineering (CAiSE 2018). Apuntes de conferencias en informática, vol. 10816, págs. 170–184. Primavera (2018)
  10. Fellbaum, C.: WordNet: una base de datos léxica electrónica. Prensa del MIT (1998)
  11. Frasincar, F., Borsje, J., Levering, L.: Un enfoque basado en la web semántica para crear servicios de noticias personalizados. Revista internacional de investigación de comercio electrónico 5 (3), 35–53 (2009)
  12. Goossen, F., IJntema, W., Frasincar, F., Hogenboom, F., Kaymak, U.: Personalización de noticias usando el recomendador semántico CF-IDF. En: Akerkar, R. (ed.) Conferencia internacional sobre inteligencia web, minería y semántica (WIMS 2011). MCA (2011)
  13. IJntema, W., Goossen, F., Frasincar, F., Hogenboom, F.: Recomendación de noticias basada en ontologías. En: Daniel, F., Delcambre, LML, Fotouhi, F., Garrig´os, I., Guerrini, G., Maz´on, JN, Mesiti, M., M¨uller-Feuerstein, S., Trujillo, J., Truta, TM, Volz, B., Waller, E., Xiong, L., Zim´anyi, E. (eds.) International Workshop on Business intelligencE and the WEB (BEWEB 2010) at 13th International Conference on Extending Tecnología de bases de datos y Decimotercera Conferencia Internacional sobre Teoría de Bases de Datos (EDBT/ICDT 2010). MCA (2010)
  14. Jannach, D., Resnick, P., Tuzhilin, A., Zanker, M.: Sistemas de recomendación: más allá de la finalización de la matriz. Comunicaciones de la ACM 59(11), 94–102 (2016)
  15. Jensen, AS, Boss, NS: Similitud textual: Comparación de textos para descubrir qué tan cerca tratan los mismos temas. Tesis de Licenciatura, Universidad Técnica de Dinamarca (2008)
  16. Jones, KS: Una interpretación estadística de la especificidad del término y su aplicación en
    la recuperación. Revista de documentación 28 (1), 11–21 (1972)
  17. Moerland, M., Hogenboom, F., Capelle, M., Frasincar, F.: recomendación de noticias basada en la semántica con SF-IDF+. En: Camacho, D., Akerkar, R., Rodr´ıguez-Moreno, MD (eds.) 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS 2013). MCA (2013)
  18. Robal, T., Haav, H., Kalja, A.: Hacer explícitos los modelos de dominio de los usuarios de la Web mediante la aplicación de ontologías. En: Hainaut , J , Rundensteiner , EA , Kirchberg , M , Bertolotto , M , Brochhausen , M , Chen , YP , Cherfi , SS , Doerr , M , Han , H , Hartmann , S , Parsons , J. , Poels , G . , Rolland , C. , Trujillo , J. , Yu , ESK , Zim ́anyi , E. (eds.) Avances en Modelado Conceptual - Fundamentos y Aplicaciones, ER 2007 Talleres CMLSA, FP-UML , ONISW, QoIS, RIGiM, SeCoGIS . Apuntes de conferencias en informática, vol. 4802, págs. 101-1 170–179. saltador (2007)
  19. Robal, T., Kalja, A.: Predicción conceptual de acciones de usuarios web para recomendaciones de navegación basadas en ontologías. En: Papadopoulos, GA, Wojtkowski, W., Wojtkowski, WG, Wrycza, S., Zupancic, J. (eds.) 17th International Conference on Information Systems Development (ISD 2008). págs. 121–129. saltador (2010)
  20. Robal, T., Kalja, A.: Aplicación del modelo de dominio de usuario para mejorar las recomendaciones web. En: Caplinskas, A., Dzemyda, G., Lupeikiene, A., Vasilecas, O. (eds.) Bases de datos y sistemas de información VII - Documentos seleccionados de la Décima Conferencia Internacional del Báltico (DB&IS 2012). Fronteras en inteligencia artificial y aplicaciones, vol. 249, págs. 118–131. Prensa IOS (2013)
  21. Salton, G., Buckley, C.: Enfoques de ponderación de términos en la recuperación automática de texto. Procesamiento y gestión de la información 24(5), 513–523 (1988)
  22. Sekine, S., Ranchhod, E. (eds.): Entidades Nombradas: Reconocimiento, clasificación y uso. Compañía editorial John Benjamins (2009)

Supongo que te gusta

Origin blog.csdn.net/qq_23937195/article/details/106096188
Recomendado
Clasificación