Construction d'une carte conceptuelle de bon sens et son application dans les scénarios Meituan

Introduction

Dans le traitement du langage naturel, nous réfléchissons souvent à la manière de faire du bon travail en matière de compréhension du langage naturel. Pour nous, les humains, pour comprendre les informations textuelles dans un certain langage naturel, nous utilisons généralement les informations actuelles pour corréler les informations associées stockées dans notre cerveau, et enfin comprendre les informations. Par exemple, « Il n'aime pas manger des pommes, mais il aime manger de la glace. » Lorsque les gens comprennent cela, ils associent les informations cognitives dans le cerveau : les pommes sont sucrées et ont une texture légèrement croustillante ; la glace est plus sucrée que les pommes. et a une texture douce et froide, qui convient à l'été. Il peut soulager la chaleur estivale, les enfants préfèrent manger des bonbons et des glaces. Ainsi, combinées à ces connaissances, plusieurs raisons de préférer la crème glacée seront déduites. Cependant, de nombreux travaux actuels de compréhension du langage naturel se concentrent encore sur le niveau de l'information. Le travail de compréhension actuel est similaire à une probabilité bayésienne, recherchant le maximum d'informations textuelles qui remplissent les conditions du texte d'entraînement connu.

Dans le traitement du langage naturel, comprendre le texte comme un être humain est le but ultime du traitement du langage naturel. Par conséquent, de plus en plus de recherches introduisent désormais des connaissances supplémentaires pour aider les machines à comprendre les textes en langage naturel. Les informations textuelles pures ne sont que l'expression de faits objectifs externes, tandis que les connaissances sont l'induction et la synthèse de faits objectifs externes basés sur des informations textuelles.Par conséquent, des informations de connaissances auxiliaires sont ajoutées au traitement du langage naturel pour améliorer la compréhension du langage naturel.

L’établissement d’un système de connaissances est un moyen direct d’aider à une compréhension plus précise du langage naturel. Des graphes de connaissances sont proposés autour de cette idée, en espérant qu’en donnant aux machines des connaissances explicites, elles puissent raisonner et comprendre comme les humains. C'est pourquoi, en 2012, Google a officiellement proposé le concept de Knowledge Graph, dont l'intention initiale était d'optimiser les résultats renvoyés par le moteur de recherche et d'améliorer la qualité et l'expérience de recherche de l'utilisateur.

Figure 1 Informations et connaissances

Figure 1 Informations et connaissances

2. Introduction aux cartes conceptuelles de bon sens

La cartographie conceptuelle de bon sens consiste à établir la relation entre les concepts et à aider à la compréhension des textes en langage naturel. Dans le même temps, notre carte conceptuelle de bon sens se concentre sur le scénario Meituan pour aider à améliorer les effets de recherche, de recommandation, de flux de flux, etc. dans le scénario Meituan.

Selon le besoin de compréhension, il existe principalement trois dimensions de compréhension :

  1. Qu'est-ce que c'est , quel est le concept, et établir un système connexe de ce qu'est le concept de base. Par exemple, "réparer une machine à laver", qu'est-ce que "réparer", qu'est-ce que "machine à laver".
  2. Quoi , les attributs d'un certain aspect du concept de base, le raffinement d'un certain aspect du concept de base. Parmi « restaurant avec terrasse », « parc d'attractions parent-enfant » et « gâteau aux fruits », « avec terrasse », « parent-enfant » et « gâteau aux fruits » sont tous des attributs d'un certain aspect du concept de base, donc le concept de base doit être établi. Attributs correspondants et associations entre les valeurs d'attribut.
  3. Donnez quelque chose pour combler l'écart entre le concept de recherche et le concept d'entreprise. Par exemple, "lire", "faire les courses", "promener le bébé", etc. n'ont pas de concept d'offre correspondant clair, donc un réseau de corrélation entre la recherche et des concepts d'approvisionnement sont établis pour résoudre ce problème.

En résumé, il couvre le concept de « ce qui est », l'architecture de la taxonomie, le concept de « quoi », la relation d'attribut, et le concept de « quoi donner », le concept de relation d'héritage. Dans le même temps, les POI (Point of Interesting), SPU (Standard Product Unit) et les commandes de groupe, comme exemples dans le scénario Meituan, doivent être connectés aux concepts de la carte.

Figure 2 Relation selon la carte conceptuelle de bon sens

Figure 2 Relation selon la carte conceptuelle de bon sens

À partir des objectifs de construction, le travail global de construction de la carte conceptuelle de bon sens est démantelé et divisé en trois types de nœuds et quatre types de relations. Le contenu spécifique est le suivant.

2.1 Trois types de nœuds de graphe

Nœud de taxonomie : Dans la carte conceptuelle, la compréhension d'un concept nécessite un système de connaissances raisonnable. Le système de connaissances de taxonomie prédéfini sert de base à la compréhension. Le système prédéfini est divisé en deux types de nœuds : le premier type peut être utilisé dans le scénario Meituan. . Ceux qui apparaissent comme des catégories principales, telles que les ingrédients, les éléments et les lieux ; les autres types apparaissent comme des moyens de limiter les catégories principales, telles que les couleurs, les méthodes et les styles. La définition de ces deux types de nœuds peut aider à la compréhension de la recherche, de la recommandation, etc. Les nœuds de taxonomie actuellement prédéfinis sont présentés dans la figure ci-dessous :

Figure 3 Système prédéfini de taxonomie de carte

Figure 3 Système prédéfini de taxonomie de carte

Nœud de concept atomique : le plus petit nœud d'unité sémantique qui constitue le graphique, les plus petits mots granulaires avec une sémantique indépendante, comme une célébrité sur Internet, un café pour chiens, un visage, une hydratation, etc. Tous les concepts atomiques définis doivent être attachés au nœud de taxonomie défini.

Nœud de concept composite : Un nœud de concept composé de concepts atomiques et d'attributs correspondants, tels que l'hydratation du visage, l'hydratation du visage, etc. Les concepts composés doivent établir une relation hyperonyme avec leurs concepts de mots de base correspondants.

2.2 Quatre types de relations dans les graphiques

Relation synonyme/hyperonyme : Relation sémantique synonyme/hyperonyme, telle que hydratation faciale-hydratation syn-faciale, etc. Le système de taxonomie défini est également une relation hyperonyme, il est donc fusionné dans la relation synonyme/hyperonyme.

Figure 4 Exemples d'hyponymie et de relations synonymes

Figure 4 Exemples d'hyponymie et de relations synonymes

Relation d'attribut de concept : il s'agit d'une relation CPV (Concept-Propriété-Valeur) typique, qui décrit et définit des concepts issus de diverses dimensions d'attribut, tels que le goût de la fondue-pas épicé, la spécification de la fondue-une seule personne, etc. comme suit:

Figure 5 Exemple de relation d'attribut conceptuel

Figure 5 Exemple de relation d'attribut conceptuel

Les relations entre attributs de concept comprennent deux catégories.

Attributs de concept prédéfinis : actuellement, nous prédéfinissons les attributs de concept typiques comme suit :

Figure 6 Propriétés prédéfinies

Figure 6 Propriétés prédéfinies

Attributs de concept ouvert : en plus des attributs de concept public définis par nous-mêmes, nous extrayons également certains mots d'attribut spécifiques du texte et complétons certains mots d'attribut spécifiques. Par exemple, la posture, le thème, le confort, la réputation, etc.

Relation d'héritage de concepts : Ce type de relation établit principalement des liens entre les concepts de recherche des utilisateurs et les concepts d'héritage Meituan, tels que sortie de printemps-lieu-jardin botanique, réduction du stress-projet-boxe, etc.

La relation d'héritage des concepts prend « l'événement » comme noyau et définit un type de concepts d'offre qui peuvent répondre aux besoins des utilisateurs tels que « lieu », « article », « foule », « temps » et « fonction ». En prenant comme exemple l'événement « blanchiment », le « blanchiment » en tant que demande d'un utilisateur peut être satisfait par différents concepts d'approvisionnement, tels que les salons de beauté, les injections d'eau et de lumière, etc. Actuellement, plusieurs types de relations d'héritage sont définis comme le montre la figure ci-dessous :

Figure 7 Type de relation d'héritage de concept

Figure 7 Type de relation d'héritage de concept

Relation POI/SPU-concept : POI est une instance dans le scénario Meituan, et la relation instance-concept est le dernier arrêt du graphe de connaissances. C'est souvent l'endroit où la valeur métier du graphe de connaissances peut s'exercer pleinement. Dans des scénarios commerciaux tels que la recherche et la recommandation, l'objectif ultime est de pouvoir afficher les POI qui répondent aux besoins des utilisateurs. Par conséquent, l'établissement de la relation POI/SPU-concept est une partie importante de la carte conceptuelle de bon sens de l'ensemble du scénario Meituan, et ce sont aussi des données relativement précieuses.

3. Construction d’une carte conceptuelle de bon sens

Le cadre général de la construction d’un graphique est présenté dans la figure ci-dessous :

Figure 8 Le travail global de construction de la carte conceptuelle

Figure 8 Le travail global de construction de la carte conceptuelle

3.1 Exploration de concepts

Diverses relations dans la carte conceptuelle du sens commun sont construites autour de concepts, et l'exploration de ces concepts est la première étape dans la construction de la carte conceptuelle du sens commun. Selon les deux types de concepts atomiques et de concepts composites, les méthodes correspondantes sont adoptées pour l'exploitation minière.

3.1.1 Exploration du concept atomique

Les concepts atomiques candidats proviennent des plus petits fragments après segmentation des mots du texte, tels que Query, UGC (User Generated Content) et Tuandan. Les critères de jugement pour les concepts atomiques sont qu'ils doivent répondre aux trois caractéristiques de popularité, de signification et d'exhaustivité.

  1. Popularité , un concept doit être un mot très populaire dans un ou plusieurs corpus. Cette caractéristique est principalement mesurée par les caractéristiques de fréquence. Par exemple, le volume de recherche du mot "desktop kill" est très faible et la fréquence dans le corpus UGC est également très faible. , ne répond pas à l'exigence de popularité.
  2. Significatif , un concept doit être un mot significatif. Cette caractéristique est principalement mesurée par des caractéristiques sémantiques. Par exemple, "chat" et "chien" ne représentent généralement qu'un simple nom sans autres significations réelles.
  3. L'exhaustivité , un concept doit être un mot complet. Cette caractéristique est principalement mesurée par la proportion de recherches indépendantes (le volume de recherche du mot en tant que requête / le volume total de recherche de la requête contenant le mot). Par exemple, "conception pour enfants " est une erreur. Les candidats à la segmentation de mots ont une fréquence élevée dans l'UGC, mais ont une faible proportion de recherches indépendantes.

Sur la base des caractéristiques ci-dessus du concept atomique, le modèle de classification XGBoost est entraîné avec des données d'entraînement automatiquement construites par annotation manuelle et règles pour juger si le concept atomique est raisonnable.

3.1.2 Exploitation minière de concept composé

Les concepts composites candidats proviennent de la combinaison de concepts atomiques. Puisque des combinaisons sont impliquées, le jugement des concepts composites est plus complexe que le jugement des concepts atomiques. Le concept composé nécessite un certain niveau de compréhension au sein de Meituan tout en garantissant une sémantique complète. Selon le type de problème, la structure du modèle Wide&Deep est adoptée. Le côté Deep est responsable du jugement sémantique et le côté Wide introduit les informations dans le site.

Figure 9 Modèle Wide&Deep pour l’exploration de concepts composés

Figure 9 Modèle Wide&Deep pour l’exploration de concepts composés

La structure du modèle présente les deux caractéristiques suivantes pour juger plus précisément la rationalité des concepts composites :

  1. Structure de modèle large et profonde : combiner des fonctionnalités discrètes avec des modèles profonds pour déterminer si les concepts composites sont raisonnables.
  2. Fonction d'intégration de graphiques : introduisez les informations associées entre les combinaisons de mots, telles que "nourriture" peut être associée à "foules", "méthodes de cuisson", "qualité", etc.

3.2 Hypernymie conceptuelle minière

Après avoir acquis un concept, vous devez encore comprendre « ce qu'est » un concept. D'une part, vous pouvez le comprendre à travers la relation hyperonyme dans le système de connaissances taxonomique artificiellement défini, et d'autre part, vous pouvez le comprendre à travers le relation hyponymique entre concepts.

3.2.1 Relation supérieur et subordonné Concept-Taxonomie

La relation éponyme entre les concepts et la taxonomie consiste à comprendre ce qu'est un concept à travers un système de connaissances défini manuellement. Puisque le type taxonomie est un type défini manuellement, ce problème peut être transformé en un problème de classification. Dans le même temps, un concept peut avoir plusieurs types dans le système de taxonomie. Par exemple, "poisson lime" est à la fois un "animal" et un "ingrédient alimentaire", ce problème est donc finalement traité comme une tâche de typage d'entité. Le concept et son contexte correspondant sont utilisés comme entrée du modèle, et différentes catégories de taxonomie sont placées dans le même espace pour le jugement. La structure spécifique du modèle est présentée dans la figure ci-dessous :

Figure 10 Modèle relationnel de taxonomie BERT

Figure 10 Modèle relationnel de taxonomie BERT

3.2.2 Relation concept-hypernyme entre concepts

Le système de connaissances utilise des types artificiellement définis pour comprendre ce qu'est un concept, mais les types artificiellement définis sont toujours limités. Si l'hypernyme n'est pas dans le type artificiellement défini, une telle relation hyperonyme ne peut pas être comprise. Par exemple, on peut comprendre à travers la relation concept-taxonomie que les « instruments de musique occidentaux », les « instruments de musique » et « Erhu » sont tous une sorte d'« objet », mais il n'y a aucun moyen d'obtenir la relation entre « les instruments de musique occidentaux ». instruments" et "Instruments de musique", "Erhu" et "Instruments de musique". La relation supérieure-inférieure entre eux. Sur la base des problèmes ci-dessus, les deux méthodes suivantes sont actuellement utilisées pour explorer les relations d'hyperhyperymie entre les concepts :

La méthode basée sur des règles lexicales : résout principalement la relation hyponymique entre les concepts atomiques et les concepts composés, et utilise des relations candidates pour inclure lexicalement la relation (telle que instrument de musique occidental-instrument) pour exploiter la relation hyponymique.

Méthode basée sur le jugement contextuel : Les règles lexicales peuvent résoudre le jugement de paires de relations hypernymes et hyponymes qui contiennent des relations lexicalement incluses. Pour les paires de relations hypernymes et hyponymes qui n'ont pas de relations d'inclusion lexicales, telles que « erhu-instrument », il faut d'abord découvrir la relation hypernyme et extraire des candidats de relation tels que « erhu-instrument », puis juger la relation hypernyme et déterminer que « « Erhu-instrument » est une paire de relation hybride supérieure raisonnable. Considérant que lorsque les gens expliquent un objet, ils présenteront le type de l'objet. Par exemple, en expliquant le concept de "erhu", ils mentionneront "erhu est un instrument de musique traditionnel". À partir d'un tel texte explicatif, les deux paires de candidats à la relation tels que « erhu-instrument » peuvent être extraits, et si la paire de relations candidates est raisonnable peut également être jugée en même temps. Ici, l'exploration des relations supérieures et hyponymiques est divisée en deux parties : l'extraction de la description de la relation candidate et la classification des relations supérieures et hyponymiques :

  1. Extraction de description de relation candidate : deux concepts appartiennent au même type de taxonomie. Il s'agit d'une paire de concepts candidats et d'une condition nécessaire pour une paire de relations hyponymiques. Par exemple, "erhu" et "instrument" appartiennent tous deux à des "éléments" définis dans la taxonomie. système. Selon le concept- Le résultat de la relation d'hyponymie de la taxonomie. Pour que le concept soit exploité pour la relation d'hyponymie, les concepts candidats qui sont cohérents avec son type de taxonomie forment des paires de relations candidates, puis basés sur la cooccurrence Parmi les paires de relations candidates dans le texte, celles utilisées pour la classification des relations hyponymiques sont sélectionnées.Descripteurs relationnels candidats.
  2. Classification des relations hypernymes et hyponymes : Après avoir obtenu les phrases de description de relation candidates, il est nécessaire de juger si les relations hypernymes et hyponymes sont raisonnables en fonction du contexte. Ici, les positions de début et de fin des deux concepts dans le texte sont marquées par marqueurs spéciaux, et deux Les vecteurs à la marque de position de départ du concept dans le texte sont assemblés comme une représentation de la relation entre les deux. Sur la base de cette représentation, les relations supérieures et inférieures sont classées. Le vecteur représente le sortie du résultat à l'aide de BERT. La structure détaillée du modèle est présentée dans la figure ci-dessous :

Figure 11 Modèle de relation supérieure et inférieure BERT

Figure 11 Modèle de relation supérieure et inférieure BERT

Dans la construction des données d'entraînement, étant donné que les phrases exprimant la relation hyponymique sont très rares, un grand nombre de phrases concomitantes n'indiquent pas clairement si la paire de relations candidates a une relation hyponymique. La relation hypernymique existante est utilisée pour construire la relation hyponymique. données en utilisant la supervision à distance. Cela n'est pas réalisable, donc le modèle est formé directement à l'aide de l'ensemble de formation étiqueté manuellement. Étant donné que le nombre d'annotations manuelles est relativement limité et que leur ampleur se compte en milliers, l'algorithme d'apprentissage semi-supervisé de Google UDA (Unsupervised Data Augmentation) est utilisé pour améliorer l'effet du modèle. La précision finale peut atteindre plus de 90 %. Les indicateurs détaillés sont indiqué dans le tableau 1 :

Tableau 1 L'effet d'amélioration de l'utilisation de l'UDA sous différentes quantités de données d'entraînement

Tableau 1 L'effet d'amélioration de l'utilisation de l'UDA sous différentes quantités de données d'entraînement

3.3 Exploration des relations entre les attributs du concept

Les attributs contenus dans un concept peuvent être divisés en attributs publics et attributs ouverts selon que les attributs sont universels ou non. Les attributs publics sont des attributs définis manuellement et inclus dans la plupart des concepts, tels que le prix, le style, la qualité, etc. Les attributs ouverts font référence à des attributs qui ne sont inclus que dans certains concepts spécifiques. Par exemple, « transplantation de cheveux », « extensions de cils » et « script kill » contiennent respectivement les attributs ouverts « densité », « courbure » et « logique ». Il existe bien plus de propriétés ouvertes que de propriétés publiques. Pour ces deux relations d'attributs, nous utilisons les deux méthodes suivantes pour extraire.

3.3.1 Exploration des relations d'attributs publics basées sur des concepts composites

En raison de la polyvalence des attributs publics, la valeur dans la relation d'attribut public (CPV) apparaît généralement en combinaison avec le concept sous la forme d'un concept composite, par exemple centres commerciaux abordables, cuisine japonaise et film rouge HD. Nous transformons la tâche d'exploration de relations en analyse de dépendances et en tâches NER à granularité fine (veuillez vous référer à l'article " Exploration et pratique de la technologie NER dans Meituan Search "). L'analyse de dépendance identifie les entités principales et les composants modifiés dans le concept composé, et -valeurs d'attributs spécifiques au jugement NER à grain. Par exemple, étant donné le concept composite « film rouge HD », l'analyse des dépendances identifie le concept principal de « film », « rouge » et « HD » sont des attributs de « film », et le NER à grain fin prédit que les valeurs d'attribut sont respectivement « Style ». ) », « Évaluation de la qualité (HD) ».

L'analyse des dépendances et le NER à granularité fine contiennent des informations qui peuvent être utilisées mutuellement, telles que les types d'entités « Graduation Doll », « Time » et « Product », et « Doll » sont les informations de dépendance du mot principal, qui peuvent être utilisées mutuellement. Facilite la formation afin que les deux tâches soient apprises conjointement. Cependant, comme le degré de corrélation entre les deux tâches n'est pas clair et qu'il y a beaucoup de bruit, Meta-LSTM est utilisé pour optimiser l'apprentissage conjoint du niveau de fonctionnalité dans l'apprentissage conjoint du niveau de fonction, transformer le partage dur en dynamique. partage et réduire le coût des deux tâches.Effets de bruit entre les tâches.

L'architecture globale du modèle est la suivante :

Figure 12 : Modèle d'apprentissage conjoint NER à granularité fine et analyse des dépendances

Figure 12 : Modèle d'apprentissage conjoint NER à granularité fine et analyse des dépendances

Actuellement, la précision globale des relations de modification de concept est d'environ 85 %.

3.3.2 Exploration de relations d'attributs spécifiques basées sur des mots d'attribut ouverts

Exploration de mots d'attribut ouverts et de valeurs d'attribut

Les relations d'attributs ouverts nécessitent l'exploration d'attributs uniques et de valeurs d'attribut de différents concepts. La difficulté réside dans l'identification des attributs ouverts et des valeurs d'attribut ouverts. En observant les données, nous avons constaté que certaines valeurs d'attributs communes (par exemple : bon, mauvais, élevé, faible, plus, moins) apparaissent généralement en conjonction avec des attributs (par exemple : bon environnement, température élevée, flux important de personnes). ). Par conséquent, nous adoptons une méthode d'amorçage basée sur un modèle pour extraire automatiquement les attributs et les valeurs d'attribut à partir des commentaires des utilisateurs. Le processus d'exploration est le suivant :

Figure 13 Processus d'exploration d'attributs ouvert

Figure 13 Processus d'exploration d'attributs ouvert

Après l'exploration des mots d'attribut ouverts et des valeurs d'attribut, l'exploration des relations d'attributs ouvertes est divisée en l'exploration de tuples « concept-attribut » et l'exploration de triplets « concept-attribut-valeur d'attribut ».

Exploration de concepts et d'attributs

L'exploration des couples « concept-attribut » consiste à déterminer si le concept Concept contient l'attribut Propriété. Les étapes de minage sont les suivantes :

  • Selon les caractéristiques de cooccurrence des concepts et des attributs dans l'UGC, l'algorithme de variantes TFIDF est utilisé pour extraire les attributs typiques correspondant aux concepts candidats.
  • Construisez les attributs conceptuels candidats dans des phrases d'expression naturelle simples, utilisez le modèle de langage de maîtrise pour déterminer la fluidité de la phrase et conservez les attributs conceptuels avec une grande fluidité.

Exploration de la valeur concept-attribut-attribut

Après avoir obtenu le tuple « concept-attribut », les étapes pour extraire les valeurs d'attribut correspondantes sont les suivantes :

  • Creusage des graines . Les graines minières triplent à partir de l'UGC en fonction des fonctionnalités de cooccurrence et des modèles de langage.
  • Exploration de modèles . Utilisez des triples de départ pour créer des modèles appropriés à partir de l'UGC (par exemple, « La température de l'eau est-elle appropriée est un critère important pour choisir une piscine. »).
  • génération de relations . Le modèle est rempli de triples de départ et un modèle de langage masqué est formé pour la génération de relations.

Figure 14 Modèle de génération de relations entre attributs de concepts

Figure 14 Modèle de génération de relations entre attributs de concepts

Actuellement, la précision des relations entre les attributs des concepts dans les champs ouverts est d'environ 80 %.

3.4 Relations d'héritage du concept minier

La relation d'héritage de concept consiste à établir l'association entre le concept de recherche d'utilisateur et le concept d'héritage Meituan. Par exemple, lorsqu'un utilisateur recherche "sortie", la véritable intention est de trouver "un lieu propice à la sortie", la plateforme le fait donc à travers des concepts tels que "parc rural" et "jardin botanique". L'exploration des relations doit être effectuée de 0 à 1, donc tout le concept d'exploration des relations est basé sur la conception de différents algorithmes d'exploration en fonction de l'objectif d'exploration à différentes étapes, qui peuvent être divisées en trois étapes : ① extraction de graines au début; ② exploration de modèles discriminants profonds à moyen terme; ③ Achèvement de la relation à un stade ultérieur. Les détails sont les suivants.

3.4.1 Exploration de données de départ basées sur des caractéristiques de cooccurrence

Afin de résoudre le problème du démarrage à froid dans les tâches d'extraction de relations, l'industrie utilise généralement la méthode Bootstrapping pour développer automatiquement les données du corpus via un petit nombre de graines et de modèles définis manuellement. Cependant, la méthode Bootstrapping n'est pas seulement limitée par la qualité du modèle, mais présente également des défauts naturels lorsqu'elle est appliquée aux scénarios Meituan. La principale source du corpus de Meituan sont les avis des utilisateurs, et les expressions des avis des utilisateurs sont très familières et diverses, ce qui rend difficile la conception d'un modèle universel et efficace. Par conséquent, nous avons abandonné la méthode basée sur un modèle et avons plutôt construit un réseau d'apprentissage par comparaison ternaire basé sur les caractéristiques de cooccurrence et les caractéristiques de catégorie entre les entités pour extraire automatiquement les informations de corrélation potentielles entre les relations d'entités à partir d'un texte non structuré.

Plus précisément, nous avons observé de grandes différences dans la répartition des entités dans les avis des utilisateurs selon les différentes catégories de commerçants. Par exemple, l'UGC dans la catégorie alimentation implique souvent « dîner ensemble », « commander des plats » et « restaurants » ; l'UGC dans la catégorie fitness implique souvent « perte de poids », « entraînement personnel » et « salle de sport » ; et « décoration ». " , "lobby" et d'autres entités communes apparaîtront sous chaque catégorie. Par conséquent, nous avons construit un réseau d'apprentissage par comparaison ternaire afin que les commentaires des utilisateurs de la même catégorie soient représentés comme étant proches et que les commentaires des utilisateurs dans différentes catégories soient représentés comme étant éloignés. Semblable aux systèmes de vecteurs de mots pré-entraînés tels que Word2Vec, la couche de vecteurs de mots obtenue grâce à cette stratégie d'apprentissage comparatif contient naturellement de riches informations sur les relations. Lors de la prédiction, pour tout concept de recherche d'utilisateur, un lot de données de départ de haute qualité peut être obtenu en calculant la similarité sémantique entre celui-ci et tous les concepts hérités, complétée par les caractéristiques statistiques de l'activité de recherche.

Figure 15 Réseau triplet pour l’exploration des relations de succession de concepts

Figure 15 Réseau triplet pour l’exploration des relations de succession de concepts

3.4.2 Formation de modèles approfondis basés sur des données de départ

Les modèles linguistiques pré-entraînés ont fait de grands progrès dans le domaine de la PNL au cours des deux dernières années. Le réglage fin des tâches en aval basées sur des modèles pré-entraînés à grande échelle est une pratique très populaire dans le domaine de la PNL. Par conséquent, au stade intermédiaire de l'exploration des relations, nous adoptons le modèle de discrimination relationnelle basé sur BERT (voir l'article " Exploration et pratique de Meituan BERT "), et utilisons la grande quantité de connaissances de la langue elle-même apprises au cours de la pré-exploration du BERT. formation pour aider à la tâche d’extraction de relations.

La structure du modèle est présentée dans la figure ci-dessous. Tout d'abord, les paires d'entités candidates sont obtenues sur la base des caractéristiques de cooccurrence entre les entités, et les commentaires des utilisateurs contenant les paires d'entités candidates sont rappelés ; ensuite, la méthode de marquage des entités dans l'article MTB est utilisée pour insérer des symboles de logo spéciaux au début et à la fin. positions des deux entités. , après la modélisation BERT, les symboles spéciaux aux positions de départ des deux entités sont assemblés comme une représentation de relation ; enfin, la représentation de relation est entrée dans la couche Softmax pour déterminer s'il existe une relation entre entités.

Figure 16 Modèle discriminant de relation de succession conceptuelle

Figure 16 Modèle discriminant de relation de succession conceptuelle

3.4.3 Compléter des relations basées sur des structures de graphes existantes

Au cours des deux étapes ci-dessus, une carte des relations de connexion conceptuelles qui a commencé à prendre forme a été construite à partir d'informations textuelles non structurées. Cependant, en raison des limites du modèle sémantique, il existe un grand nombre de triplets manquants dans le graphe actuel. Afin d'enrichir davantage la carte conceptuelle et de compléter les informations de relation manquantes, nous appliquons l'algorithme TransE dans la prédiction de liens de carte de connaissances et le réseau neuronal graphique et d'autres technologies pour compléter la carte conceptuelle existante.

Afin d'utiliser pleinement les informations structurelles du graphe connu, nous utilisons le Relational Graph Attention Network (RGAT, Relational Graph Attention Network) pour modéliser les informations structurelles du graphe. RGAT utilise le mécanisme d'attention relationnelle pour surmonter les lacunes des GCN et GAT traditionnels qui ne peuvent pas modéliser les types de bords et est plus adapté à la modélisation de réseaux hétérogènes tels que les graphes conceptuels. Après avoir utilisé RGAT pour obtenir des plongements denses d'entités, nous utilisons TransE comme fonction de perte. TransE considère r dans le triplet (h, r, t) comme le vecteur de traduction de h vers t, et convient que h+r≈t. Cette méthode est largement utilisée dans les tâches de réalisation de graphes de connaissances, démontrant une forte robustesse et évolutivité.

Les détails spécifiques sont présentés dans la figure ci-dessous. Les caractéristiques de chaque couche de nœuds dans RGAT sont pondérées par la moyenne des caractéristiques des nœuds voisins et la moyenne des caractéristiques des bords adjacents. Grâce au mécanisme d'attention relationnelle, différents nœuds et bords ont des coefficients de pondération différents. . . Après avoir obtenu les caractéristiques des nœuds et des bords de la dernière couche, nous utilisons TransE comme objectif de formation pour minimiser ||h+r=t|| pour chaque paire de triples (h, r, t) dans l'ensemble de formation. Lors de la prédiction, pour chaque entité principale et chaque relation, tous les nœuds du graphique sont utilisés comme entités de queue candidates et leurs distances sont calculées pour obtenir l'entité de queue finale.

Figure 17 Diagramme supplémentaire de la relation d'héritage conceptuel

Figure 17 Diagramme supplémentaire de la relation d'héritage conceptuel

À l'heure actuelle, le taux d'exactitude global des relations conceptuelles d'entreprise est d'environ 90 %.

3.5 Construction de la relation POI/SPU-concept

Pour établir l'association entre les concepts cartographiques et les instances Meituan, des informations provenant de plusieurs dimensions telles que les noms de POI/SPU, les catégories et les commentaires des utilisateurs seront utilisées. La difficulté d’établir une corrélation réside dans la manière d’obtenir des informations liées au concept de carte à partir d’informations diverses. Par conséquent, nous rappelons toutes les clauses liées à la sémantique du concept sous l'instance à travers des synonymes, puis utilisons le modèle discriminant pour déterminer le degré d'association entre le concept et les clauses. Le processus spécifique est le suivant :

  • Regroupement de synonymes . Pour que le concept soit marqué, plusieurs expressions du concept sont obtenues sur la base des données synonymes de la carte.
  • Génération de clause candidate . Sur la base des résultats du regroupement de synonymes, les clauses candidates sont rappelées à partir de plusieurs sources telles que les noms de commerçants, les noms de groupes, les avis des utilisateurs, etc.
  • modèle discriminant . Utilisez le modèle de discrimination d'association concept-texte (comme illustré dans la figure ci-dessous) pour déterminer si le concept et la clause correspondent.

Figure 18 Modèle de discrimination de marquage conceptuel

Figure 18 Modèle de discrimination de marquage conceptuel

  • Résultat du marquage. Ajustez le seuil pour obtenir le résultat de discrimination final.

4. Pratique d'application

4.1 À la construction d'un graphique de mots de catégorie complet

L'activité globale de Meituan couvre un large éventail de domaines de connaissances, notamment les relations parents-enfants, l'éducation, la beauté médicale, les loisirs et le divertissement, etc. Dans le même temps, chaque domaine contient davantage de sous-domaines plus petits, créant ainsi des cartes de connaissances dans le domaine pour différents les champs peuvent aider à effectuer des recherches, des rappels, des contrôles, des recommandations et d'autres services.

En plus des données conceptuelles de bon sens, la carte conceptuelle de bon sens comprend également des données de scène Meituan et l'accumulation de capacités d'algorithme de base. Par conséquent, nous pouvons utiliser les capacités de carte de bon sens pour aider à créer des données cartographiques pour des mots de catégorie complets.

À l'aide de cartes de bon sens, nous pouvons compléter les données de mots de catégorie manquantes, créer une carte de mots de catégorie raisonnable et contribuer à améliorer le rappel de recherche grâce à la réécriture de la recherche, au marquage des POI, etc. Actuellement, dans le domaine de l'éducation, l'échelle du graphique a été étendue de plus de 1 000 nœuds initiaux à plus de 2 000, et les synonymes ont été étendus de mille niveaux à plus de 20 000, obtenant ainsi de bons résultats.

Le processus de construction de la carte de mots de catégorie est illustré dans la figure ci-dessous :

Figure 19 Le processus de construction d'une carte de mots de catégorie complète

Figure 19 Le processus de construction d'une carte de mots de catégorie complète

4.2 Examiner le guide de recherche

Les avis recherchent les recommandations SUG, qui non seulement guident la cognition des utilisateurs, mais contribuent également à réduire le temps nécessaire aux utilisateurs pour effectuer des recherches et à améliorer l'efficacité de la recherche. Par conséquent, lorsque nous recommandons SUG, nous devons nous concentrer sur deux objectifs : ① Aider à enrichir la cognition des utilisateurs et accroître leur sensibilisation à la recherche de texte naturel à partir des recherches de POI et de catégories pour les avis ; ② Affiner les besoins de recherche des utilisateurs, lorsque les utilisateurs recherchent certains Quand En comparant les mots de catégorie générale, cela peut aider à affiner les besoins de recherche des utilisateurs.

Dans la carte conceptuelle du bon sens, un riche ensemble de concepts et la relation entre les attributs correspondants et leurs valeurs d'attribut sont établis. Grâce à une requête relativement générale, la requête détaillée correspondante peut être générée. Par exemple, les gâteaux peuvent produire des gâteaux aux fraises et des cheesecakes grâce à l'attribut goût, et peuvent produire des gâteaux de 6 pouces, des gâteaux de poche, etc. grâce à l'attribut spécifications.

Un exemple de sortie de requête de mot de guide de recherche est présenté dans la figure ci-dessous :

Figure 20 Exemple d'exploration de requêtes recommandé

Figure 20 Exemple d'exploration de requêtes recommandé

4.3 Marquage d'un contenu médical complet sur la beauté

Lors de l'affichage du contenu de beauté médicale, les utilisateurs sont généralement intéressés par un contenu de service de beauté médicale spécifique, c'est pourquoi différentes étiquettes de service seront fournies dans le formulaire de produit pour aider les utilisateurs à filtrer un contenu de beauté médicale précis et à répondre avec précision aux besoins des utilisateurs. Cependant, lors de l'association de balises à du contenu de beauté médicale, de nombreuses erreurs d'association se produisent et les utilisateurs voient souvent un contenu qui ne répond pas à leurs besoins après le filtrage. Améliorer la précision du marquage peut aider les utilisateurs à se concentrer davantage sur leurs besoins.

Grâce à la capacité de marquage concept-POI de la carte et à la relation de marquage concept-UGC, la précision du contenu de l'étiquette peut être améliorée. Le marquage via les capacités cartographiques a considérablement amélioré la précision et le rappel.

  • Taux de précision : Grâce à l'algorithme de marquage concept-contenu, par rapport à la correspondance des mots clés, le taux de précision est augmenté de 51 % à 91 %.
  • Taux de rappel : Grâce à l'exploration de synonymes de concepts, le taux de rappel est passé de 77 % à 91 %.

Figure 21 Exemple d'effet de marquage de contenu de beauté médicale

Figure 21 Exemple d'effet de marquage de contenu de beauté médicale

V. Résumé et perspectives

Nous avons donné une introduction détaillée à la construction de cartes conceptuelles de bon sens et à leur utilisation dans les scénarios Meituan. L'ensemble de la carte conceptuelle de bon sens contient trois types de nœuds et quatre types de relations en fonction des besoins de l'entreprise, et des algorithmes d'exploration de concepts et différents types d'algorithmes d'exploration de relations sont introduits respectivement.

Actuellement, notre carte conceptuelle de bon sens compte plus de 2 millions de concepts et plus de 3 millions de relations entre les concepts, y compris les hypernymes, les synonymes, les attributs, l'héritage et d'autres relations. Les relations POI-concept ne sont pas incluses. Actuellement, la précision globale des relations est d'environ 90 % et l'algorithme est constamment optimisé pour élargir les relations tout en améliorant la précision. À l’avenir, notre carte conceptuelle de bon sens continuera d’être améliorée et nous espérons la rendre précise et complète.

Les références

  • [1] Onoe Y, Durrett G. Représentations d'entités interprétables grâce au typage à grande échelle [J]. Préimpression arXiv arXiv :2005.00147, 2020.
  • [2] Bosselut A, Rashkin H, Sap M et al. Comet : transformateurs de bon sens pour la construction automatique de graphes de connaissances [J]. Préimpression arXiv arXiv : 1906.05317, 2019.
  • [3] Soares LB, FitzGerald N, Ling J et al. Faire correspondre les blancs : similarité distributionnelle pour l'apprentissage relationnel [J]. Préimpression arXiv arXiv : 1906.03158, 2019.
  • [4] Peng H, Gao T, Han X et al. Apprendre du contexte ou des noms ? une étude empirique sur l'extraction de relations neuronales [J]. Préimpression arXiv arXiv :2010.01923, 2020.
  • [5] Jiang, Zhengbao et coll. « Comment pouvons-nous savoir ce que savent les modèles de langage ? » Transactions de l'Association pour la linguistique computationnelle 8 (2020) : 423-438.
  • [6] Li XL, Liang P. Préfixe-Tuning : optimisation des invites continues pour la génération [J]. Préimpression arXiv arXiv :2101.00190, 2021.
  • [7] Malaviya, Chaitanya et coll. « Complétion de la base de connaissances de bon sens avec un contexte structurel et sémantique. » Actes de la conférence AAAI sur l'intelligence artificielle. Vol. 34. N° 03. 2020.
  • [8] Li Hanyu, Qian Li, Zhou Pengfei. "Analyse émotionnelle et exploration des textes d'évaluation des produits. " Information Science 35.1 (2017) : 51-55.
  • [9] Yan Bo, Zhang Ye, Su Hongyi, etc. Une méthode de regroupement des attributs de produit basée sur les commentaires des utilisateurs.
  • [10] Wang, Chengyu, Xiaofeng He et Aoying Zhou. "Extraction de relations ouvertes pour les expressions nominales chinoises." Transactions IEEE sur l'ingénierie des connaissances et des données (2019).
  • [11] Li, Feng-Lin et al. "AliMeKG : construction et application de graphes de connaissances de domaine dans le commerce électronique." Actes de la 29e Conférence internationale de l'ACM sur la gestion de l'information et des connaissances. 2020.
  • [12] Yang, Yaosheng et coll. "Ner supervisé à distance avec apprentissage par annotation partielle et apprentissage par renforcement." Actes de la 27e Conférence internationale sur la linguistique computationnelle. 2018.
  • [13] Luo X, Liu L, Yang Y et al. AliCoCo : Réseau de concepts cognitifs de commerce électronique Alibaba[C]//Actes de la conférence internationale ACM SIGMOD 2020 sur la gestion des données. 2020 : 313-327.
  • [14] Devlin J, Chang MW, Lee K et al. Bert : Pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage[J]. Préimpression arXiv arXiv : 1810.04805, 2018.
  • [15] Cheng HT, Koc L, Harmsen J et al. Apprentissage large et profond pour les systèmes de recommandation[C]//Actes du 1er atelier sur l'apprentissage profond pour les systèmes de recommandation. 2016 : 7-10.
  • [16] Liu J, Shang J, Wang C et al. Extraction d'expressions de qualité à partir de corpus de textes massifs[C]//Actes de la conférence internationale ACM SIGMOD 2015 sur la gestion des données. 2015 : 1729-1744.
  • [17] Shen J, Wu Z, Lei D et al. Hiexpan : Construction d'une taxonomie guidée par les tâches par expansion d'arbre hiérarchique[C]//Actes de la 24e Conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données. 2018 : 2180-2189.
  • [18] Huang J, Xie Y, Meng Y et al. Corel : Construction d'une taxonomie thématique guidée par les semences par apprentissage de concepts et transfert de relations[C]//Actes de la 26e Conférence internationale ACM SIGKDD sur la découverte de connaissances et l'exploration de données. 2020 : 1928-1936.
  • [19] Liu B, Guo W, Niu D et al. Un système d'exploration de concepts centré sur l'utilisateur pour la compréhension des requêtes et des documents chez tencent[C]//Actes de la 25e conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données. 2019 : 1831-1841.
  • [20] Choi E, Levy O, Choi Y et al. Typage d'entité ultra-fin[J]. Préimpression arXiv arXiv : 1807.04905, 2018.
  • [21] Xie Q, Dai Z, Hovy E et coll. Augmentation des données non supervisée pour la formation à la cohérence [J]. Préimpression arXiv arXiv : 1904.12848, 2019.
  • [22] Mao X, Wang W, Xu H et al. Alignement des entités de réflexion relationnelle[C]//Actes de la 29e Conférence internationale de l'ACM sur la gestion de l'information et des connaissances. 2020 : 1095-1104.
  • [23] Chen J, Qiu X, Liu P et al. Méta-apprentissage multitâche pour la modélisation de séquences[C]//Actes de la conférence AAAI sur l'intelligence artificielle. 2018, 32(1).

A propos de l'auteur

Zong Yu, Junjie, Huimin, Fubao, Xu Jun, Xie Rui, Wu Wei, etc. sont tous du Meituan Search et du département PNL-Centre PNL.

Je suppose que tu aimes

Origine blog.csdn.net/chaishen10000/article/details/132516611
conseillé
Classement