Huawei Cloudの専門家が、テキスト感情分析タスクを解釈するためにあなたを連れて行きます

要約: この記事では、主に、単語レベルの感情分析、文レベルの感情分析、属性レベルの感情分析など、テキスト感情分析の主なタスクを紹介します。また、これら3つのタスクにおけるHUAWEICLOUDの進捗状況も紹介します。

1基本概念

理由:モバイルインターネットの普及に伴い、ネットユーザーは、eコマースWebサイトでの製品レビュー、ソーシャルメディアでのブランド、製品、およびポリシーのレビューなど、インターネット上で意見や提案を表現することに慣れています。これらの評価には、莫大な商業的価値が含まれています。たとえば、ブランド会社はソーシャルメディアでのブランドに対する一般の評価を分析し、否定的なレビューが突然増加した場合、対応するアクションを迅速に実行できます。肯定的評価と否定的評価の分析は、感情分析の主なアプリケーションシナリオです。

内容:テキスト感情分析は、テキスト内の特定のオブジェクトの肯定的評価と否定的評価を分析することを目的としています。たとえば、「Huawei携帯電話は非常に良い」は肯定的評価です。感情分析には主に5つの要素(エンティティ/エンティティ、アスペクト/属性、感情/視点、ホルダー/視点ホルダー、時間/時間)があります。エンティティと属性の組み合わせはターゲットと呼ばれます。感情分析の目標は、構造化されていないテキストレビューからこれらの5つの要素を抽出することです。

図1感情分析の5つの要素

例は次のとおりです。

図2感情分析の5つの要素の例

上記の例では、左側は構造化されていないコメントテキストであり、右側は感情分析モデル(時間を除く)によって分析された5つの要素のうちの4つです。その中で、エンティティ「Huawei携帯電話」と属性「写真」を評価対象として組み合わせることができます。評価オブジェクトは、評価オブジェクトの単語抽出と評価オブジェクトのカテゴリ認識に細分できます。たとえば、エンティティはエンティティワードとエンティティカテゴリ、エンティティワードは「レストラン」、「レストラン」、「路傍の屋台」、エンティティカテゴリは「レストラン」、属性は属性ワードと属性カテゴリ、たとえば、属性ワードは次のようになります。 「ボイルドビーフ」と「サーモン」はすべて、属性カテゴリ「食品」に対応しています。エンティティカテゴリと属性カテゴリは、エンティティワードと属性ワードの抽象化と分類のレイヤーに相当します。これは1対多の関係です。単語とカテゴリは、さまざまなタスクに対応しています。意見の価値範囲は一般的に{ポジティブ、ネガティブ、ニュートラル}です。同様に、視点は、「見栄え」や「ポジティブ」などの説明的な単語の抽象化と分類と見なすことができます。

2タスクタイプ

現在の研究では、一般に、感情分析の5つの要素で意見保持者と時間を考慮していないため、以下の説明では、これら2つの要素を考慮していません。残りの3つの要素の簡略化によると、現在の感情分析の主なタスクは、図3に示すようになります。単語レベルの感情分析、文/ドキュメントレベルの感情分析、およびターゲットレベルの感情分析。

図3感情分析タスクシステム

その中で、単語レベルと文レベルの分析オブジェクトは、単語と文全体のポジティブな感情とネガティブな感情であり、エンティティや属性などの文の特定の目標を区別しません。これは、エンティティと属性の5つの要素の2つの要素を無視することに相当します。 。単語レベルの感情分析、つまり感情辞書の作成では、感情ラベル「ポジティブ」に対応する「誕生日」など、単語に感情情報を与える方法を研究します。文レベル/テキストレベルの感情分析では、文全体またはテキストに感情ラベルを付ける方法を研究します。たとえば、「今日の天気はとても良い」に対応する感情ラベルは「ポジティブ」です。

目標レベルの感情分析では、特定の目標が考慮されます。これは、エンティティ、エンティティの属性、またはエンティティと属性の組み合わせです。具体的には、ターゲットベースのアスペクトベースの感情分析(TG-ABSA)、ターゲットのアスペクトベースの感情分析(TN-ABSA)、ターゲットアスペクトベースの感情分析(T-ABSA)の3つのタイプに分類できます。その中で、TG-ABSAの分析オブジェクトこれは、特定のエンティティの特定の属性セットの下にある各属性の感情分析です。図4のエンティティは自動車であり、属性セットは電力、外観、スペース、および燃料消費量です。

図4TG-ABSAの例

TN-ABSAの分析対象は、本文に登場する実体のポジティブな感情とネガティブな感情です。図5では、エンティティHuaweiとXXのポジティブな感情とネガティブな感情がそれぞれポジティブとネガティブです。この場合、属性の概念はなく、エンティティのみです。

図5TN-ABSAの例

T-ABSAの分析オブジェクトは、テキストに表示されるエンティティと属性の組み合わせです。図6に示すように、評価オブジェクトは、Huawei +カメラやXX +コストパフォーマンスなどのエンティティ+属性の組み合わせです。

図6TG-ABSAの例

ターゲットレベルの感情分析の分類を明確にした後、各カテゴリは2つのタスクカテゴリに分類できます。1つは評価オブジェクトの認識で、もう1つは感情認識です。評価対象認識には、評価対象語抽出と評価対象語分類が含まれ、感情認識には、評価語抽出と評価正・負分類が含まれます。具体的な例を図7に示します。ターゲットワードと評価ワードを識別する理由は、ポジティブ属性とネガティブ属性に基づいてフィルタリングするときに、対応する評価テキストフラグメントを強調表示するためです。

図7評価オブジェクト、評価ワード、およびカテゴリ認識の例

この記事では、主に、単語レベルの感情分析、文レベルの感情分析、およびターゲットレベルの感情分析におけるT-ABSAの内容と方法、およびこの分野で実際に行われているHuawei Cloud Voice SemanticTeamのいくつかの成果を紹介します。ここでは、最初にいくつかの概念を区別します。この記事で言及されている感情には、感情と感情が含まれます。感情は厳密な意味で一種の感情ですが、この記事では区別していません。

3ワードレベルのテキスト感情分析

3.1タスクの紹介

単語レベルの感情分析、つまり感情レキシコンの構築は、単語に感情情報を提供することを目的としています。ここで最初に決めるのは、感情を表現する方法です。一般的な表現方法には、離散表現と多次元表現があります。感情分析の分野で一般的に使用される{ポジティブ、ネガティブ、ニュートラル}などの個別の表現、または表に示されている表現

図8離散感情モデル

離散表記で表現された感情辞書は次のとおりです。

  • ハッピーポジティブ、バースデーポジティブ、自動車事故ネガティブ、災害ネガティブ

Valence-Arousal-Dominance(VAD)モデル、Evaluation-Potency-Activity(EPA)モデルなど、多くの多次元表現もあります。価数と評価は良いか悪いかを示し、覚醒と活動は覚醒を示し、優位性と効力はコントロールを示します。

図9ヴァランス-覚醒モデル

連続的な多次元表現を使用した感情的な辞書の例は次のとおりです。

  • VADモデルは[1,9]の範囲にあります。自動車事故は(2.05、6.26、3.76)として表すことができます。

3.2一般的な方法

感情的な辞書を作成する一般的な方法を図10に示します。

図10一般的な感情辞書の作成方法

手動ラベル付けの利点は正確さですが、欠点はコストが高すぎることです。自動化された方法では、いくつかのシードワードが最初に手動でラベル付けされ、次にシードワードのラベル情報がさまざまな方法で他のワードに拡張されます。ポイント相互情報に基づく方法は、大規模コーパスに基づいて、新しい単語とシード単語の間の統計情報をカウントし、次にこの情報に基づいてシード単語の加重加算を実行して、情報の感情的なラベルを取得します。ラベル伝播に基づく方法は、最初に単語とシード単語のグラフを作成し、グラフのエッジは単語と単語の間の統計情報に基づいて取得されます。次に、タグ伝播のアルゴリズムを使用して、新しい単語の感情的な情報を取得します。回帰ベースの方法は、最初に単語の特徴ベクトル表現を構築し、次にシード単語のラベル情報に基づいて回帰または分類モデルをトレーニングします。モデルが取得された後、新しい単語は新しい単語の感情的なラベル情報を取得すると予測されます。

3.3私たちの進歩

すでにマークされている感情辞書に基づいて、私たちのチームは自動化された方法で業界最大の多次元感情辞書を構築しました。

図11感情辞書の構築プロセス

この方法に基づいて、Valence-Arousalの2次元感情表現モデルを使用して、業界最大の感情辞書ライブラリを構築しました。感情値の範囲は[-1、.1]です(-1は悪い(Valence次元に対応)を意味します) )または覚醒なし(覚醒次元に対応)、1は覚醒が良好または高いことを意味します)、辞書には600万語が含まれ、例は次のとおりです。

図12構築された感情辞書の例

4文のテキスト感情分析

4.1タスクの紹介

次の例に示すように、文レベルおよび章レベルのテキスト感情分析は、文全体または記事全体で表現される感情の方向性を目的としています。

  • 購入してから数日以内の値下げに満足しておらず、フラッシュメモリスコアは500ポイント強です---
  • 見た目も綺麗で音質も良いです。今では電子製品は基本的にHuaweiのものです---
  • 良い車、燃料効率、費用対効果---
  • この方針は良いです、それは国と人々に利益をもたらします---

現在、さまざまな友人によって開始された感情分析サービスのほとんどは、この全体的なテキストの肯定的および否定的な予測です文章レベルの感情分析サービスは、インターネット時代の電子商取引のレビューや政策評価において幅広い応用価値があります。文章レベルの感情分析は、典型的なテキスト分類タスクです。次の図に示すように、私たちのチームは、現在のより効果的な事前トレーニングモデルと微調整スキームも使用しています。

図13文レベルの感情分析スキーム

4.2私たちの進歩

現在、eコマース、自動車、ソーシャルの各分野でセンチメント分析モデルを立ち上げており、主に中国語をサポートしています。ラベルはポジティブとネガティブで、ラベルに自信があります。下図の例のように、携帯電話、自動車、社会分野です。

図14eコマース、自動車、ソーシャル分野でのEIエクスペリエンススペースの例

5ターゲットレベルのテキスト感情分析

5.1タスクの紹介

前に紹介した文レベルまたはテキストレベルの感情分析は、テキスト全体のポジティブな側面とネガティブな側面にのみ焦点を当てており、テキスト内の特定の評価オブジェクトを区別しません。したがって、次の例は処理できません。

この例では、車のさまざまな属性について肯定的な評価と否定的な評価が異なります。たとえば、出力と外観は肯定的ですが、スペースと燃料消費量は否定的です。したがって、テキスト全体の肯定的な側面と否定的な側面を単純に分析することはできません。このセクションで紹介するターゲット感情分析のTG-ABSAタスクは、固定エンティティの下で設定された特定の属性肯定的評価と否定的評価の予測です。

5.2私たちの進歩

従来の属性レベルの感情分析では、各属性を使用して感情分類モデルをトレーニングできます。ただし、この方法では複数の分類モデルをトレーニングする必要があり、コストが比較的高くなります。単一モデルの複数属性ラベル出力に基づく方法、つまり、モデルがN個の属性を持つ感情ラベルを同時に出力する方法を提案します。図15は、自動車分野での現在の結果です。ここで、属性ヒット率は、属性のヒット率、つまり、レビューでの実際の外観に対する予測された属性の比率です。ヒット属性の精度は、ヒット属性ラベルの予測の精度です。つまり、すべてのヒット属性の中でラベルが予測する正しい属性の比率です。モデルは各属性ラベルの信頼度を出力できるため、モデルの最終的な出力ラベルは信頼度フィルタリングに基づいて調整できます。図は曲線です。図16は、自動車分野における属性レベルの感情分析の例であり、レビューでのパワーと外観の2つの属性に対応するポジティブとネガティブを同時に予測できます。この機能は、インテリア、パワー、外観、コストパフォーマンス、ハンドリング、エネルギー消費、スペース、快適さなど、自動車分野の8つの属性の評価と予測をサポートします。

図15属性レベルの感情分析の効果

図16自動車分野における属性感情分析の例

6まとめ

この記事では、感情分析の概念とHuawei Cloudの感情分析の実践と進歩を紹介します。一部のサービスは、「EI Experience Space」アップルですでに体験できます。誰でも体験して、貴重なコメントを提供できます。感情分析サービスは、製品評価のインテリジェント分析、インテリジェントスコアリングなどに使用できます。どなたでもお試しいただけます。

 

クリックしてフォローし、HuaweiCloudについて学びます

おすすめ

転載: blog.csdn.net/devcloud/article/details/109067220