AAAI 2018の分析

AAAI 2018の分析

単語埋め込みます

グローバル・感情表現を経由して埋め込み感情-特定の単語を学びます

学習アプローチを埋め込むコンテキストベースワードが豊富なセマンティックと構文情報をモデル化することができます。

良好な及び悪いと同様の文脈が反対感情極性を持つ単語は、埋め込み空間に近いワードベクトルにマッピングされるためしかし、感情分析のために問題があります。

最近、学習方法を埋め込むいくつかの感情が提案されているが、それらのほとんどは、文レベルの文章でうまく動作するように設計されています。

直接ドキュメントレベルのテキストにこれらのモデルを適用することは、しばしば不満な結果につながります。

この問題に対処するために、我々は、ローカルコンテキストinformationasだけでなく、世界的な感情表現を利用して建築を学ん埋め込む感情固有の単語を提示します。

アーキテクチャは、文レベルとドキュメントレベルのテキストの両方に適用されます。

私たちは、テキスト中の単語の埋め込みの単純平均値として、グローバルな感情表現を取り、感情依存正則として汚職戦略を使用しています。

いくつかのベンチマークデータセットに鋭意実験では、提案されたアーキテクチャは、感情の分類のための最先端の方法を凌駕することを実証しています。

「私は、埋め込まれた世界的な感情によって、特定の感情的な単語を学ぶ表しています。」

埋め込まれた学習方法は、単語のコンテキストに基づいてセマンティックと構文情報の富をモデル化することができます。

挿入空間が閉じ語ベクトルにマッピングされる類似するが反対の感情極性コンテキストワード(例えば、良いと間違った単語)を有するしかし、感情分析するため、問題となります。

近年では、学習を埋め込まれた感情の数を作ったが、方法のほとんどは、文レベルのテキストでの役割を果たしています。

これらのモデルは、多くの場合、不満足な結果につながるドキュメントレベルのテキストに直接適用されます。

この問題を解決するために、我々は地元の背景情報を活用するだけでなく、世界的な感情を表現、特定の感情の単語埋め込まれた学習アーキテクチャを提案します。

このアーキテクチャは、文レベルとドキュメントレベルのテキストに適しています。

私たちは気分依存正規化として埋め込まれたテキストや汚職戦略の単純平均値としてグローバルな感情を特徴付けるます。

参照複数のデータセットに対して行った実験の多くは、最も高度な感情の分類方法が提案アーキテクチャが優れていることを示しています。

学習Wordの組み込み環境用のk-ウェイ共起を使用して

二つの単語間の共起は、それらの単語の意味論に有益な洞察を提供します。その結果、学習を埋め込む単語での数多くの先行研究は、単語の埋め込みを学習するためのトレーニング信号として二つの単語間の共起を使用しています。複数の単語が関連しており、同じ文脈で共起されるためしかし、自然言語テキストでそれが一般的です。私たちは、カバーするために共起の概念を拡張するk個のセットの中(≥2)-way共起K-言葉を。具体的には、関節の確率間の理論的関係を証明K(≥2)の言葉、そしてその埋め込みのL_2規範の合計を。次に、私たちは私たちの利用理論的な結果が動機と学習目標を提案しているK-単語の埋め込みを学習するための方法の共起。私たちの実験結果は、派生理論的な関係が実際に経験的に保持しないことを示し、およびデータスパース性にもかかわらず、いくつかの小さいのためのk(≤5)の値、K-ウェイの埋め込みは、同等またはタスクの範囲内の2ウェイ埋め込みより良いを行います。

意味構造に基づくWordの埋め込みコンセプトコンバージェンスとWordの発散を組み込むことにより、

言葉の意味を表現することテキスト処理の基本的な作業です。

いくつかの調査研究は、そのテキストとナレッジベース(KB単位)を示している単語埋め込む学習のための補完的なソースです。

ほとんどの既存の方法は、唯一の知識ベースの利用における単語のペア内の関係を検討します。

私たちは、KB単位内でよく組織語の構造情報は、言葉の意味を捉えるには、より効果的かつ安定的な知識を伝えることが可能であると主張しています。

本稿では、埋め込み方法意味構造に基づく単語を提案し、学習プロセスを埋め込む言葉に意味構造を明らかにするために、コンセプトの収束と語相違を紹介します。

本手法の有効性を評価するために、我々は、訓練のためのWordNetを使用して、単語の類似度、単語の類推、テキスト分類とクエリ拡張に関する広範な実験を行います。

実験結果は、我々の方法は、コーパスとの知識ベースで訓練コーパスのみに訓練された方法、およびその他を含む最先端の方法を、よりも優れていることを示しています。

「単語の意味的構造の埋め込みの収束と発散の概念に基づいて」

言葉の意味は、テキスト処理における基本的な役割を表しています。

いくつかの研究は、テキストと知識ベース(KBS)は学習の補助的なソースを埋め込むの言葉であることを示唆しています。

KBSを使用する場合は、ほとんどの既存の方法は、子供たちだけの内部関係の言葉を考えます。

私たちは、構造情報のよく組織ナレッジベースの単語がより効果的であることができると信じて、より安定した転送の知識の言葉の意味を捉えます。

本論文では、ベースの意味構造を埋め込む方法を提示し、学習プロセスに組み込まれた単語の意味的構造を明らかにし、収束と発散の概念を導入しています。

この方法の有効性を評価するために、我々は訓練されたWordNetを使用して、単語の類似性、単語類推、テキスト分類とクエリ拡張と実験の広い範囲の他の側面。

実験結果は、我々の方法が唯一のコーパスでの研修、訓練コーパスとKBSで方法を含め、最先端の方法より優れていることを示しています。

負のサンプリングを使用したスペクトルWordの埋め込み

本研究では、自然言語処理の文脈で単語埋め込むアルゴリズムを調査します。特に、我々は、スペクトル法で観測されていないか、意味のない単語文脈共起、 ``負の例「」の概念を検討します。我々は完全に負の例の使用を正当化する新しい直感的な目的関数を提案することにより、問題を埋め込む単語のための新たな製剤を提供します。実際には、このアルゴリズムは、重要な単語・コンテキスト共起から学習だけでなく、それは、潜在埋め込まれたスペース内の単語の分布を改善するために観測されないか、取るに足らない共起の豊富から学習します。私たちは、理論的アルゴリズムを分析し、スペクトル解析を使用して問題に最適なソリューションを提供します。私たちは2でウィキペディアの記事にアルゴリズムを埋め込むさまざまな言葉を訓練してきました。10億個のトークンと負のサンプリングはスペクトル法の品質を向上させることができますことを示しています。私たちのアルゴリズムでは、最先端のとしてではなく、はるかに高速かつ効率的な方法のように、良い結果を提供します。

Sememe注意とWordの組み込み環境の階層的な分類を経由して中国のLIWCレキシコン拡大

言語お問い合わせやワードカウント(LIWC)は、多くの分野で定量的にテキスト解析のために使用されているワードカウントソフトウェアツールです。

、その成功と人気のために、コア辞書は、中国や他の多くの言語に翻訳されています。

ただし、辞書は唯一の中国での一般的な単語の数に比べて不足している、言葉の数千が含まれています。

現在のアプローチは、多くの場合、手動で辞書を拡大必要とするが、それは多くの場合、あまりにも多くの時間がかかり、語彙を拡張するために、言語の専門家が必要です。

この問題に対処するために、我々は自動的にLIWC辞書を拡張することを提案します。

具体的には、階層的な分類問題としてそれを考慮し、辞書で単語を分類するためのシーケンスとシーケンスのモデルを利用しています。

また、我々は、より正確かつ包括的な辞書を拡張することができるように、言葉の正確な意味をキャプチャするために注意機構をsememe情報を使用します。

実験結果は、我々のモデルはsememesの助けを借りて、単語の意味の理解を持ち、最先端の方法と比較して有意なと一貫性の改善を達成していることを示しています。

この論文のソースコードから得ることができるhttps://github.com/thunlp/Auto_CLIWC

「の階層的な分類埋め込まれたフレーズに基づいて中国の語彙開発」

クエリ言語と単語数(LIWC)は、テキストの定量分析のために使用されるソフトウェアの多くの地域でワードカウントツールです。

、その成功とコア語彙の人気のために、それは、中国や他の多くの言語に翻訳されています。

欠乏である中国語の単語に比べて千しかし、わずか数語彙、。

現在の方法は、通常、手動で必要な語彙を拡張するが、それは通常、多くの時間がかかり、語彙を増やすために、言語の専門家が必要です。

この問題を解決するために、我々は、自動延長LIWC辞書を提案します。

具体的には、シーケンスを使用して、階層的な分類としてそれを発行します - 言葉の分類モデルのシーケンスを。

また、我々はまた、情報のビットを使用し、より正確で包括的な語彙を拡張するための言葉の正確な意味をキャプチャする義の注目メカニズムを持っています。

実験結果は、ヘルプの本来の意味での我々のモデルは、重要かつ一貫性の改善を得るための最も先進的な方法と比較して、単語の意味をよりよく理解していることを示しています。

ソースコードから、本明細書できるhttps://github.com/thunlp/auto_cliwc得ます。

トレーニングと改善された依存ベースのWordの組み込み環境の評価

Wordの埋め込みは、広く多くの自然言語処理タスクで使用されてきました。本稿では、地域の状況の影響を受けにくいと意味compositionalityをキャプチャで、より正確に埋め込みを改善するために、文章での選択高次の関係を通じてワード埋め込みを学習に焦点を当てます。私たちは、複合材料に新しい多次依存ベースの戦略を提示し、いくつかの基本的な制約の下でコンテキストを表します。ワード文脈から選択学習を実現するために、我々は自動的に確率的勾配降下法における共同発生した単語間の異なる依存関係の強みを割り当てます。私たちは評価し、単語の埋め込みのために、いくつかの直接的および間接的なタスクを使用して私たちの提案されたアプローチを分析します。実験結果は、私たちの埋め込みがに競争力や最先端の​​方法よりも優れていると大幅にコンテキスト安定性の点で他の方法を上回ることを示しています。私たちの埋め込みモデルで得られた依存関係の出力の重みと表現は言語的特性のほとんどに適合し、多くの下流の作業のために貴重です。

ワード表現

ダイナミックな融合方法を経由してマルチモーダル単語表現を学びます

マルチモーダルモデルは、意味の単語表現を学ぶ上で、テキストベースのモデルをアウトパフォームすることが証明されています。ほぼすべての以前のマルチモーダルモデルは、一般的に均等に異なるモダリティからの表現を扱います。しかし、異なるモダリティからの情報は、言葉の意味とは異なって寄与していることが明らかです。これは、動的に言葉の異なる種類に応じて異なるモダリティから意味表現を融合することができますマルチモーダルモデルを構築するために私達に動機を与えます。そのために、我々は、重みが連想対の弱い監督の下で学習された各モダリティに重要性重みを割り当てるための3つの新規な動的融合方法を提案します。広範な実験は、提案された方法は、強力な単峰ベースラインと最先端のマルチモーダルモデルを上回ることを実証しました。

マルチモーダルWordの表現は、Visualコンテキストに根ざした学習します

言葉の意味を表現すること、自然言語処理コミュニティのための長年の問題です。

ほとんどのメソッドは、大規模コーパスでのテキストのコンテキスト与えられた単語の意味を計算します。

さらに最近では、研究者は、知覚と視覚的特徴を統合しようとしました。

これらの作品のほとんどは、単語表現を強化するために、オブジェクトの外観を検討したが、彼らは、オブジェクトが表示される視覚的な環境や文脈を無視します。

私たちは、同時にマルチモーダルワード埋め込みを学ぶために、テキストと視覚的文脈を活用することにより、ビジョンベースの技術を持つテキストベースの技術を統一することを提案します。

私たちは、視覚的なコンテキストとして機能し、マルチモーダルスキップ-gramモデルにおける視覚的なコンテキスト要素を統合するエンドツーエンドの方法を提示することができます何のためにさまざまな選択肢を探ります。

我々は実験と得られた結果の広範な分析を提供しています。

「マルチモーダル単語ベースの学習の状況を視覚的に表現。」

自然言語の単語加工業界の長年の問題の意味表現。

テキストの大規模コーパスに基づいて単語の意味的文脈の計算方法のほとんどは。

最近、研究者は、知覚と視覚的特徴を統合しようとしています。

これらの作品のほとんどは、言葉の表現を高めるために、オブジェクトの外観を考慮し、彼らは視覚的な環境を無視して、コンテキストオブジェクトが表示されます。

私たちは、テキストに埋め込まれたマルチモーダル単語を学ぶために、テキストとビジュアルコンテキストの利点を生かしながら、技術と統一されたビジョンベースの技術に基づくことをお勧めします。

我々は、視覚的文脈など、さまざまなオプションを検討し、かつ視覚的なコンテキスト要素は、エンド・ツー・マルチホップモード図モデルに統合される予定提示します。

その結果、私たちは実験や大規模な分析を行いました。

おすすめ

転載: www.cnblogs.com/fengyubo/p/11067707.html