NLPタスクの概要

著者:chen_h
マイクロ・シグナル&QQ:862251340
マイクロチャネル公共数:coderpai


A:字句解析

  • ワード(単語分割/トークン化、WS)と、テキスト処理、テキスト処理が単語であるように、以下は一般的な辞書です。
  • 新しい単語の発見(新しい単語の識別、NWI):ネットワークは常に、このようなかつての「神の馬のようにネットワークの人気の語彙として、新しい単語が出てくる持っているので、これは、理解しやすいです。
  • 形態素解析(形態素解析、MA):幹(Sterms)、根(ルーツ)、接辞(接頭辞と接尾辞)、等を含む単語の形態素解析、
  • スピーチタギング(品詞タグ付け、POS):各単語の音声のテキスト部分を決定します。音声動詞(動詞)、名詞(名詞)、代名詞(代名詞PHR。)等を含みます。
  • 補正(スペル修正、SP)をスペル:名前が示すように、必要性は間違っている言葉、間違った単語やメイクの変化を見つけること。

II:解析

  • 言語モデル(言語モデル、LM):アプリケーションの言語モデルは、言語の研究ノートのNLPモデルは、言語モデルへの詳細な紹介を与え、まだ非常に広まっています。今のモデルの多くは、LMに来基づいています。
  • (チャンク)チャンク:示さフレーズ文ブロックを、例えば等名詞句(NP)、動詞句(VP)、
  • スーパータギング(スーパータギング)は:ラベルのスーパーにマークされた各文中の単語ごとに、スーパータグ構文木は、ワードツリーに関連付けられています
  • 解析コンポーネント(選挙解析、CP):端末と非終端記号からなるツリー構文木所与、文成分を分析
  • パース依存(依存関係解析、DP):文章中の単語と単語間の依存関係を解析し、単語で構成される依存関係の依存関係に構文木。
  • 言語識別(言語識別):言語の種類を決定するために、テキストの一部
  • 境界文の境界を追加するための明確なテキスト:境界検出を(境界検出の文章)文章。

3:意味解析

  • 単語/文/段落では、定量化(単語/文/段落のベクトルを)言いました:この手段をword2vec、sentence2vec、paragraph2vec、でもdoc2vecこと。
  • WSD(語義曖昧さ回避):あいまいな、その正確な意味の言葉
  • 意味役割標識(意味役割ラベリング):意味役割剤を含む注釈意味役割のクラスマーク文、意味役割、患者などの影響
  • 抽象的意味表現の分析(表現の解析を意味要旨):AMRは、文の構造を解析するAMR抽象的意味表現、AMRパーサーです
  • 一階述語計算ロジック(ファーストオーダー述語微積分):
    フレーム意味解析(フレームセマンティック解析):

4:情報抽出

  • NER(エンティティの認識、NERの名前):テキストから一般エンティティ名(PER)、名前(LOC)、組織名(ORG)、時間、日付、通貨、パーセンテージなどを含む名前付きエンティティを識別する。より多くの専門プロの実体もあります。https://arxiv.org/abs/1812.09449記事レビューNER研究の現在の方法についての学習の深さ。
  • 関係抽出(抽出関係):テキストにおける2つのエンティティ間の関係のタイプを決定します。
  • 用語抽出(用語/ Giossary抽出):テキストからの用語を満たし要件を識別する。
  • イベント抽出(イベント抽出):構造化イベントを抽出し、決してテキスト構造。
  • 曖昧さ回避のエンティティ(エンティティ曖昧さ回避、ED):また、セマンティック一義として知られているが、この分野で曖昧さの問題、同一のエンティティを解決するために設計されています。実際のロケールでは、多くの場合、名前付きエンティティの複数のオブジェクトに対応することをエンティティ名の問題が発生しました。
  • ALIGN実体(エンティティアライメント、EA)も照合実体(エンティティ照合)として知られているが、それは現実の世界で同じエンティティに属する見つけ、知識ベース内の各エンティティの異種データ・ソースを指します。
  • 同一指示解決(同一指示解決):名詞および代名詞消化消化を、異なるエンティティの等価な記述を決定するステップを含みます
  • センチメント分析(感情分析):感情の固有の主観内のテキスト。単語たとえば「私は本当にこの映画のように」、これは、へのネガティブな評価であるし、「私はこの映画が嫌い」ポジティブな評価です。
  • (意図検出)を識別することを意図するもの:対話システムは、ユーザの意図を識別する、所定の会話を分析するためのユーザーのための重要なモジュールです。
  • 充填スロット(スロット充填は):会話がユーザの意図に関連する有用な情報について分析から対話は、システム内の重要なモジュールです。

5:トップタスク

  • 機械翻訳(機械翻訳、MT):言語の2つの変換。多くのモデルが深く、変圧器、バートの内部を学習sequence2sequenceし、他のモデルは、上記の機械翻訳に適用されます。
  • テキスト自動要約(テキスト要約/ Simplication):の長いテキストのアウトラインの内容を抽出します
  • Qシステム(質問応答SYSTERM、QASを):ユーザーの質問については、システムが適切な答えを与えます
  • 対話システム(対話SYSTERM、DSは):、対話とのチャットの会話からユーザの意図をキャプチャすることができますし、実装の分析
  • 読解(読解、RC):マシンは記事に関連する問題のいくつかを与えられた記事を、読み終えた後、マシンは答えることができます
  • 自動記事の分類(自動エッセイグレーディング、AEG):記事を考えると、スコアリングの品質や等級の記事

ここに画像を挿入説明

出典ます。https://www.jianshu.com/p/d80b065bdcf0

公開された414元の記事 ウォンの賞賛168 ビュー470 000 +

おすすめ

転載: blog.csdn.net/CoderPai/article/details/105050924