自然言語処理NLPの研究ノート:研究のコンセプトとモデル

  • 序文

最初の直感的な理解の数に、デモのいくつかを見てみましょう。

自然言語処理:

以下の知見マップの準備のために中国語の単語、音声分析、テキスト要約の一部を、行います。

http://xiaosi.trs.cn/demo/rs/demo

知識マップ:

https://www.sogou.com/tupu/person.html?q =アンディ・ラウ

実用的なアプリケーションの2つの例がありますが、NLPの理解を深め

 九曲のロボット:

https://jiuge.thunlp.cn/

マイクロソフトの連句ロボット:

http://duilian.msra.cn/

 

 

  • NLPの概要:

自然言語処理は、処理され、処理のためのコンピュータ技術の言語のテキスト(文章、章、または談話など)の使用方法技術の研究です。

NLPの主要なアイデアの一つは、デジタルベクターに単語を変換したモデルは、予測ベクトル機械学習にこれらの数字を置くことです。

ディープ学習はNLPの重要な技術の一つです。

自然言語処理技術は、知識マップを構築するための基礎です。

 

対象が直面する主な課題:

新しい言葉が大量に登場します。例:仏部門

どこでも曖昧:例:都市の若者のように 

メタファー:例:友人ダイビングのサークルで

異なる言語で異なる概念:翻訳間の理解

 

コアな課題に対応します:

 - >セマンティック分析

- >シーンの実用的な分析

 

  • NLPの応用例:

ワン:中国語の単語

1.最大マッチング(ベースのルールまたはテンプレート)

副語彙nグラム(従来の統計的手法、式)に基づいて、2

ニューラルネットワークに基づく3分割方法(ワード方式の主流)

 

II:機械翻訳:

1.方法は、テンプレート/ルールに基づいています

2.コーパスベースのアプローチ

3.ニューラル機械翻訳方法

 

3:同時翻訳:

 アプリケーションステータス:

図1に示すように、種々の入力方法。

2、音声

 

  • 一般的なNLPの方法:

1.ルールベースのアプローチ

2.統計的学習法に基づいて、

---------------------------------------

統計的手法/フレームワークの基本的な方法に基づき:

フレームワーク:学習システム - >モデル - >予測システム

原理:訓練データラベル付き(サンプル)、次の入力予測出力

このような、保険を購入する購入し、ラベルを購入しないよう、サンプルに対する保険データを購入しています。私たちの重点は訓練モデルを得ることにあります

 

一般的に使用される統計モデル:

主に種6,7モデル、異なる強調は、異なるモデルを選択して使用すること。

1.統計モデル

1)言語モデル(LM) - より複雑

2)隠れマルコフモデル(HMM)-----マルチ分類(2より大きい)

3)K-隣人(KNN)----選択することができ、より少ないデータ

4)ナイーブベイズ(NB)

5)決定木(DT)

6)最大エントロピー(最大エントロピー)

-------- -------二クラス分類

7)サポートベクターマシン(SVN)

8)パーセプトロン

------ -------系列ラベル

9)条件付き確率場(CRFConditionalランダムフィールド)

  

統計的アルゴリズムに基づいて、ビタビアルゴリズム:のみ最高のアルゴリズムを保ちます

 

オープンソースツールをたくさん持っている、あなた自身のためのリストがありません。

 

基本的な学習ベースのアプローチ:

人工ニューラルネットワークは、最もホットな深い学習しています

 ディープ学習は、2009年に大きなブレークスルーだった、認識率は10.4%、いくつかのポイントを増加させました。

 

神経言語モデル:

確率予報を最大化するための条件付き確率モデル、統計の前に出現回数の確率は、

コンピュータはその後、彼は学習サンプルの多くを必要とする、人間の言語(意図)、取り出した最大の発生確率のみを理解することができません。

 

ニューラルネットワークは2種類に分かれて: 

浅い学習:LR、SVM、ベイズ昇圧

深さの研究:CNN、RNN、DBM、オートエンコーダ

 

CNNは:畳み込みRNNはあまり拘束ではありません

コア2、畳み込み:実際に加重計算; 2は、プールの中で最大です。

RNN:データ入力次元の制約のためにCNNサイクルがより深刻で、どのようなトレーニング、予測は何です

 

LSTM(長さメモリネットワーク、RNN A)コアプロセス。

3つのドア、機能に対応する各ドア。各ドアの結果が0または1のいずれかであります

忘れられたドア:選択して忘れてしまいました

ドアを入力してください。どのような入力を決定

ゲートの出力:どのような出力を決定

 

-------------------------------------------------- ------- 

注意:

数式の1 N数は、綿密な調査に、数学を学ばなければなりません

2.モデル普通の人々は勉強しません

 

 

  • 知識のマッピング

 

マッピング知識と学習の深さは深い学習になり、将来的に行くには2つの道路に相当します。

学習の深さを予測するために使用することができ、知識があなたがライン上の知識を検索したい、一緒に、すべてを網羅知識と類似のマッピング知識をマッピングすることはできません。

知識マップは、学習への知識の深さを提供し、深い学習モデルと知識マップの構築のためのツールを提供することができます。

 

知識マップが開発したセマンティックWebに基づいています。

セマンティックWeb:ネットワークが一定の関係を持っています

 

サポート技術情報のマッピング例:

http://kw.fudan.edu.cn

http://zhishi.me

 

  • テキストマイニング

TF-IDF重み付け

 

概念や用語の束:

NLU自然言語理解

NLP自然言語処理 

MT機械翻訳

NLU、CL、MTなどのHLT人間の言語技術、

DL(ディープラーニング)ディープラーニング

NN(ニューラルネットワーク)ニューラルネットワーク

RNN(畳み込みニューラルネットワーク):畳み込みニューラルネットワーク

CNN:リカレントニューラルネットワーク

LSTM:短期と長期記憶ネットワーク

 nグラム:入力単語、センテンスの出力確率

ワード埋め込み(ワードを挿入する)、ワードがベクトル空間にマッピングされ、ベクトルによって表されます。

単語ベクトル空間の異なる部分にパケットをマッピングするために同様のWord2vec語ベクトル表現、すなわち、単語と単語の間の関係を学びます。

スキップグラムWord2Vec、およびCBOWの2つの方法があります。

スキップグラムを:単語を入力して、短期的に表示される他の単語の確率を推定してみてください。

CBOW:継続的な学習語彙

 

おすすめ

転載: www.cnblogs.com/xiaoer/p/11059069.html