目次
https://blog.csdn.net/qq_16555103/article/details/98748593
1分詞:
•従来の単語セグメンテーション技術:
-
ルール単語のセグメンテーション:辞書を維持することにより、文をセグメント化するときに、文の各文字列が語彙内の単語と1つずつ一致し、見つかった場合はセグメント化され、そうでない場合はセグメント化されません。主に含まれます:
-
•フォワード最大マッチング法
-
•逆最大マッチング法
-
•双方向の最大マッチング
-
機能:TRIEインデックスツリー、ハッシュインデックスを使用した高速単語セグメンテーション
-
-
統計的単語セグメンテーション:単語の信頼性は、各単語がトレーニングテキストに出現する回数をカウントすることによって取得されます。連続する各単語の頻度が特定の値を超えると、連続する各単語は単語に属すると見なすことができます。主に含まれます:
-
•n-gramモデル(単語セグメンテーションの明確化)
-
•HMM、CRF
-
特徴:あいまいさや未登録の単語をうまく処理でき、多くの手動ラベル付けが必要です
-
- 混合分詞
単語セグメンテーションのデジタル化(単語の埋め込み)
https://blog.csdn.net/qq_16555103/article/details/98748593
単語セグメンテーションのあいまいさを解決する最初の方法:
単語セグメンテーションのあいまいさを解決する2番目の方法:
jiebaカスタム辞書を追加/削除し、単語のセグメンテーションの頻度を変更します
jieba単語セグメンテーションの基本機能
-
•1。分詞
-
•プレフィックス辞書マッチング、HMMモデルビタビアルゴリズム
-
-
•2。カスタム辞書を追加します
-
•3。キーワード抽出
-
•TF-IDF、TextRank; LDAを使用してキーワードを抽出することもできます(jiebaにはこの機能はありません)
-
-
•4。品詞のタグ付け
-
•HMMモデルのビタビアルゴリズム
-
-
•5。並列単語セグメンテーション
-
•現在のバージョンはWindowsをサポートしていません
-
0.2品詞のタグ付け
-
テクノロジー:HMM、CRF、LSTM + CRF ----------分類の問題:
-
BMESのデカルト積と品詞分類
-
-
HMMの品詞タグ付けのアイデアに基づく:
-
1.単語セグメンテーションシーケンスは観察シーケンスです。
-
2.品詞シーケンスは非表示の状態シーケンスです。
-
3.コーパスがマークされている場合、状態遷移配列と起動配列は統計に従って取得されます; ***********
-
4.各品詞の出現回数、各品詞とその後続語の出現回数、および対応する品詞の単語。
-
5.コーパスにラベルが付いていない場合は、フォワードバックワードアルゴリズムトレーニング(EM)を使用して、状態遷移マトリックスと起動マトリックスを取得します。***********
-
6.ビタビアルゴリズムを使用して、最適な隠れ状態シーケンスを決定します。
-
0.3単語セグメンテーションエラー訂正
技術:①n-gram②カスタム辞書を追加し、カスタム辞書の語頻度サイズを変更③
0.4エンティティの命名認識
テクノロジー:①HMM、crf②LSTM+ CRF
NERも分類の問題です。
•BIO表記:I(内部)、O(外部)、B(開始)
•I-xxx:xxxの名前付きエンティティの内部(先頭の外側のすべての位置);
•O:エンティティに属していない;
•B- xxx :はタイプxxxの名前付きエンティティの始まりです;
•BIOES表記:B(開始)、I(内部)、O(外部)、E(終了)、S(単一)
•B-xxx:の名前付きエンティティですタイプxxx開始;
•I-xxx:クラスxxxの名前付きエンティティ内;
•O:エンティティに属していない;
•E-xxx:クラスxxxの名前付きエンティティの末尾;
•S-xxx:に属しているクラスxxxのみの名前付きエンティティ。
0.5自動要約
-
テクノロジー:①LDAトピックモデル②seq2seq+アテンション/トランスフォーマー/バート..
0.6感情分析
①感情辞書に基づく方法
②機械学習または深層学習に基づく方法:
依存構文https://blog.csdn.net/qq_16555103/article/details/100710191
07.意図認識
https://blog.csdn.net/qq_16555103/article/details/100767984(まだ見ていません)
08構文解析(部分的 感情分析)、意味分析 (部分的情報抽出)
https://blog.csdn.net/qq_16555103/article/details/100710191
2.情報抽出(関係抽出):時間、場所、人、イベント、理由、結果、数字、日付、通貨、
固有名詞など、特定のテキストから重要な情報を抽出します。
素人の言葉で言えば、誰が、いつ、なぜ、誰に、何をすべきか、そしてどのような結果になるかを理解することです。
他の重要な関係の抽出技術の場合、物理的な識別、抽出時間に関連します。
テクニック:①セマンティックロールラベリング((修飾子の削除)>>>>>>>トリプル)、依存構文解析
②ブートストラップは、本質的にルールテンプレートであるバックボーン(サブジェクト、述語、およびオブジェクト)を抽出し、ロボットが共有する必要があります半教師あり拡張テンプレートライブラリ。
目的:ナレッジグラフを作成し、質問応答システムの質問応答ライブラリを構築します。
詳細については、リンクしてください:https://blog.csdn.net/qq_16555103/article/details/103792301 ----情報抽出(ブーストストラッピング
、ディープラーニング...)
3。テキストマイニング(またはテキストデータマイニング):テキストクラスタリング、分類、情報抽出、要約、感情分析、およびマイニングされた情報と知識の視覚化とインタラクティブ
な表現インターフェイスが含まれます。現在の主流のテクノロジーは、統計的な機械学習に基づいています。
4.機械翻訳:入力ソース言語テキストを自動的に翻訳して、別の言語テキストを取得します。さまざまな入力メディアに応じて、テキスト翻訳、音声翻訳、
手話翻訳、グラフィック翻訳など。統計的手法に基づく最も古いルールベースの方法から20年前までの機械翻訳から、今日のニューラルネットワークベースの
ネットワーク手法(コーデック)への機械翻訳は、徐々に一連のより厳密な方法論を形成しました。
5.情報検索:大規模なドキュメントにインデックスを付けます。単に語彙を文書化するために、それらに異なる重みインデックスを付与し、テクノロジーを使用して、より多くの1,2,3
およびディープインデックスを構築します。クエリでは、検索語や文などのクエリ式入力を分析し、
候補とドキュメントが一致するインデックスを調べ、候補ドキュメントの並べ替えメカニズムに従って並べ替え、最後にドキュメントの最高スコアの出力。
6.質問応答システム:自然言語で表現された質問の場合、質問応答システムは正確な回答を提供します。
エンティティリンキングや関係認識、論理式の形成など、自然言語のクエリ文に対してある程度の意味解析を行い、知識ベースで可能な候補回答を検索し、ソートメカニズムを通じて最良の回答を見つける必要があります。
7.ダイアログシステム:システムは一連のダイアログを使用して、ユーザーとチャットし、応答し、特定のタスクを完了します。ユーザーの意図、一般的なチャットエンジン、質問と回答のリード
エンジン、対話管理テクノロジを理解するようになります。さらに、文脈上の関連性を反映するために、複数回の対話を行う能力。同時に、個性を反映するため
に、パーソナライズされた返信に基づいて、ユーザーをポートレートに、そしてユーザーのポートレートを開発します。
一般的なNLPプロジェクト領域(アルゴリズムのアイデア)https://blog.csdn.net/qq_16555103/article/details/100939224
NLPフィールドの基本的な用語とアルゴリズム https://blog.csdn.net/qq_16555103/article/details/95625946