目次
2.2ルールと辞書に基づく名前付きエンティティの認識プロセス
1データ収集の原理と技術
- クローラーの原理
- リクエストとレスポンス
- マルチスレッドの並列クロール
- チームへのアンチピッキングメカニズム
以前に学んだクローラーの知識を参照してください。詳細については、Pythonの列を参照してください
2知識の抽出:名前付きエンティティの認識
1.エンティティ認識の基本概念
2.ルールベースおよび辞書ベースのメソッド
3.機械学習ベースのメソッド
4.深層学習ベースのメソッド
5.半教師あり学習ベースのメソッド
6.転送学習ベースのメソッド
7.事前トレーニングベースのメソッド
2.1エンティティの認識
エンティティ認識のタスクは、次のように、テキスト内の3つのタイプの名前付きエンティティ(エンティティタイプ、時間タイプ、数値タイプ)を識別することです。
2.2ルールと辞書に基づく名前付きエンティティの認識プロセス
前処理
➢文の分割
➢単語のセグメンテーション+品詞のタグ付け
➢
エンティティの境界を特定するための辞書の作成
➢境界の初期化:辞書のマッチング、スペル規則、特殊文字、特徴的な単語と句読点、その他の
名前付きエンティティの分類
➢分類ルールの使用
➢辞書ベースの分類
辞書は主に3つの場所で使用されます。
- 補助語セグメンテーション
- エンティティを抽出するときに、辞書に従ってエンティティを一致させます
- 辞書に基づくエンティティの分類
2.3機械学習に基づく方法には主に次のものが含まれます。
- 隠れマルコフモデル(隠れマルコフモデル、HMM)
- 条件付きランダムフィールド(CRF)
- サポートベクターマシン(SVM)
- 最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM )
这部分的学习强烈推荐看一下参考文献里的几篇文章
2.4 基于深度学习的实体识别
2.5 基于半监督学习的实体识别
TagLM模型结构
2.6 基于迁移学习的实体识别
机器学习与迁移学习
迁移学习的三种模式:
跨域、跨应用、跨语言
迁移学习的模型表现
2.7 基于预训练的实体识别
BETR模型
BERT模型重新设计了语言模型预训练阶段的目标任务,提出了遮挡语言模型(MaskedLM)和下一个句子预测(NSP)。
Masked LM是在输入的词序列中,随机选15%的词进行[MASK] ,然后在这15%的词中,有80% 的词被真正打.上[MASK]标签,有10%的词被随机替换成任意词汇,10% 的词不做任何处理。模型的任务是去正确预测带有[MASK]标签的
词。相比于传统的语言模型,Masked LM可以从前后两个方向预测这些带有[MASK]标签的词。
NSP实质上是一个二分类任务,以50% 的概率输入一-个句子和下一个句子的拼接,标签属于正例;另外50%的概率输
入一个句子和非下一个随机句子的拼接,对应标签为负例。
BERT模型的表现
参考文献:
- MCMC(二)马尔科夫链:https://www.cnblogs.com/pinard/p/6632399.html
- 马尔科夫维基:https://zh.wikipedia.org/wiki/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE
- 隠れマルコフモデル:https://zh.wikipedia.org/wiki/%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6 %A8%A1%E5%9E%8B
- 統計的学習法と組み合わせた隠れマルコフモデルCSDN:https ://blog.csdn.net/mingzai624/article/details/52399235