ナレッジグラフ紹介スタディノート(5)-知識抽出データの収集と名前付きエンティティの認識

目次

1データ収集の原理と技術

2知識の抽出:名前付きエンティティの認識

2.1エンティティの認識

2.2ルールと辞書に基づく名前付きエンティティの認識プロセス

2.3機械学習に基づく方法には主に次のものが含まれます。

2.4深さに基づくエンティティ認識の学習

2.5半教師あり学習に基づくエンティティの認識

2.6転移学習に基づくエンティティ認識

機械学習と転移学習

2.7事前トレーニングに基づくエンティティの認識

参照:


1データ収集の原理と技術

  • クローラーの原理
  • リクエストとレスポンス
  • マルチスレッドの並列クロール
  • チームへのアンチピッキングメカニズム

以前に学んだクローラーの知識を参照してください。詳細については、Pythonの列を参照してください

2知識の抽出:名前付きエンティティの認識

1.エンティティ認識の基本概念
2.ルールベースおよび辞書ベースのメソッド
3.機械学習ベースのメソッド
4.深層学習ベースのメソッド
5.半教師あり学習ベースのメソッド
6.転送学習ベースのメソッド
7.事前トレーニングベースのメソッド
 

2.1エンティティの認識

エンティティ認識のタスクは、次のように、テキスト内の3つのタイプの名前付きエンティティ(エンティティタイプ、時間タイプ、数値タイプ)を識別することです。

2.2ルールと辞書に基づく名前付きエンティティの認識プロセス

前処理
➢文の分割
➢単語のセグメンテーション+品詞のタグ付け

エンティティの境界特定するための辞書の作成
    ➢境界の初期化:辞書のマッチング、スペル規則、特殊文字、特徴的な単語と句読点、その他の
名前付きエンティティの分類
➢分類ルールの使用
➢辞書ベースの分類

辞書は主に3つの場所で使用されます。

  • 補助語セグメンテーション
  • エンティティを抽出するときに、辞書に従ってエンティティを一致させます
  • 辞書に基づくエンティティの分類

2.3機械学習に基づく方法には主に次のものが含まれます。

 

  • 隠れマルコフモデル(隠れマルコフモデル、HMM)
  • 条件付きランダムフィールド(CRF) 
  • サポートベクターマシン(SVM)
  • 最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM )

这部分的学习强烈推荐看一下参考文献里的几篇文章

2.4 基于深度学习的实体识别

2.5 基于半监督学习的实体识别

TagLM模型结构

2.6 基于迁移学习的实体识别

机器学习与迁移学习

迁移学习的三种模式:

跨域、跨应用、跨语言

迁移学习的模型表现

2.7 基于预训练的实体识别

BETR模型

BERT模型重新设计了语言模型预训练阶段的目标任务,提出了遮挡语言模型(MaskedLM)和下一个句子预测(NSP)
Masked LM是在输入的词序列中,随机选15%的词进行[MASK] ,然后在这15%的词中,有80% 的词被真正打.上[M
ASK]标签,有10%的词被随机替换成任意词汇,10% 的词不做任何处理。模型的任务是去正确预测带有[MASK]标签的
词。相比于传统的语言模型,Masked LM可以从前后两个方向预测这些带有[MASK]标签的词。
NSP实质上是一个二分类任务,以50% 的概率输入一-个句子和下一个句子的拼接,标签属于正例;另外50%的概率输
入一个句子和非下一个随机句子的拼接,对应标签为负例。
BERT模型的表现

参考文献:

おすすめ

転載: blog.csdn.net/qq_37457202/article/details/108474951