一般的なデータセット
- ACE 2005:599組のドキュメント。7種類。
- SemiEval 2010タスク8データセット:
- 19種類
- 列データ:8000
- テストデータ:2717
- 抽出する遠隔監視者の方法によってNYT +遊離塩基は、ノイズデータが存在するであろう。
- 53種類
- 列データ:522611本の文章は、文ラベルNAの約80%ものがあることに注意してください
- テストデータ:172448の文章。
これらの記事を分類するためにさまざまな方法を習得するには、以下:
- 完全教師あり学習
- 遠く教師あり学習
- エンティティと関係との共同学習
- ツリーに基づく方法
どこで:
完全に一般ラベル完全に正確SemEval 2010タスク8のデータセットを使用して測定監修。
フォーマット:
1 < E1 >マイク</ E1 >電気的に音に変換< E2 >信号</ E2 > 。 2 原因-効果(E1、E2) 3コメント:
文の最初の行為、関連の二つの第二のエンティティが作用し、第三の作用ノート。
遠いNYT +遊離塩基のデータセットを使用して監修。SemEval 2010タスク8トレーニングデータの例:
1 m.0ccvx m.05gf08女王belle_harbor /場所/場所/含まれてい.....職員belle_harborでのジェット旅客機の致命的なクラッシュに彼らの調査を再開するために、昨日、女王...... ### END ## #
合計6つ、2つの2つのエンティティ文字列文として第三及び第四の最初の2列のFreebase中間エンティティ。エンド### ENDに5列の関係、最後の文として(省略記号)、###
両方のデータセットは、相対的に最も広く使用されています。
NYTのデータセットで一般的に使用される二つのバージョンのデータセットのを:
27クラス関係、Zeng2015、Ji2017濾過後のデータセットで使用される等は、SMALL図、比較的小さいです。
53クラス関係、データセットのLin2016リリース、トレーニングデータは、LARGE表現するために約4倍少ないデータで、比較的大きいです。