25年、私はこれらのレッスンは、抽出された情報をまとめます

著者|エフード・ライター

翻訳| yugao

制作| AI技術のベースキャンプ(ID:rgznai100)

ラルフGrishman「25年の情報抽出」(25年のによって出版 - [REVIEW]は最近、コンピューティングサイエンスライターや大学アバディーンのエフード・ライターの教授は、グループは、彼らが紙に感動ように記事を読んで読んで導きました情報抽出)。本論文では、ゲリー・キャッシュマンは(著者よりも長寿、1973年に、博士号を取得)1994年から2019年の間にNLPの研究サブフィールドの情報抽出(IE)は、自然言語テキストから、つまり、発生した変更まとめたもの構造化された情報を抽出し、リストはどのような彼はいくつかの非常に興味深いアイデアを検討するために、彼はあなたが論文を読むことを示唆している、確かに利益になります。

有意であるが、驚くべきことではないの進行状況

Grishmanは、ページ686で述べました:

 

開発の25年後、その性能(F画分)を支払うだけで60点から標準イベントの分類に基づいて70年に増加するであろう。

 

つまり、NLPの過去25年間のすべての一般的な進歩に大きく、プラス25年以来の研究は非常にスマートで、専用の研究者を中心に多くのIE(かなり計算機械学習、深い学習、コーパスは、能力を向上させます) IEのパフォーマンスが向上します。しかし、彼らは私たちは改善その間、「桁違い」の音声認識や機械翻訳では表示されませんでした。

 

NLPは、過去25年間で(深い学習NLPを含む)技術のシリーズは、NLPの一部の地域で多大な影響を与えたが、他の地域ではそのような影響力を持っていない幅広い分野、NLP共同開発です。我々の目標であるならば、我々は新しいアイデアを探求するために、そして最新のファッション(1994ポップ文法、深さ2019調査)の考え方を放棄し続ける必要があると全体の「亀裂」NLPは、すべての問題を解決することができます。

研究者は、複雑な評価を好きではありません

伝統的に、情報抽出精度、再現率とF値に応じて評価されます。ページ685で、Grishmanは、米国政府出資機関がより実用的な評価指標を導入してみてくださいしようとしているACE評価モデル、の運命を記述する。しかし、米国政府に正式な報告書を提出するだけでなく、研究者は、一般的にACEの使用を拒否します。論文では、それらはリコール、精度及びF値を使用して永続します。「元のイベントは価値がポイント15%未満、参加者はレポートでぎこちない感じにするような低スコアを使用することである。」ので、ACEは非常に複雑なので、これは研究者のために、直感的ではないと思いGrishman、それであってもよいです

 

これは、研究者は(例えばDARPAなど)しようとする米国の政府出資機関のより複雑な、より現実的な評価を使用できるようにすることを思い出させます。彼らはピラミッド(https://www.aclweb.org/anthology/N04-1019/)使用の研究者を評価するための検討を作ってみました。これは、複雑な評価方法は、手動注釈品質を測定ダイジェストコンテンツ(だけでなく、表面形状)が必要です。Iピラミッドのような、しかし、この方法はほとんど2019で使用されていないので、私は、と思うし、シンプルなROUGE指標は依然として非常に強いです、のようなコミュニティの見直しはしていません。ポスト編集機械翻訳テキスト翻訳を想定し、機械翻訳システムの評価機械翻訳の研究者を取得しようと資金提供者は、(例えば、タスクベースの外部の測定基準)に必要な作業の許容量です。私はTERとHTER使用中の人々がまだあると思うが、BLEUの使用がはるかに。

 

要するに、でも、資金調達などDARPAなどの機関などがあれば、それは、このようなこれらの評価技術などのACE、ピラミッドや評価技術のHTERとして学術研究者の利用を促進することは困難である、非常に複雑であるが、多くの場合、手動で必要ですが、結果それは、より良い実際の有用性を予測することができます。NLPでは、人々はシンプルに傾向があり、簡単に、評価するための安価な方法は、彼らは他の方法として意味のある評価方法であっても、そのようBLEU、ROUGEとF値として、マニュアル注釈なしにそれらを評価します。

コーパスとルール

私が観察しているもう一つの現象は、ビルドにルールや機械学習のコーパスを使用せずにシステムを比較することであるため、機械学習法を構築するためのコーパスに含まれている必要があります。

 

ページ683のGrishman氏は述べています:

 

人工的な調製パターンがかなり高いスキルと洞察力を必要とするが、比較的清浄な(精度)システムを生成することができます。準備注釈付きコーパスは、非常に多くのスキルを必要とするが、より長いかかりれない場合があります。

 

要するに、書き込みのルールが速くなり、システムを改善するために引き起こし、それがゲインアクセスにルールを記述することができ、高度に熟練した人材を必要とします。コーパスを作成するために、機械学習は、より多くの時間を必要とし、頻繁にシステムのバグにつながることができますが、我々は技術がそれを行うには、比較的少ない熟練労働者である使用することができます。

 

NLGコーパスは、別の非常に希少なエリアです。私は通常、人々は、彼らがやっていることを知っているので、必要なルールを記述することができ、そしてマシンの注釈付き十分に大きなコーパスを学習することができません(私のように)、このような環境でコーパスを作成する愚かなことだと思います。しかし、ビジネスをアウトソーシング低賃金国に(あなたは言葉の高品質を必要とする場合)Grishmanは、多くの場合、熟練した労働力NLPは希少資源である、正しいですが、未熟なインタプリタは、安価で、かつできる機械トルコ人か大規模な使用に関する注記サービス。

 

本論文では、他の多くの興味深い洞察力や観察があり、私はあなたが自分を見てみることをお奨め!

 

論文は、リンクされています

https://www.cambridge.org/core/journals/natural-language-engineering/article/twentyfive-years-of-information-extraction/0E5BB0D6AE906BB3C25037E2D74CA8F3

 

オリジナルリンク:

https://ehudreiter.com/2020/01/02/25-years-of-information-extraction/

(*この記事の牙城AI技術の翻訳である、マイクロ文字は、してください連絡先再現1092722531を)

強調表示されました

CSDN「Pythonの開発者の日」(パイソン日)主催の2020年には、正式に発足しました。我々 PyConは、プロの中国のIT技術の開発を構築するために一緒にオープンな技術を一緒に公式PyCon中国の社会、トップ企業、産業、技術専門家、乾燥コンテンツの素晴らしい技術によって、楽しい活動、および他の多くの多様な経験を許可します家庭用交換と成長。将来、私たちと一緒に共有する技術、技術的な練習、中国の技術のオリジナルキャストへの開発者の中国の数千人。

[PythonのDay--北京駅]は、今正式に開始され、「旧正月早期チケット」グラブへの熱いオープニング!2020年までに、我々はまた、全国ツアーイベントは、ので、しばらくお待ちいくつかの都市で開催されます!

、活動をコンサルティングFanger魏コードの下にすることは公式の為替グループに参加するためにスキャンすることができます〜

CSDN「Pythonの日」コンサルティンググループ  ????

〜のPythonと話をします

100人以上のグループは、自動的に入力することができない場合は、小さな会議アシスタントのマイクロ文字を追加することができます:ティンティンを、15101014297(マイクロチャネルとの電話)


推奨読書

リリース1301元の記事 ウォンの賞賛10000 + ビュー542万+

おすすめ

転載: blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/104035502