パノラマ!過去 20 年間で、自然言語処理の分野は発展しました。

写真

Xi Xiaoyao Technology Talk の原著者
| Xiaoxi、Python

近年、Word2Vec から RNN と LSTM の多用、seq2seq から Attending、Transformer、Bert に至るまで、ビッグモデル GPT に至るまで、 NLP (正式名を書いて Natural Language Processing) の分野で爆発的な開発が行われてきたことを誰もが経験しています。 -4人間の生活とコミュニケーションの中核ツールであり、情報共有の重要なキャリアである自然言語を理解、生成、処理するための中核ツールとして、計算言語学者は、自然と対話するために「機械」を使用することに昔から注目し始めました。 1950 年代にはすでに「計算」の視点があり、言語は処理されます。さまざまなテクノロジーが徐々に成熟するにつれて、NLP の分野は急成長しており、ACL を例に挙げると、1952 年以来 80,000 以上の論文が出版されています

写真

出版物の増加に伴い、NLP の分野は、複数の異なる部門を持ち、さまざまな下位分野や下位分野で構成される大規模な大学の学問分野にも発展しました。 NLP の歴史や NLP の発展を整理する研究は数多くありますが、残念ながら、広く普及している NLP 分野を空間的な観点から概観する研究はほとんどありません。

ドイツのミュンヘン工科大学が本日紹介した論文は、過去 20 年間の NLP 研究分野の詳細かつ体系的な分類とレビューを実施し、誰もが神の視点に立ち、NLP の 360 度のパノラマを概観するのに役立ちました著者は、このような研究を通じて、あらゆる NLP 分野の学者、実践者、実践者、初心者が NLP の研究傾向を特定し、研究コミュニティが既存のギャップを埋めるのに役立ち、NLP 分野のさまざまな研究をより良く探究するのに役立つことを望んでいます。

論文のタイトル:
自然言語処理研究の展望を探る

論文リンク:
https://arxiv.org/pdf/2307.10652.pdf

GPT-4 機能研究ポータル (詳細/ブラウザーの警告が表示された場合は引き続きアクセス):

https://gpt4test.com

1. NLP の下位分野は何ですか?

NLP の下位分野について話したい場合は、機械翻訳から感情分析、情報検索からテキスト生成まで、多くのことを考えることができますが、NLP 分野の分類法の完全な概要を以下で説明する必要はないかもしれません。構造化されたシステムですが、それほど簡単な仕事ではありません。

論文著者は、近年のACL、EMNLP、COLING、IJCNLPなどのNLP分野の主要な学会Webサイトに掲載されている投稿テーマや、ACLアンソロジーに収録されているセミナーのテーマ、研究内容などを参考にしています。 EMNLP 2022 の 828 件の論文のフィールドを調査し、NLP ドメイン分類法の最初のバージョンを構築しました。同時に、NLP 研究分野のすべての側面を可能な限り包括的かつ完全に構築するために、著者は 20 を超える 1 つの分類法を実施しました。 NLP の各分野の専門家との 1 対 1 のインタビュー結果と NLP 研究分野の改訂と改良の分類の初版に従って、著者は下図に示すような NLP 研究分野の分類を構築しました。 :

写真

著者は、NLP をマルチモダリティ、自然言語インターフェース、意味論的テキスト処理、感情分析、構文分析 (統語論的テキスト処理)、NLP における言語学と認知 NLP、責任と信頼に値する NLP、推論を含む 12 の主要な分野に分割していることがわかります、多言語性、情報検索、情報抽出およびテキストマイニング (Information Extraction & Text Mining)、テキスト生成 (Text Generation)

この一連の分類方法を通じて、著者は半手動および半自動のラベル付け方法を使用して 178,521 個の紙フィールド ラベルを含むトレーニング セットを構築し、弱教師付き紙フィールド分類器をトレーニングしました。この分類器を通じて、著者は 1952 年すべて 74,279 個を分類しました2022 年から 2022 年までの ACL アンソロジーに含まれる論文が最終分析に含まれました。

2. NLP 研究分野の発展状況は何ですか?

最初の NLP 論文は 1952 年に登場しましたが、論文数は 2000 年までゆっくりと増え始めました。2000 年から 2017 年にかけて、NLP 研究の数は 4 倍に増加し、その後の 5 年間で NLP 研究の数は再び 2 倍になりました。 NLP の分野は過去 5 年間で爆発的に増加しており、著者が構築した分野分類セットに従って、著者は NLP で最も人気のある研究分野 (Fos) の発展と変化を研究しています。

写真

NLP 文献では、機械翻訳と言語モデルが最も人気のある研究分野であることがわかりますが、これら 2 つの分野の発展と変化は大きく異なります。機械翻訳は綿密な研究であり、長年にわたって確立されています。論文数、出版数と成長率は比較的安定しており、言語モデルは長い間研究されてきましたが、出版数が大幅に増加し始めたのは 2018 年になってからです。同様の状況は、他の分野に焦点を当てた場合にも見られます。 NLP 分野: 表現学習とテキスト分類は広範囲に研究されていますが、成長率に大きな変化は見られませんでしたが、対話システムと低リソース NLP は最近非常に高い成長率を達成しました。

写真

NLP 研究分野全体では、古典的な 28 ルールも登場しています。ほとんどの NLP 分野の研究レベルは、これらの最も人気のある NLP 分野の研究レベルよりも大幅に低いです。NLP 研究の発展は主に人気のある分野から来ているように見えますが、一般に、NLP のすべての分野の研究はプラスの成長を維持しています

3. NLP 研究の将来は何ですか?

いわゆる過去を知ることで現在から学ぶことができ、NLP 分野全体の研究開発に従って、著者は NLP のさまざまな分野の研究動向を調査し、NLP 分野の将来の発展の方向性を探ります。

写真

まず、著者はマトリックス手法を用いて、2018 年から 2022 年までの NLP に関連する各 FoS の論文数と成長率のマトリックスを作成しました。成長率が高く、全体の論文数が多い研究分野は、世界の花形製品に属します。 NLP と同様に、NLP 段階の中心を占める分野には、言語モデル、解釈可能な NLP、低リソース NLP などが含まれますが、同様の機械翻訳、テキスト分類、表現学習は、その数が多いため NLP になっていることがわかります。研究の基盤として、段落検索、スタイル変換、コード生成など、高い成長率と低い論文数を維持している研究分野もあります。人気が出ても、記事数が少ないため明確に特定できませんが、今後の開発動向を判断します。

写真

著者は、イノベーション普及理論を用いて、NLP研究分野におけるイノベーションのライフサイクル図を上図のように描いていますが、上図から意味解析分野は基本的に斜陽期に入っていることが分かります。 、イノベーションライフサイクルの衰退期に近づいている一方で、機械翻訳は、表現学習とテキスト分析の両方が比較的人気がありますが、イノベーションライフサイクルの成熟から衰退への変曲点を過ぎており、現在、開発速度は減速しています。解釈可能な NLP、マルチモデル、および自然言語インタラクションの分野は急速な発展期にあり、将来の研究で加速し始めると思われます。スター製品として、グリーン NLP はちょうど全盛期にあり、未来の到来を告げる可能性があります。将来のブレイクアウト

要約と考察

大規模なモデルの出現により、多くの NLP 問題は一夜にして解決された問題になっているように見えますが、この記事は、NLP が使用するモデルが増えるにつれて、モデルのパラメーターの量が天文学的な数字に近づき、それに伴う問題が増加していることを指摘するのに非常にタイムリーです。将来的には、計算コストの問題、環境問題、倫理問題が NLP 研究の主流になる可能性があります

分野の急速な発展に伴い、マクロな視点から分野を包括的に理解することは非常に困難であり、収集、分類、判断を通じて分野の全体像を構造的に提示するこの著作は、私たちにとってより有用であるかもしれません。私たちが取り組んでいる分野について明確に理解することは非常に役立ちます。

 

おすすめ

転載: blog.csdn.net/xixiaoyaoww/article/details/132140279