[Na Zhangがあなたを論文を読むように連れて行く](05)NLP知識の要約とNLP論文の書き方-Pvop先生

「NazhangTakesYou to Read Papers」シリーズは、主に優れた論文を読んだり、学術講演を聞いたり、みんなと共有したりすることを目的としています。作者の英語力や学力は高くなく、継続的に改善する必要がありますので、批判して訂正してください。コメントを残していただければ幸いです。アカデミックな道を歩けるのを楽しみにしています。どうぞよろしくお願いします。

最近、時間をかけて論文を読んだり、関連論文を書いたりする予定です。このブログは、ステーションBの教師「DeepEyes」Pvopによって共有されています。トピックは「マスターがNLPを学ぶ方法」です。元のウェブサイトにアクセスして、学習して購入することを強くお勧めします。このコースは本当に良いチュートリアルです。Xiuzhangはまた、学術研究の道であなたと一緒に前進することを望んでいます。医者の旅は長いです、さあ〜

ここに写真の説明を挿入

以前の推奨事項:
[Xiuzhangはあなたに論文を読むように連れて行ってくれます](01)私の先入観を救うために私は何ができますか?プログラミングとLATEXの導入に対する初心者の関心を高める方法
[NaZhangが論文を読むようになります](02)SP2019-Neural Cleanse:DNNでのバックドア攻撃の特定と軽減
[Na Zhangが論文を読むようになります](03)TsinghuaUniversityのZhangChao先生-GreyOne :データフローセンシティブファズで脆弱性を発見する
[Na Zhangが論文を読むように案内します](04)人工知能は本当に安全ですか?AI対策サンプル技術を共有する浙江大学チーム外灘会議
[NaZhangが論文を読むように案内します](05)NLP知識の要約とNLP論文の書き方-機械学習に基づく悪意のあるコード検出技術のPvop教師の
詳細な説明


1.なぜNLPの基本理論を学ぶのか

なぜNLPを学ぶべきなのか(なぜNLPを学ぶべきなのか)について話す前に、誰もが「NLPは人工知能の頂点にある宝石です」という文を目にするかもしれません。下の図は、人工知能を4つのレベルに分割しており、下から上に向かってますます複雑になっています。自然言語処理は言語コミュニケーションに使用でき、大規模なテキストデータから情報を抽出できます。

  • コンピューティングインテリジェンス:コンピューターCPU \ GPUコンピューティング速度、最も基本的な最下層
  • 知覚インテリジェンス:主に、音声認識、画像認識、CVフィールドを含む、聴覚、視覚、触覚が含まれます
  • 認知インテリジェンス:主に言語、知識、推論が含まれます自然な言語は人間と動物を区別し、言語はインテリジェンスを反映します
  • インテリジェンスの作成:人間の感情を持ち、人間と通信するロボットを構築します

ここに写真の説明を挿入

1.言語コミュニケーションの目的として
この目的は、主にインテリジェントな対話とマシン変換について話します。

  • スマートダイアログ
    スマートカスタマーサービス、スマートスピーカー
  • 機械翻訳
    同時通訳、テキスト翻訳

たとえば、下の写真は、NLPアルゴリズムエンジニアを募集するための情報です。彼は、学界と業界の最新の動向を追跡できる必要があります。新しいテクノロジーは非常に迅速に更新されるため、学術論文は非常に重要です。同時に、クエリセマンティック分析、tensorflow \ keras、word2vec、GPT、bert、DeepMatchなどの知識が必要です。CCF A会議(ACL \ AAAIなど)の論文がある場合、多くの大企業が採用し、月給も非常に高くなります。

ここに写真の説明を挿入

2.大規模なテキストデータから情報を抽出する
データは通常、次のように構造化データと非構造化データに分けられます。

  • 構造化データ:データベース、日付、電話番号など。
  • 非構造化データ:テキスト、電子メール、ソーシャルメディアなど。

非構造化データには、マイニングする大量の情報が含まれています。大規模なテキストデータから情報を抽出すると、次のタスクが実行されます。

  • 機械の読解力:英語の読解力と同様に、記事とその記事から回答を見つけるための質問をします。たとえば、記事から「YaoMing」の生年月日を検索します。
  • 情報抽出:ニュースを非構造化データから時間、場所、人、イベントなどの構造化データに変換します。
  • 世論分析:例えば、マイクロブログマイニングを通じて国民の世論の傾向を発見し、広報会社がアーティストの評価を研究するために。
  • テキストの分類:たとえば、ニュースをスポーツまたはファッションのカテゴリに分類し、スパムを識別して分類します。

ここに写真の説明を挿入

では、なぜ論文を読んで自然な言語処理を学ぶのでしょうか。

  • 技術の急速な発展に伴い、最先端の技術を論文から得ることができます。
  • 論文は直接の知識を得ることができます。
  • 彼は300の唐の詩に精通しており、詩を書かなくても唱えることができます。
  • 論文を再現することでプログラミング能力を向上させることもできます。アルゴリズムエンジニアには、理論的スキルとエンジニアリングスキルが含まれます。プログラミング能力は十分であり、良いアイデアはあなた自身のアイデアを再現して実現することができます。

なぜベースラインペーパーを読むのですか?
自然言語の基本を以下にまとめます。最も基本的な3つの方向は次のとおりです。

  • ワードベクトル
    今日、自然言語処理はニューラルネットワークに基づいています。ニューラルネットワークに必要な入力は数字であるため、入力のために単語を数字にマッピングする必要があります。これは単語ベクトルの役割であり、ワンホットディメンションは大きすぎてまばらであり、単語ベクトルセマンティック情報付き。
  • シーケンス生成Seq2Seq
    ダイアログ生成応答、スマートスピーカー生成シーケンスなどのシーケンス生成タスクは、Seq2Seqタスクとも呼ばれます。美しい文を生成できる場合にのみ、インテリジェントと見なすことができ、他のタスクを分類するタスクを実行しているのは統計的な方法です。
  • 注意メカニズム
    多くの情報から重要な情報を見つけることに注意が必要です。

同時に、テキスト分類と機械変換は2つの重要なタスクです。その中で、textcnnとchartextcnnペーパーは純粋なテキスト分類タスクであり、fasttextは単語ベクトルに関連し、HANは注意に関連し、SGMはマルチラベルテキスト分類のシーケンス生成です。機械変換では、主に2つの古典的なモデル、つまりDeepLSTMとBahdanauNMTが導入されます。

ここに写真の説明を挿入



2.NLPの開発履歴と方向性

ここでの開発プロセスは、主にベースラインペーパーと併せて説明されています。

1. 2003年に、NNLMニューラルネットワーク言語モデルが提案されました

  • 従来の方法:統計的なn-gramを介して言語モデルを学習する
  • NNLM:深い学習を通じて言語モデルを自動的に学習します。その効果は、単語をベクトルにマッピングする最初の論文であるn-gramsモデルと同等です。

ここに写真の説明を挿入

2. 2013Word2Vecモデル
以前の単語ベクトルの学習速度が遅すぎ、トレーニング時間が長すぎて大規模なコーパスでトレーニングできなかったため、効果が不十分でした。2013年、GoogleはWord2Vecモデルを提案しました。単語ベクトルのトレーニングを加速することにより、大規模なコーパスでトレーニングされた非常に優れた単語ベクトルを実現し、自然言語処理の開発を大幅に促進しました。NLPフィールドでのWord2Vecの重要性は、CVフィールドでのAlexNetの重要性と同様であり、非常に重要です。

ここに写真の説明を挿入

3. 2014TextCNNモデル
以前のテキスト分類モデルはより複雑で、効果は平均的でした。TextCNNモデルは非常に単純ですが、畳み込み層、プーリング層、完全に接続された層、畳み込み層kernel_sizes =(2,3,4)など、効果は非常に優れています。なぜ効果があるのですか?Word2Vecを使用しているため、事前にトレーニングされた単語ベクトルを使用することにより、単純なCNNモデルで非常に良い結果を達成しています。

ユン・キムは、論文(2014 EMNLP)の文分類のための畳み込みニューラルネットワークでTextCNNを提案しました。

ここに写真の説明を挿入

4.2014ディープNMTモデル
以前の統計マシン変換には、複雑なルールと統計手法が含まれていました。ニューラルマシン変換では、ニューラルネットワークを使用して、4層SLTMを含むニューラルマシン変換モデルを自動的にトレーニングしていました。2016年、Google Translateは、統計的なマシン変換ではなく、ニューラルマシン変換を正式に使用しました。担当者は、「これは、500,000行のフレーズベースのマシン変換コードを500行のニューラルネットワークモデルコードに置き換えることを意味します」と述べました。

Ilya Sutskever(Google)在2014NIPS年ρ表Sequenceto Sequence Learning withNeuralNetworks。

ここに写真の説明を挿入

5.2015アテンションモデル
アテンションメカニズムは、自然言語処理のコアアルゴリズムの1つであり、単純なメカニズムによって複雑な情報から重要な情報を自動的に選択できます。自然言語処理には膨大な語彙があるため、感情分類での悲しみや幸せなど、特定の語彙だけが非常に重要です。

ここに写真の説明を挿入



3.テクノロジーの進化パス

1.分散表現の開発を望んでいるワンホット表現

  • Word2Vec
  • グローブ

ワンホットとは、Nビットステータスレジスタが主にN状態のエンコードに使用され、各状態に独自の独立したレジスタビットがあることを意味します。あなたはあなたが持っているのと同じくらい多くの単語を持っているので、次元は大きくてまばらです。分散表現は次元が低く、意味情報と文法情報が含まれており、それらの類似性は単語ベクトルを介して取得できます。

  • ["中国"、 "米国"、 "日本"、 "米国"] —> [[1,0,0]、[0,1,0]、[0,0,1]、[0,1,0 ]]

ここに写真の説明を挿入

2.機械学習法から深層学習法への発展

  • TextCNN
  • CharTextCNN
  • NMT

以前は、記事に含まれるフレーズの数をカウントするn-gram、各フレーズが表示される回数、および機械学習モデル(SVM、LR)の予測などの統計機能に基づいていました。深層学習法は、機能エンジニアリングとモデルの統合です。

ここに写真の説明を挿入

3.大きな粒度から小さな粒度への開発

  • FastText
  • CharTextCNN
  • C2W

以前は、これらはすべてWord2Vec、Glove、TextCNNなどの単語レベルのモデルでした。各単語はベクトルにマップされます。「各文字をベクトルにマップしないのはなぜですか?」と思う人や、接頭辞と接尾辞(preなど)をマップする人もいます。ベクトルに、小粒度のNグラムモデルと文字レベルのモデルが開発されます。たとえば、紙は以前はベクトルでしたが、紙の後でそれを認識しなかったため、小さな粒度のモデルが徐々に開発されました。

ここに写真の説明を挿入

4.単純なタスクから複雑なタスクへの開発

  • NMT
  • SGM

複雑なタスクには、ニューラルマシンの翻訳、マルチカテゴリのテキスト分類、読解力、および情報の抽出が含まれます。

ここに写真の説明を挿入



4.推奨される学習パス

基盤が弱いことや専攻に転校することを心配しないでください。基本的な理論的知識、プログラミングの実践(Python + Pytorch)、紙の読み方から学び、改善のためのアイデアを見つけることができれば幸いです。

  • 基礎知識学習
    プログラミング能力、深層学習、自然言語処理の基礎知識
  • ベースライン学習
    ワードベクトル、テキスト分類、Seq2Seq、注意
  • 高度な学習
    情報抽出、事前トレーニングモデル、グラフニューラルネットワーク、知識グラフ

ここに写真の説明を挿入

では、どのように論文を作成するのですか?
CCF Aを送信する場合は、良いアイデアが必要です。アイデアを見つけるには、たくさんの論文を読み、他の人の行動や欠点を見て問題(アイデア)を見つけ、解決策や調査を見つけて、誰かがそこにいるかどうかを確認する必要があります。同様の論文が投稿されています。この問題を解決するには、引き続き多くの論文を読み、新しいアイデアを繰り返し追加し、最終的に論文を作成する必要があります。

これは、Pvop先生の学習パスの補足です。私はそれを本当に尊敬しています。また、一生懸命勉強して、クラスAの論文をできるだけ早く公開する必要があります。

Pvop先生は最初にテキスト分類の論文を読み始め、Googleの翻訳で音声の一部に問題があることに気づきました。彼は、最初のアイデアを発見するのと同等の、音声の一部とニューラルマシンの翻訳(音声の一部+ NMT)を組み合わせることができるかどうか疑問に思いました。それから神経翻訳の記事を読みに行ったところ、他の誰かがやったことがわかりました。これは紙のクラッシュです。それから10以上の記事を読み続けたところ、すでに多くの人がそれをやってフィールドを形成していることがわかり、この作業をやめました。当時、他の人のモデルも改良してみましたが、実はそれでも可能でしたが、当時はプログラミング能力が比較的弱く、TensorFlowコードも改良されていなかったため、書面はありませんでした。次に、機械翻訳に関する記事を引き続き見て、機械翻訳に追加されたノイズを確認して、翻訳効果を判断します。彼は、テキスト分類または名前付きエンティティ認識にノイズを追加して、最終的なアイデアを形成し、最終的にAAAIに配信できるかどうか疑問に思いました。先生の指示が一貫していないため、すべてのプロセスは自分で行われました。

3つの主要な自然言語処理会議では、Cタイプのものがありますが、それらの論文は比較的高いです。

  • ACL(CCF-A)
  • EMNLP(CCF-B)
  • NAACL(CCF-C)

ここに写真の説明を挿入

基本的な知識を次の図に示します。

ここに写真の説明を挿入

以下は、NLPベースラインペーパーの学習パスです。これらのベーシックペーパーを学習することをお勧めします。この分野の多くの作業は、それらに基づいて改善されており、NLPの基礎となっています。ここでの最初の記事はWord2Vecに関するものです。ICLRはCCFリストに含まれていませんが、2013年にのみ開催されたため、その影響は非常に大きく、8番目の注目メカニズムも会議です。

ここに写真の説明を挿入

知識システムは以下のとおりです。DeepEyeにアクセスしてコースを学ぶことをお勧めします。

  • 選択的知識
    ワンストップの基礎学習、基礎が弱い学生のための障害を取り除く
  • ベースライン
    研究ベースラインペーパー共通知識モジュール、エントリーNLP \ CV、細分化の分野へのエントリーの基礎を築く
  • 細分化されたトピック細分化
    された分野で古典的かつ最先端の知識を学び、研究分野の開発動向を理解し、知識を工学に応用する

ここに写真の説明を挿入



V.コースの手配

彼らのコーススケジュールは、論文とコードの複製を含めて、週に1回の論文研究であり、私はかなり気分がいいです。具体的な内容は以下のとおりです

  • Word2Vec:ワードベクトルトレーニング
  • グローブ:ワードベクトルトレーニング
  • C2W:ワードベクタートレーニング
  • TextCNN:テキスト分類
  • CharTextCNN:テキスト分類
  • FastText:単語ベクトル+テキスト分類
  • ディープNMT:Seq2Seq
  • バーダナウNMT:Seq2Seq
  • ハン注意:注意メカニズム
  • SGM:テキスト分類のためのシーケンス注釈

ここに写真の説明を挿入

各論文の読み方を下図に示します。

  • ガイド
    知識と背景の紹介(論文が解決する問題、それが行われる理由、研究の重要性)を予約する
  • 精読
    モデル集中講義、実験的分析とディスカッション、論文の要約(キーポイント、イノベーションポイント、インスピレーションポイント)
  • コード
    Pytorchの実装、トレーニング、テストに基づくデータセット

ここに写真の説明を挿入

学習効果は次のように要約されます。

  • 単語の埋め込み、事前トレーニング、テキスト分類、Seq2Seq、注意メカニズムなど、NLPの主要なテクノロジーを理解する方法を学びます。
  • 単語のセグメンテーション、句、word2id、注意書きなど、NLPのプログラミングに関する多くの知識を学びます。
  • 紙の読み方を学び、紙の一般的な構造を知って、急いで紙を読むことができ、はっきりと焦点を合わせることができます
  • 論文の一般的な構造と書き方を学び、論文を書くための基礎を築く
  • NLPの他のキャラクターを独立して学ぶ能力を持っている

ここに写真の説明を挿入

ここに写真の説明を挿入



6.まとめ

抱きしめる木は工場の終わりに生まれます。9階建てのプラットフォームは地下から始まります。1000マイルの旅は1つのステップから始まります。
最後に、この記事がお役に立てば幸いです。

ここに写真の説明を挿入

同時に、私は彼らの公式アカウントの宣伝も手伝います、Deep EyesのPvop先生、ありがとうございました!

ここに写真の説明を挿入

2020年8月18日に新しくオープンした「NazhangAISecurity Home」は、主にPythonビッグデータ分析、サイバースペースセキュリティ、人工知能、Web浸透、攻撃および防御技術に焦点を当て、CCF、SCI、南北の核に関する論文を共有します。アルゴリズムが実装されます。Nazhang’s Houseはより体系的になり、すべての著者の記事を再構築し、Pythonとセキュリティをゼロから説明し、10年近く記事を書いてきました。私が学んだことと感じたことを共有したいと思います。また、アドバイスをお願いし、心から招待します。あなたの注意!ありがとうございました。

ここに写真の説明を挿入

(作成者:Eastmount 2020-11-20 Wuhan https://blog.csdn.net/Eastmountでの


おすすめ

転載: blog.csdn.net/Eastmount/article/details/109825633