- コードとプログラミングに興味のある人は、古いKに従ってコードを再生し、私と通信することができます。
3行のコードで、論文の要約を自動的に生成します
以前、紙の軽量化についてのクールな記事を書き、好評を博しました。
卒業生のための魔法の武器、ワンクリックで論文を軽量化〜!
最近、卒業論文の質疑応答の統計を行ったところ、軽量化に加えて、「アブストラクト」の作成と作成も学生にとって大きな関心事であることがわかりました。アブストラクトへの近道はありますか?
確かに、古いKがここで紹介します。
1.最初に必要なサードパーティライブラリをインポートします
# encoding:utf-8
from gensim.summarization import summarize
import re
- 私たちの論文は主に中国語の文字で構成されているため、コーディングの問題を回避するために、スクリプトの先頭にutf-8ステートメントを記述します。
- 使用するのはgensimと呼ばれるライブラリです。
“gensim是一个用于自然语言处理的库,最早是用来生成给定文章相似内容的工具,gensim本身就是“generate similar”的合成词。
- したがって、要約関数を実装する場合、gensimは非常に適したライブラリです。
- 使用する依存ライブラリは、numpyとsmart_openです。
2.テキストを前処理します
text = re.sub(r'。|?|!', '. ', text)
- gensimのアルゴリズムは文に基づいています。
- gensim自体は英語のテキスト用であるため、gensimが中国語の「文」の概念を認識できるようにするためです。上記の処理を行いました。
- 「。」で終了します。これにより、gensimは、これが文の終了記号であると判断できます。
3.1行のコード実装の概要
abstract = summarize(text)
- gensimのsummaryモジュールは、textrankに基づくバリアントです。
- textrankは文の最小単位であり、文間の関連度を計算して最も代表的なテキストを取得します。最も代表的なテキストは、それ自体が長いテキストを要約するための最良の文です。
例:まとめ
# encoding:utf-8
from gensim.summarization import summarize
import re
def do_abstract(text):
text = re.sub(r'。|?|!', '. ', text)
abstract = summarize(text)
return abstratc
上記のコードは、紙のコアコンテンツをできるだけ早く取得するのに役立ちます。次の目的で使用できます。
- 参照のコアコンテンツをすばやく取得して、その論文があなたの論文のテーマに適しているかどうかを判断します
- 論文の抽象的な内容のドラフトをすばやく生成します。ドラフトから直接変更できるため、言語を最初から整理する手間が省けます。
“textrank是源于google的pagerank算法启发,应用到自然语言处理领域的结果。
- 要約モジュールには、ニーズがよりパーソナライズされている実際の環境に適応するように設定できる多くのパラメーターがあります。
- textrankに興味のある友人は、Baidu RadaMihalceaとPaulTarauが書いた論文「TextRank:Bringing OrderintoTexts」で原理についてもっと学ぶことができます。
- 英語を読むのが苦手な友達も私の公開アカウント「OldKPlay Code」をフォローすることができます。将来、この論文の個人的な中国語分析を書きます。
このコードは、記事のコアコンテンツを要約するのに役立つだけですが、抽象的な書き込み作業を完全に置き換えることはできません。
Old Kは、テクノロジーの共有を当初の意図としてこの記事を書きましたが、それでも卒業生が独自に論文を作成することを奨励しています。
以前の素晴らしい推奨事項:
データの視覚化に適したPythonプロジェクトはありますか?
[推奨]大物が推奨するPython入門書は、
深層学習の概要です。どのコミュニティフォーラムが表示されますか?
[推奨]
Anacondaのインストール方法と開発環境の構成方法を初心者に教えるための、10の無料のpythonマシン学習プロジェクト
ファンのメリット:
- 「JavaScriptの基本的なスキルを学びましょう。古いKはこれらの本をお勧めします」を読んで共有し、「JavaScriptAdvancedProgramming」のコピーを入手するチャンスがあります。
- 「初心者が自分でPythonを学ぶために推奨される11の必読書誌」を読んで共有し、「Pythonコアプログラミング」のコピーを1つ入手するチャンスがあります。