チーム研究ノートタスク4:論文の分類

タスク4:論文の分類

@DateWhale
「お腹を空かせて若くして」

タスクの説明

  • 学習トピック:紙の分類(データモデリングタスク)、既存のデータを使用したモデル化、新しい紙の分類。
  • 学習内容:論文のタイトルを使用して、カテゴリの分類を完了します。
  • 学習成果:テキスト分類TF-IDFなどの基本的な方法を学びます

元の論文では、論文のカテゴリが著者によって記入されています。このタスクでは、論文のタイトルと要約を使用してタイトルを生成できます。
チュートリアルでは、TF-IDF +機械学習分類器を使用して主に2つのアイデアを提供しますまたはFastTextディープラーニングツールは分類子をすばやく構築します。ここでは、機械学習メソッドを使用してテキスト分類を完了することを選択します。

前処理

まず、タイトルと要約をつなぎ合わせて分類を完了します。

元の論文のカテゴリを分類する

data['categories']=data['categories'].apply(lamuda x:x.split(''))
data['categories_big']=data['categories'].apply(lamuda x:[xx.split('.')[0]]for xx in x)

次に、カテゴリをエンコードします。
インポートされた分類子MulitLabelBinarizerは次のとおりです。

トレーニング

from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
data_label = mlb.fit_transform(data['categories_big'].iloc[:])

次のステップは、TF-IDFを使用して特徴を抽出するというアイデアを実装することです。TF-IDFはsklearnパッケージのテキスト特徴抽出器です。その原則は次のとおりです。単語の重要性は、テキストに出現する頻度に比例します。 (TF)、これはコーパス(IDF)内の頻度に反比例します。

最初にTF-IDF分類子をインポートし、最大4000ワードに制限します

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(max_features=4000)
data_tfidf = vectorizer.fit_transform(data['text'].iloc[:])

これで、テキストのスパース行列が取得されました。これはマルチラベル分類であるため、カプセル化にはsklearnのマルチラベル分類が使用されます。機械学習の考え方に従って、トレーニングセットとデータセットが分割され、 20%はテストに使用されます:

# 划分训练集和验证集
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(data_tfidf, data_label,
                                                 test_size = 0.2,random_state = 1)

# 构建多标签分类模型
from sklearn.multioutput import MultiOutputClassifier
#算法选择先验高斯分布的分类器
from sklearn.naive_bayes import MultinomialNB
clf = MultiOutputClassifier(MultinomialNB()).fit(x_train, y_train)

検証結果

最後に、モデルと出力の精度を確認します。

from sklearn.metrics import classification_report
print(classification_report(y_test, clf.predict(x_test)))

出力は次のとおりです。
ここに画像の説明を挿入
この号では、主にsklearnのいくつかの使用法を学習しますが、その多くは以前に使用したものです。最近、Pythonの基本的な文法を確認したいと思います。今年は確率論を学習した後、機械学習スイカの本の原理を推し進めたいと思います。最初から。

おすすめ

転載: blog.csdn.net/weixin_45717055/article/details/112987938
おすすめ