テキスト分類

テキスト分類

単語の目的のために外因性の評価、特に下流のタスクを埋め込みます。

いくつかの概念は、復旦大学NLPグループから通知されています

統計ベースの方法

統計の観点は[リチウムY 2015】以下のように記述されたテキストの分類をベース。

私たちは、テキスト分類データセットとしてテンセントのニュースのタイトルを使用します。四つのカテゴリー(社会、エンターテインメント、医療、軍事)の8826タイトルの合計が抽出されています。タイトルの長さは、10から20ワードの範囲です。私たちは学んだ埋め込みでLIBLINEARパッケージ(Fanら、2008)を使用してℓ2-正則ロジスティック回帰分類器を訓練します。

参考文献

NLP復旦グループ。NLP-初心者。Https://github.com/FudanNLP/nlp-beginner

[リチウムY. 2015]のLi Y、李W、太陽F、ら。成分強調漢字、組み込み環境[J]。自然言語処理、2015年に経験的方法:829から834まで。

おすすめ

転載: www.cnblogs.com/fengyubo/p/11118431.html