テキスト分類
単語の目的のために外因性の評価、特に下流のタスクを埋め込みます。
いくつかの概念は、復旦大学NLPグループから通知されています
統計ベースの方法
統計の観点は[リチウムY 2015】以下のように記述されたテキストの分類をベース。
私たちは、テキスト分類データセットとしてテンセントのニュースのタイトルを使用します。四つのカテゴリー(社会、エンターテインメント、医療、軍事)の8826タイトルの合計が抽出されています。タイトルの長さは、10から20ワードの範囲です。私たちは学んだ埋め込みでLIBLINEARパッケージ(Fanら、2008)を使用してℓ2-正則ロジスティック回帰分類器を訓練します。
参考文献
NLP復旦グループ。NLP-初心者。Https://github.com/FudanNLP/nlp-beginner
[リチウムY. 2015]のLi Y、李W、太陽F、ら。成分強調漢字、組み込み環境[J]。自然言語処理、2015年に経験的方法:829から834まで。