深層学習 NLP: テキストの感情タイトル分類

1. NLPとは何ですか?

自然言語処理 (NLP) は、コンピューター サイエンスと人工知能の分野における重要な方向性です。自然言語を使用した人間とコンピューター間の効果的なコミュニケーションを可能にするさまざまな理論と方法を研究しています。自然言語処理は、言語学、コンピューターサイエンス、数学を統合した科学です。したがって、この分野の研究は自然言語、つまり人々が日常的に使用している言語に関係するため、言語学の研究と密接に関連していますが、重要な違いがあります。自然言語処理とは、自然言語に関する一般的な研究ではなく、自然言語コミュニケーションを効果的に実現できるコンピュータシステム、特にソフトウェアシステムの開発を指します。したがって、それはコンピューターサイエンスの一部です。

2. NLPカテゴリー


1.テキストマイニング: 主にテキスト分類、クラスタリング、情報抽出、要約、センチメント分析、マイニングされた情報と知識の視覚化とインタラクティブなプレゼンテーションインターフェイスが含まれており、これらを総称してテキストマイニングタスクと呼びます。

2. 情報検索: 大規模なドキュメントのインデックスを作成します。単に文書内の単語に異なる重みを割り当ててインデックスを作成することも、アルゴリズムを使用してより深いインデックスを作成することもできます。クエリを実行する場合、最初に入力を分析し、次にインデックス内で一致する候補ドキュメントを検索し、次に並べ替えメカニズムに従って候補ドキュメントを並べ替え、最後に最高のランキング スコアを持つドキュメントを出力します。
3. 構文および意味分析: 単語の分割、品詞タグ付け、固有表現認識と構文分析、意味役割認識と多義性の曖昧さ回避など、ターゲット文に対してさまざまな構文分析を実行します。
4. 機械翻訳: 通信技術とインターネット技術の急速な発展、情報の急速な増加、国際的なつながりの緊密化に伴い、世界中の誰もが言語の壁を越えて情報を入手できるようにするという課題は人間の翻訳の能力を超えています。

上記の内容は元のリンクからのものです: https://blog.csdn.net/shshwhvs/article/details/126608887

3. プロジェクトプロセスの実施

この記事はテキストセンチメントタイトル分類の実装について説明します。

環境:python3.8 tensorflow-gpu

データ形式:json

学習データのグラフは以下の通り

is_sarcastic はカテゴリ {0, 1} を表します。見出しはテキスト タイトル、URL は記事リンクですが、これはまだ必要ありません~~~~

JSONデータのインポート、エンコード、パディング、データのセグメンテーション

トレーニング用のモデルを構築する

訓練結果と予測結果

10エポックのモデルトレーニングの精度は約75%で、2つの予測タイトルの予測値は0.20と0.62であることがわかりますが、実際のラベル「写真家はインスタグラムが女性のポートレートを処理できなかったと述べています」 「陰毛」は 0 です。「クリントン氏は、最初の本の失敗を非難する次の本にすでに取り組んでいます」というラベルは 1 で、どちらも正しいです。

 

 

 


 

Supongo que te gusta

Origin blog.csdn.net/qq_54575112/article/details/132067695
Recomendado
Clasificación