【テキストマイニングと知識発見】 01.紅楼夢のテーマ進化分析——文献可視化分析ソフトCiteSpaceのご紹介

8月は忙しすぎるので記事を書きましょう!
この記事は、2023 年 8 月末の著者の新しいコラム「テキスト マイニングと知識の発見」です。主に Python、ビッグ データ分析、人工知能を組み合わせて、テキスト マイニング、ナレッジ グラフ、知識の発見、ライブラリ情報などのコンテンツを共有します。なお、これらの内容は、2024年発売予定の著者の著書『テキストマイニングと知識発見(Python編)』の紹介の一部でもあり、全20章で数百件の事例をカバーしています。あなたの注目、いいね、リツイートが秀章への最大のサポートです。知識は貴重です。私たち全員が幸せになり、人生の道で一緒に成長できることを願っています。

この記事では、主に文書視覚化分析ソフトウェア CiteSpace の基礎知識を紹介し、CNKI の文書「Red Mansions の夢」を例として、トピックマイニング、キーワード クラスタリング、トピック進化分析を実行します。基本的な記事ですので、お役に立てれば幸いです。


1. CiteSpaceの導入とインストール

1 はじめに

CiteSpace は、ドレクセル大学と WISE 研究所の Chaomei Chen 博士が共同開発した科学文献分析ツールです。CiteSpace は Java で実装された視覚的文献分析ソフトウェアであり、優れた書誌計量学または図書館情報科学ソフトウェアとして、一定期間における主題や知識分野の発展傾向や傾向を表示し、研究フロンティアの進化過程を形成することができます。 、文書間の関係を科学知識グラフの形式で視覚化できます。

  • テキストトピックマイニング、テキスト進化分析、知識発見などの分野で一般的に使用されます。

ここに画像の説明を挿入

CiteSpace ソフトウェアは、共引用分析と経路探索ネットワーク アルゴリズムに基づいてデータ サンプルを視覚化し、特定の知識分野の進化プロセスを表示します。特に膨大な文献に直面した場合、このソフトウェアは重要な情報と核となるトピックを迅速に特定し、この分野の発展の歴史を掘り起こし、現在活発な研究トピックと将来の開発傾向を予測するのに役立ちます。つまり、CiteSpace は、特定の分野における過去の研究の軌跡、研究状況、注目のトピックを明らかにするだけでなく、この分野の将来の発展の方向性を明らかにすることにも役立ちます。

CiteSpace は、科学分野の構造的および時間的パターンと傾向をインタラクティブに視覚化します。これにより、詳細な視覚的分析プロセスを通じて知識ドメインの体系的なレビューが容易になります。Web of Science、Scopus、Dimensions、Lens などの一般的なソースからの引用データを処理できます。CiteSpace は、PubMed、CNKI、ProQuest の論文や論文など、引用関連情報のないデータセットに対する基本的な視覚分析機能もサポートしています。CiteSpace は、研究分野がどのように進化してきたか、クリティカル パスに沿ってどのような知的転換点が明らかであるか、どのようなトピックが注目を集めているかを明らかにします。CiteSpace は繰り返し適用して、分野の発展を綿密かつ広範囲に追跡できます。


2. ダウンロード

ソフトウェアは公式 Web サイトからダウンロードできます。

Java環境ではJREまたはJDKをダウンロードするだけで済みます。

下図に示すように、「ダウンロード」をクリックしてソフトウェアをダウンロードします。

画像の説明を追加してください

ここに画像の説明を挿入

ここに画像の説明を挿入

対応ソフトウェアは以下のWebサイトからもダウンロードできます。

ここに画像の説明を挿入


3. インストール

筆者がダウンロードしたソフトウェアを下図に示します。

ここに画像の説明を挿入

インストールするファイルをダブルクリックし、指定したディレクトリにインストールします (C ドライブ以外の英語ディレクトリへのインストールを推奨します)。

ここに画像の説明を挿入

ここに画像の説明を挿入

下図に示すように、インストールは成功しました。

画像の説明を追加してください

画像の説明を追加してください

インストールが成功したら、下図に示すようにソフトウェア(デスクトップアイコン)を実行し、「同意する」をクリックします。

画像の説明を追加してください

以下の図は CiteScape のメインインターフェイスです。

画像の説明を追加してください


2. CNKI ダウンロード文献データセット

最初のステップは、CNKI を開き、「紅楼夢と紅研究」などの該当するトピックを検索し、該当する時間や必要な文献を高度に検索してみることです。この時点では、合計 3089 件の仕訳文書が検索され、「すべて選択」ボタンを使用して必要な文書を選択します。

ここに画像の説明を挿入

2 番目のステップでは、すべてのジャーナルを選択した後、「エクスポートと分析」ボタンをクリックし、その中にある「Refworks」形式を選択します。

ここに画像の説明を挿入

3 番目のステップは、エクスポート時のファイル命名規則、download_XXXX.txt をダウンロードすることです。

画像の説明を追加してください

最終的にエクスポートされたコンテンツは、各ドキュメントの関連情報を含めて、下の図に示されています。読者はすべてのドキュメントをエクスポートし、CiteSpace 分析用に指定されたディレクトリに保存できます。注: HowNet は一度に最大 500 のドキュメントをエクスポートできますが、500 を超えるドキュメントはバッチでエクスポートする必要があります。

画像の説明を追加してください


3. CiteSpaceの基本操作

1. 基本機能の紹介

CiteSpace は、視覚化手段を通じて対象知識の構造、規則性、分布を表示し、視覚的な知識グラフを生成して、特定の研究分野の研究ホットスポット、研究フロンティア、主な著者や機関などの関連情報を探索できます。以下の分析も含まれます。

  • 引用クラスタリング機能は、どの記事が最も引用されているかを知るのに役立ちます
  • 時間軸の分析により、この分野の各トピックの発展傾向と現在の研究のホットスポットを見つけることができます
  • 研究分野全体で支配的な位置を占める主なテーマは何ですか。
  • この分野で最も多くの出版物がある国および機関
  • ある分野の先駆的文学と画期的な文学
  • 文書の共引用分析
  • 文学コミュニティクラスター分析

CiteSpace のメイン インターフェイスには次のものが含まれます。

  • File(文件)
  • Project(项目)
  • Data(数据)
  • Visualization(可视化)
  • Overlay Maps(叠加分析)
  • Analytical(文献网络分析)
  • Network(网络)
  • Text(文本)
  • Preference(偏好设置)

画像の説明を追加してください

CiteSpace が分析できるデータには次のものが含まれます。

  • Web of Science: 完全な記録と引用文献の全文としてフォーマットされます。
  • CSSCI: 形式はutf-8エンコードです
  • CNKI(中国知网):形式はRefworksです
  • NSF: nsf.gov XML 形式が必要です
  • Derwent(德温特专利数据库)
  • Scopus: RIS または CSV 形式

ここに画像の説明を挿入


2. データの準備

CiteSpace ツールの分析では、対応するフォルダーを構築する必要があり、入力、出力、データ、およびプロジェクトを保存する 4 つのフォルダーを構築する必要があります。「紅楼夢」に関する文献を分析したいため、フォルダーの名前は、図に示すように、Hongloumeng です。下の図:

画像の説明を追加してください

次に、CNKI によってエクスポートされたドキュメントを「input」フォルダーに保存します。ファイルの名前をdownload_01.txtに変更し、順番に並べる必要があることに注意してください。そうしないと、エラーが報告されます。

画像の説明を追加してください

注意:
CiteSpace は CNKI データを直接認識できないため、インポートする前にフォーマット変換が必要です。

最初のステップは、「データ」の「インポート/エクスポート」ボタンをクリックすることです。

画像の説明を追加してください

2 番目のステップは、ポップアップ インターフェイスで「CNKI」を選択し、ダウンロードした Refworks 形式の引用が配置されている入力フォルダーを「入力ディレクトリ」で選択し、出力フォルダーを出力ディレクトリで選択します。次に、CNKI フォーマット変換 (3.0) 変換ボタンをクリックして変換します。

画像の説明を追加してください

3 番目のステップでは、この時点で変換された各ファイルが出力フォルダーに生成され、これらのファイルがデータ フォルダーにコピーされます。

画像の説明を追加してください

ここに画像の説明を挿入

次に具体的な分析です。


3. 視覚的分析

最初のステップはデータのインポートです。CiteSpace で [プロジェクト] および [新規] をクリックして新しいプロジェクトを作成し、プロジェクト ファイル フォルダー Project とデータ フォルダー Data を選択し、データ ソースとして [CNKI] と中国語を選択して、[保存] をクリックします。

ここに画像の説明を挿入

2 番目のステップはパラメータの設定です。関数選択領域でパラメータを選択します。タイム スライスはドキュメントのダウンロード時に選択した時間範囲に従って設定されます (2015-2020 など)。スライスごとの年数は 1 に設定されます。ノード タイプは分析するコンテンツ (キーワードなど) を選択します。 、 [プルーニング] で [サイクル内のスライスされたネットワークをプルーニング] を選択し、他のパラメーターはデフォルト設定のままにします。

ここに画像の説明を挿入

3 番目のステップはプログラムを実行することです。設定が成功したら「GO」ボタンをクリックして分析を行っていきますが、この部分では主にキーワードを分析します。

ここに画像の説明を挿入

4 番目のステップは、キーワード共起分析です。実行後、可視化ボタンをクリックするとキーワード共起マップが作成されます。共起分析の目的は、高頻度キーワード間の関連関係を明らかにし、現在のトピックのホットスポットを説明することです。

ここに画像の説明を挿入

実行結果を次の図に示します。

ここに画像の説明を挿入

5 番目のステップは、設定を視覚化することです。キーワード共起ネットワークは、コントロール パネルの「ラベル」の「キーワード」を通じて、ノード サイズ、ノード ラベル サイズ、ノード ラベル、しきい値などを含めて美化および調整できます。「カラーマップ」を使用してノードと線の色を調整し、異なるキーワード間のつながりをより明確にします。以下の図は、Redology 文献におけるキーワードとトピックのマイニング効果を示しています。

ここに画像の説明を挿入

キーワード共起マップでは、ノードやフォントサイズが大きいほどキーワードの出現頻度が高くなります。左側のデータ列の中心性は、キーワードの重要性を分析するための重要な指標である中心性を表しており、中心性が大きいほど、調査におけるノードの重要性や影響力が大きくなります。この研究分野の焦点とホットスポットは、キーワードの中心性と頻度と組み合わせたノード サイズから知ることができます。


4. 「紅楼夢」テーマの変遷の分析

1. クラスター分析

キーワードクラスタリングマップに基づいて、さらにクラスタ分析を行うことができ、下図のアイコンをクリックして「K」を入力すると、キーワードが自動的にクラスタリングされます。

可視化画像の右上隅にあるシルエット (S 値) は、クラスター メンバーシップ全体の均一性を測定する指標であり、通常の値は (-1,1) です。S 値 > 0.5 の場合、一般にクラスタリングは妥当であると考えられます。

また、クラスタリング方法には、左から右に、ワンマイナスクラスタリング(自動レイアウトとスタイル)、Titleタイトルによるクラスタリング、KeyWordsキーワードによるクラスタリング、Authorによるクラスタリング、全KTAクラスタリング(Title|キーワード|著者)。クラスタリング後は、ラベルのしきい値を最大化することをお勧めします。これにより、以前のラベルは表示されなくなります。

画像の説明を追加してください

さらに、左上隅の2番目の「保存」ボタンをクリックして、PNG画像として保存します。

ここに画像の説明を挿入

出力されたクラスタリング結果を次の図に示します。

注: 読者は、さらに多くの設定を自分で調べるように求められます (クラスター数の設定など)。この記事は主に入門に焦点を当てています。


2. トピックの進化分析

TimeLine 時間軸を追加して、対応するテーマを表示します。以下の図のフレーム選択領域は次のとおりです。

  • 通常モード表示
  • タイムライン タイムライン表示

ここに画像の説明を挿入

エクスポート結果は次の図に示されています。

ここに画像の説明を挿入

最終的な最適化結果は次のとおりです。試してみてください。

ここに画像の説明を挿入


5. まとめ

ここまで書いて、この記事の紹介は終わりました、お役に立てれば幸いです。ねえ、私は 12 年間ブログを続けてきましたが、突然やる気がなくなりました o(╥﹏╥)o
でも、共有する知識はまだたくさんあります。記事と新しいシリーズをほとんど共有していません。気に入っていただければ幸いです。よろしくお願いします〜

  • 1. CiteSpace の紹介とインストール
    1. 概要
    2. ダウンロード
    3. インストール
  • 2. CNKI ダウンロード文献データセット
  • 3. CiteSpaceの基本操作
    1. 基本機能紹介
    2. データ準備
    3. ビジュアル分析
  • 4. 『紅楼夢』文献のテーマ進化分析
    1. クラスター分析
    2. テーマ進化分析
  • 5. まとめ

忙しい8月、忙しい2023年。あっという間に4年が経ちました。私も彼女も簡単ではありません。「ありがとう」を見るたびに泣いてしまいます。青春は変わりましたが、感情は変わりません。家族が健康でありますように。そして幸せ。寮に到着したところです、戦いの時間です!

ここに画像の説明を挿入

(投稿者:Eastmount 2023-08-29 武漢の夜http://blog.csdn.net/eastmount/ )


参考文献:

おすすめ

転載: blog.csdn.net/Eastmount/article/details/132558778