サイトスペースの研究ノート

1. 機能選択エリア

1、タイムスライス

2、テキスト処理

        これは、その後のデータの視覚化と分析を容易にするために、文献の要約やタイトルなどのテキスト情報の前処理と分析を指します。の、

        用語ソース (用語ソース) はテキスト処理のパラメーターであり、分析されたテキスト内の用語のソースを指定するために使用されます。具体的には、用語ソースは次のタイプとして指定できます。

        1. タイトル:分析対象となる文書のタイトルから用語を抽出することを示します。

        2. 抄録:分析対象として文献抄録から用語を抽出したものであることを示します。

        3. キーワード:文献キーワードから抽出した用語を分析対象とすることを示します。

        4. 著者キーワード:文書作成者が解析対象として提供したキーワードから用語を抽出することを示します。

        用語ソース パラメーターを設定すると、テキスト処理のプロセスで適切な用語ソースを選択し、リサーチクエスチョンの特性をよりよく反映することができます。たとえば、リサーチの質問がドキュメント タイトルの用語に焦点を当てている場合は、[用語ソース] を [タイトル] に設定できます。リサーチの質問がドキュメントの作成者によって提供されたキーワードに焦点を当てている場合は、[用語ソース] を [著者のキーワード] に設定できます。

        用語ソースが異なれば分析結果に与える影響も異なるため、テキスト処理パラメータを使用する場合は、特定の研究課題やデータセットの特性に応じて最適なパラメータを選択する必要があることに注意してください。

2、ノードの種類

        CiteSpace では、リンクは文書間の相互引用関係を分析する方法です。リンク分析は、リンク コントロール パネルで設定できるいくつかのパラメータによって定義できます。以下は、リンク コントロール パネルで一般的に使用されるパラメータとその意味です。

リンクの強さ

        接続強度の最小値と最大値を指定します。指定された範囲内の接続強度を持つ接続のみが保持されます。

        CiteSpace では、リンク強度 (接続強度) は 2 つのドキュメント間の接続の強さを指し、それらの関係がどの程度密接であるかを示します。リンク強度パラメータはさまざまなアルゴリズムを使用して計算できます。一般的なアルゴリズムには次のものがあります。

        1. Cosline (コサイン類似度): 2 つの文書間の類似度を計算します。具体的には、2 つの文書のキーワード ベクトルに対してコサイン計算を実行し、その結果が 1 に近いほど類似度が高くなります。

        2. PMI (相互情報量): 2 つの文書間に出現するキーワードの頻度と、それぞれの文書が単独で出現する確率の積の比率を示します。2 つのドキュメント間にキーワードが出現する頻度が、単独で出現する確率よりも高い場合、それらのドキュメント間の PMI 値も比較的高くなります。

        3. Dice (Dice 類似度係数): 2 つの文書間の類似度を計算します。具体的には、2 つの文書のキーワード ベクトルを計算します。結果が 1 に近いほど、文書間の類似度は高くなります。

        4. Jaccard (Jaccard 類似度係数): 2 つの文書間の類似度を計算します。具体的には、2 つの文書のキーワード ベクトルを計算します。結果が 1 に近いほど、文書間の類似度は高くなります。

        リンク強度パラメーターの計算方法が異なると、ドキュメント間のリンク強度に異なる影響が及ぶことに注意してください。Link Strength パラメータを使用する場合、特定の研究課題やデータセットの特性に応じて、最適な計算方法を選択する必要があります。

範囲

        接続強度を計算する際に考慮する文献の範囲を決定します。具体的には、Scope パラメータには次のものが含まれます。

        1. スライス内 (タイムスライス内):同じタイムスライス内の文書間の結合強度、つまり、同じ年または同じ期間内の文書間の結合強度のみが考慮されることを示します。

        2. スライス間:異なるタイムスライスで考慮された文書間の接続強度、つまり、異なる年または異なる期間の文書間の接続強度を示します。

        このうちタイムスライスとは、調査期間を同じ長さの複数の期間に分割することを指し、各期間をタイムスライスと呼びます。Scope パラメーターを選択すると、研究課題の特性をよりよく反映するために、接続強度を計算するときにさまざまなドキュメント スコープを考慮することができます。

        なお、Scopeパラメータの選択が異なると接続強度の計算結果に異なる影響を与えるため、Linkパラメータを使用する場合は、具体的な研究課題や特性に応じて最適なパラメータを選択する必要があります。データセットの。

4、選定基準

4.1 g インデックス

        著者の論文数と引用数のバランスを測定するために使用されます。

意味

        g-index は被引用数に基づく指数で、著者のすべての論文を被引用数の多い順にソートし、最も大きい g 値を見つけます。は g^2 以上ですたとえば、著者の最初の 3 つの論文の引用数が合計 9 件以上であるが、最初の 4 つの論文の引用数が合計 16 件未満の場合、g インデックスは 3 になります。

使用

        g-index は、著者の成果と影響力を測定するために使用される指標です。h-indexと同様に著者の論文数や被引用数を総合的に考慮できますが、より被引用数のバランスに注目しています。通常、g インデックスが高くなるほど、その分野における著者の影響力が大きくなります

判断

        CiteSpace では、g-index を使用して著者の影響力を比較できます。たとえば、複数の著者の g インデックスを比較すると、その分野で誰がより大きな影響力を持っているかを判断できます異なる主題分野の g インデックス基準は異なる場合があるため、異なる分野の著者の g インデックスを直接比較すべきではないことに注意してください。

設定

        CiteSpaceでは、「パラメータ」の「分析タイプ」で「g-index」を選択することでg-indexを計算できます。「g-index Options」では、最小g値、最大g値、ステップサイズなどのパラメータを設定できます。これらのパラメーターの選択は、特定の研究の目的とデータセットのサイズによって異なります。たとえば、データセットが大きい場合、計算時間を節約するために大きなステップ サイズと最大 g 値を選択できます。

 「k が大きいほど、グラフに表示されるノードの数が多くなります。k が小さいほど、グラフに表示されるノードの数が少なくなります。」

4.2 トップN

        上位 N は選択基準の 1 つで、最も影響力の高い N 個の記事を選別するために使用されます。具体的には、トップ N は学術的な影響力と重要性の高い上位 N 個の論文をフィルタリングします。

        特定の状況に応じて、上位 N の設定を調整する必要があることに注意してください。Nの値を小さくしすぎると、影響力は少ないものの学術的価値はある論文が除外されてしまう可能性があります。N の値を大きすぎる値に設定すると、結果が冗長すぎて分析や理解が困難になる可能性があります。したがって、Top N を設定する際には、最適な分析結果が得られるように、特定のデータセットの特性や研究目的と組み合わせて総合的に考慮する必要があります。

        「上位 N は、引用数が最も多い N 件の引用の選択を表します。重要な文書を見つける必要があるため、重要な文書を見つけるにはどうすればよいでしょうか。文書を定量化できる方法で分析できます。上位 N がそれに続きます。」パーセンテージ (上位 N%) は、引用のために選択されたパーセンテージを意味します。」

 

3.2 h インデックス

        論文の引用数に基づいて著者の学術的影響を評価する指標

意味

        h-index は、ある著者の h 回の論文が少なくとも h 回引用されているが、他の論文の引用数が h 回以下であることを意味します。たとえば、著者の h インデックスが 10 の場合、その著者の上位 10 論文が少なくとも 10 回引用されているが、他の論文は 10 回以上引用されていないことを意味します。

使用

1 CiteSpace では、h-index 解析パラメータを設定することで、著者の h-index 値を計算し、視覚化することができます。結果では、各著者の h-index 値が名前の下に表示されます。

判断

        h-index は、著者の学術的影響力と研究への貢献を評価するために使用できます。一般的に、h-index 値が高い著者は、学術的評判や研究レベルが高いと考えられます。

設定

        CiteSpace では、h-index 解析パラメータを設定することで、著者の h-index 値を計算して表示できます。h-index 分析パラメータを設定するときは、次の要素を考慮する必要があります。

最小h値

        通常、h の最小値は 2 または 3 に設定する必要があります。これは、1 人の著者の上位 2 つまたは 3 つの論文が少なくとも 2 つまたは 3 つの引用を得ていることを意味します。

最大h値

        h の最大値の選択は、データセットのサイズと特性によって異なります。データセットが大きい場合は、最大 h 値を適切に増やすことができます。データセットが比較的小さい場合、最大 h 値を適切に減らすことができます。

刻み幅

        ステップ サイズとは、h の値が毎回増加する量を指します。一般に、できるだけ多くの h 値を取得するには、ステップ サイズを 1 に設定する必要があります。

        学術分野や文書の種類が異なれば引用状況や特徴も異なるため、結果の正確性と信頼性を確保するには、特定の状況に応じて h-index 分析パラメータを調整する必要があることに注意してください。

6、剪定

        CiteSpace では、枝刈り (枝刈り) は、研究ネットワークの中核構造と主な特徴をより適切に表示できるように、いくつかの重要でないノードやエッジを除外するために使用されるデータ処理方法です。枝刈りはさまざまなパラメータを設定することで実現できます。一般的に使用されるパラメータは次のとおりです。

  1. パスファインダー: パスファインダー アルゴリズムを使用した研究ネットワークの枝刈りを示します。パス検索アルゴリズムは開始点から開始し、徐々に他のすべてのノードを検索し、ノードの重要性に応じてネットワークを枝刈りします。パスファインダー アルゴリズムは、重要でないノードやエッジをフィルタリングして取り除くことができるため、研究ネットワークの構造がよりシンプルかつ明確になります。

  2. 最小スパニング ツリー: 研究ネットワークが最小スパニング ツリー アルゴリズムを使用してプルーニングされていることを示します。最小スパニング ツリー アルゴリズムは、開始点から開始し、徐々に他のすべてのノードに接続し、エッジの重みに従ってネットワークを枝刈りします。最小スパニング ツリー アルゴリズムは、いくつかの重要でないエッジを除外し、研究ネットワークの構造をよりシンプルかつ明確にすることができます。

  3. スライスされたネットワークのプルーニング: スライスされたネットワークをプルーニングし、バックボーン ネットワークに関連するノードとエッジのみを保持し、他のノードとエッジを除外することを意味します。プルーニング スライス ネットワーク アルゴリズムは、いくつかの重要でないノードとエッジを除外し、研究ネットワークの構造をより明確にすることができます。

  4. マージされたネットワークのプルーニング: マージされたネットワークをプルーニングし、研究課題に関連するノードとエッジのみを保持し、他のノードとエッジを除外することを意味します。マージされたネットワークのプルーニング アルゴリズムは、重要でないノードとエッジをフィルタリングして取り除くことができ、研究ネットワークの構造をよりシンプルかつ明確にします。

        プルーニング パラメータを設定すると、研究ネットワーク内の重要でないノードやエッジをフィルタリングして取り除くことができるため、研究ネットワークの核となる構造と主要な機能をより適切に表示できます。なお、Pruning パラメータの設定は、特定の研究課題やデータセットの特性に応じて調整する必要があり、より正確で有用な分析結果を得るために、実際の状況に応じて柔軟に選択することをお勧めします。

2. コントロールパネル

2.1 バースト性

f(x)=ae^(-ax)、a1/a0

        ここで、a1/a0 は関数の形状を制御するパラメータ、a は制御関数のスケール パラメータ、e は自然対数の底です。このパラメータの機能は、バースト検出アルゴリズムにおけるバースト判定基準、つまり、ある期間がバーストであるかどうかを判定するためのしきい値を調整することです。a1/a0 を増やすと、バースト判定の厳密さが向上します。つまり、ある期間がバーストであるかどうかをより厳密に判定できます。a1/a0 を減らすと、バースト判定の厳密さが低下します。つまり、一定期間を判定しやすくなります。バーストのような時間。

        より正確で有用な分析結果を得るには、特定のデータセットや研究課題に応じて a1/a0 の設定を柔軟に選択する必要があることに注意してください。通常、a1/a0 の値の範囲は 0 ~ 1 であり、値が大きいほどバースト基準は厳しくなります。同時に、他の Burstiness パラメータの影響と組み合わせて総合的に調整する必要もあります。

州の数

        このパラメータは、バーストネス アルゴリズムの状態の数、つまりバースト検出プロセスで分割される状態の数を示します。このパラメータは、バースト検出アルゴリズムの精度と速度を制御するために使用でき、通常はデータセットのサイズと研究課題のニーズに応じて柔軟に選択できます。

        データ セットが大きい場合、またはより詳細なバースト検出分析が必要な場合は、状態の数を適切に増やしてアルゴリズムの精度と精度を向上させることができます。データ セットが小さい場合、または時間が限られている場合は、状態の数を増やすことができます。アルゴリズムの実行時間を短縮するには、適切に減らす必要があります。より正確で有用な解析結果を得るには、[状態数] パラメーターの設定で他のバースト性パラメーターの影響も考慮する必要があることに注意してください。

c

        値の範囲は [0,1] です。γ は、バーストを計算するプロセスにおいて、現在のタイム スライスに出現する単語の頻度とその履歴平均頻度の間の相対的なサイズを測定するために使用されることを意味します。具体的には、γ が 0 の場合、現在のタイム スライス内の単語の出現頻度のみが考慮され、γ が 1 の場合、過去の平均出現頻度のみが考慮され、γ が 0 と 1 の間の場合、両方の出現頻度が考慮されます。現在のタイム スライス内の単語の数と履歴における平均出現頻度。γ の値を調整することで、バーストを計算する際に、現在のタイム スライスと過去のタイム スライスでの単語の出現頻度に対するバースティネス アルゴリズムの重み配分を制御し、より正確で有用な分析を得ることができます。結果。

        より良い分析結果を得るには、特定のデータセットや研究課題に応じて γ の値を柔軟に選択する必要があることに注意してください。通常、γ の値は 0 ~ 1 であり、実際のニーズに応じて微調整できます。同時に、他の Burstiness パラメータの影響と組み合わせて総合的に調整する必要もあります。

バーストアイテムが見つかりました

        このパラメータは、バースティネス アルゴリズムで見つかったバースト イベントの数を示します。Burstiness アルゴリズムは、時系列で潜在的なバースト イベントを特定することにより、研究トピックと文献コレクションの注目分野を分析します。Burst Items Found パラメータは、ユーザーが文献コレクション全体におけるバースト イベントの分布を理解し、文献コレクションの研究ホットスポットと傾向をよりよく把握するのに役立ちます。

        Burst Items Found パラメータのサイズは、他のパラメータの値に関連していることに注意してください。一般に、バースト アイテムの検出値が大きいほどパラメータ設定が緩いことを意味し、バースト アイテムの検出値が小さいほどパラメータ設定が厳密であることを意味します。したがって、Burstiness アルゴリズムを使用する場合は、より良い解析結果を得るために各パラメータの値を柔軟に調整する必要があります。

2.2 ラベル

(1) キーワード|用語|オーバーレイラベル

        学位別

        Citespace のコントロール パネルでは、[ラベル] オプションの [度別] オプションを使用してドキュメント ノード ラベルの表示モードを設定でき、ノードの重要度は度によってマークされます

        Citespace では、ノードの次数は、ノードに接続されているエッジの数、つまりノードの出力次数と入力次数の合計を指します。ノードの次数が大きくなるほど、そのノードと他のノードとのつながりが密になり、影響力も大きくなります。

        [度別] オプションでは、ノードの度数情報を表示するためのさまざまな方法が提供されます。たとえば、ノードの度数値をラベル コンテンツとしてノードの隣に表示したり、ノードをフォントで表すことができます。ラベルのサイズ、色、形状などの度数サイズ。

        「度別」オプションを設定すると、ユーザーはドキュメント ノードの重要性をより直観的に理解し、より適切なドキュメント分析と視覚化を実行できるようになります。

        周波数別

        Citespace のコントロール パネルで、[ラベル] オプションの [頻度別] オプションを使用して、ドキュメント ノードのラベルの表示モードを設定し、引用数 (またはその他の情報) によってノードの重要性をマークできます。文書の周波数)

        「頻度別」オプションでは、文書ノードの引用情報をさまざまな方法で表示できます。たとえば、文書ノードの引用値をラベルの内容、フォント サイズ、色としてノードの横に表示できます。ラベルの形状などを表示することができます。ノードへの参照数を表す方法です。

        「頻度別」オプションを設定すると、ユーザーは文献ノードの重要性をより直観的に理解し、より適切な文献分析と視覚化を実行できるようになります。

        中心性による

        CiteSpace のコントロール パネルでは、[ラベル] オプションの下の [中心性による] オプションを使用してドキュメント ノード ラベルの表示モードを設定し、ネットワーク内のドキュメント ノードの中心性インデックスを使用して重要度をマークできます。ノード

        中心性指標とは、ネットワークにおけるノードの重要性や影響力を測るために使用される指標です。一般的な中心性指標には、次数中心性、媒介中心性、および近接中心性が含まれます。CiteSpace では、「中心性による」オプションにより、ドキュメント ノードのラベルを設定するためのさまざまな中心性インジケーターが提供されます。

        ユーザーは、媒介中心性を使用してドキュメント ノードの重要性をマークしたり、PageRank アルゴリズムを使用してドキュメント ノードのラベル コンテンツとしての重み値を計算したりするなど、独自の分析ニーズに応じて適切な中心性インジケーターを選択できます。「中心性による」オプションを設定すると、ユーザーは文献ノードの重要性と影響をより正確に理解し、より適切な文献分析と視覚化を実行できるようになります。

        投稿者:Eigen.Centrality

        「By Eigen.Centrality」は、CiteSpace コントロール パネルのラベル設定オプションで、ネットワーク内の固有ベクトル中心性インデックスに従ってドキュメント ノードのラベルを表示できます。

        固有ベクトル中心性は、ネットワーク内でのノードの影響力の尺度であり、ノードの直接の隣接ノードの量と質、およびこれらの隣接ノードの重要性が考慮されますしたがって、固有ベクトル中心性は、ネットワーク内のノードの重要性と影響を評価するために使用できる比較的包括的な指標です。

        「By Eigen.Centrality」オプションを使用すると、ユーザーは固有ベクトルの中心性が高いドキュメント ノードをより重要で影響力のあるノードとしてマークし、ドキュメントの分析と視覚化を向上させることができます。

        バーストネスによる

        「バーストネス別」は、CiteSpace コントロール パネルのラベル設定オプションで、時間内のバーストネス インデックスに従ってドキュメント ノードのラベルを表示できます。

        爆発性とは、時系列にノードが出現する平均回数に対する、時系列にノードが出現する回数の比率を指しますノードが時系列でより頻繁に出現するほど、そのノードはより爆発的になります。

        [バーストネスによる] オプションを使用すると、ユーザーはバースト性が高いドキュメント ノードをより代表的で重要なノードとしてマークし、より適切なドキュメント分析と視覚化を実行できます。

        ラベルを非表示にする

        「ラベルの非表示」は、CiteSpace コントロール パネルのラベル設定オプションで、ドキュメント ノードのラベルを非表示または表示できます。このオプションを使用すると、ユーザーは文書共引用関係ネットワーク グラフ内のノード ラベルを非表示にして、ノード間の接続関係に焦点を当て、グラフ構造をより明確に表示して、ユーザーがより意味のあるノードを発見して接続できるようにすることができます。

(2) 閾値

「しきい値」は、ネットワークに表示されるノードとエッジの数を制御する        CiteSpace コントロール パネルのパラメータです具体的には、ユーザーがしきい値を設定すると、重要度がこの値以上のノードまたはエッジのみがネットワーク内に表示されます。ノードまたはエッジの重要性がこのしきい値より低い場合、それらはフィルターで除外され、ネットワークがより明確かつ簡潔になります。このパラメータの適切な値は、特定の研究の目的とデータセットの特性と組み合わせて決定する必要があります。

(3) 文字サイズ

「フォント サイズ」は、ノード ラベルのフォント サイズ        を制御する CiteSpace コントロール パネルのパラメーターです具体的には、ユーザーがフォントサイズを設定すると、CiteSpaceがノードの重要度や閾値に応じてノードラベルのサイズを自動的に調整するため、ノードの重要度をより直感的に表現できます。通常、重要性の高いノードは大きなフォント ラベルで強調表示され、重要性の低いノードは小さなフォント ラベルで表示されます。このパラメータの適切な値も、特定の研究の目的とデータセットの特性に応じて決定する必要があります。

(4) ノードサイズ

        「ノード サイズ」は、CiteSpace コントロール パネルのパラメーターであり、ノードのサイズを制御するために使用されます。具体的には、ユーザーがノードのサイズを設定すると、CiteSpaceがノードの重要性と閾値に応じてノードのサイズを自動的に調整するため、ノードの重要性をより直感的に提示できます。通常、重要性の高いノードは大きなサイズで表示され、重要性の低いノードは小さなサイズで表示されます。このパラメータの適切な値も、特定の研究の目的とデータセットの特性に応じて決定する必要があります。CiteSpace では、ノードのサイズは、引用数、出現回数などのさまざまな指標を反映することができます。

おすすめ

転載: blog.csdn.net/weixin_57399429/article/details/130171946