TextMining day1 電力設備の運用と保守のプロセスにおける短いテキスト マイニング フレームワーク

画像-20230703092411160

  • 前処理まず、一般的な自然言語処理タスクと同様に、ログ、チケット、仕様書の短いテキストが前処理されます。

    • 単語の分割は、中国語テキストの前処理に必要な基本ステップです。英語のテキストでは、2 つの単語を区切るためにスペースが使用されるため、通常、この手順はスキップされます。
    • POS タグ付けは、各単語の品詞 (POS、品詞) をマークし、その後の分析に役立つ可能性があります。
    • ストップ ワードの削除統計作業以外のほとんどのテキスト マイニング タスクでは、検査員の名前、場所、変電所などのストップ ワードは無意味であるため、通常はテキストから削除する必要があります。
  • データクリーニング検査技術者の知識と経験が限られているため、仕様書の短文を除き、ログやラベルに情報の欠落や情報の矛盾などの誤りが存在する可能性があります。したがって、ショート テキスト マイニングの信頼性を確保するには、エラーの特定と品質の向上の 2 つのステップでログとレシートのテキスト データをクリーンアップする必要があります。

    • 誤認
    • **品質の向上**
  • Representationモジュールは、テキスト データをコンピュータが理解できる形式に変換します。

    • 構造化形式従来、短いテキストは構造化形式 (通常はベクトルまたは行列) で表現されてきました。
    • 半構造式本稿では、短文をグラフ構造に変換するナレッジグラフ技術に基づく短文の半構造化表現を提案する。

    最後に、他の形式のデータ (数値データなど) と組み合わせて、電力設備の運用と保守の実際のアプリケーションと組み合わせて、構造化または半構造化テキスト データを分析します。

  • データ分析

    • 機械学習機械学習手法は主に、データと結果の間のマッピング関係が複雑で隠されている場合に使用されます。
    • ルールベースマッピング関係を決定できる一部のタスクでは、解釈可能性が高いため、ルールベースの方法の方が適しています。

    最後に、データ分析モジュールは、電力設備の運用と保守の判断と意思決定に関連する結果を出力します。

  • 応用

    • 判断
      • 欠陥の程度
      • 健康指数
    • 意思決定
      • 欠陥処理
      • メンテナンス戦略

III. ショートテキストマイニングフレームワークの具体的な設計

A. 前処理モジュールの具体的な設計

画像-20230703104617346

図 2 に示すように、最初の段階では、用語とイディオムを含む語彙と、適切に分割されラベル付けされたパワー コーパスを取得します。

画像-20230703104633926

図 3 に示す第 2 段階では、前処理モジュールに送信された元の短いテキストをセグメント化してラベルを付けます。

B. データクリーニングモジュールの具体的な設計

画像-20230704092212538

品質向上ステップにおける主要なパラメータとアルゴリズム

画像-20230704092853556

C. モジュールの特定の設計を示します。

画像-20230704092224633

画像-20230704092327683

画像-20230704092335978

D. データ分析モジュールの具体的な設計

CNN の主要なパラメータを表 6 に示します。

画像-20230704095947413

IV. ケーススタディ

A. テキスト分類による欠陥度判定

実験グループ 1 (EG1) は、ショート テキスト マイニング フレームワークに基づいて、テキストをベクトルとして表現し、SVM をデータ分析に適用しました。実験グループ 2 (EG2) は、テキストを行列として表現し、CNN を通じてテキスト データを分析しました。

また、EG1と比較するため、コントロールグループ1(CG1)では特別に設計されたデータクリーニングモジュールをスキップし、コントロールグループ2(CG2)では表現モジュール内の特別に設計されたVSMの特定の設計をスキップしました。 。

また、EG2 との比較のために、コントロール グループ 3 (CG3) とコントロール グループ 4 (CG4) の特別に設計されたデータ クリーニング モジュールと特別に設計されたデータ分析モジュールの CNN をそれぞれスキップしました。実験中、機械学習分類器のトレーニング時間とテスト時間が記録され、データ分析モジュールのオフラインとオンラインのコンピューティング効率がそれぞれ反映されました。結果を表7に示す。

画像-20230704100351330

EG1 と EG2 を比較すると、深層学習モデル CNN は従来の機械学習モデル SVM よりも正確ですが、効率が低いことがわかります。深層学習モデルにはより多くのパラメーターがあり、特徴をより効率的に分析できますが、より多くの時間がかかります。モデルの選択は、実際のアプリケーションにおける特定の設計の重要な要素である精度と効率に影響します。

EG2 の精度は 97.98% と高く、トレーニングとテストに最も時間がかかりますが、効率は手動分類よりも大幅に高くなります。したがって、特別に設計されたモジュールを備えたショート テキスト マイニング フレームワークは、効果的に判断を導き、全体的な精度と効率において満足のいく結果を達成できます。

B. テキスト検索に基づく欠陥処理の決定

新規欠陥ログの場合、新規ログと同じ欠陥条件を有する既存の欠陥ログが検索できれば、以前の処理方法を参照して新規欠陥に対する処理判断を行うことができる。

実際には、2 つの欠陥ログの欠陥条件が同じであっても、エンジニアによって知識や経験が異なるため、これら 2 つのログの記述はまったく異なる場合があります。したがって、テキストの類似性は一貫性をうまく反映せず、テキスト情報に含まれる関係性を深く理解する必要があります。この問題を解決するために、表現モジュールでは欠陥ログを半構造化して表現し、欠陥ログ間の関係をナレッジグラフの形で明確に表現します。

電力知識グラフ構築 (主に関係抽出ステップ) の主要なパラメータを表 VIII に示します。

画像-20230704103225379

構築されたナレッジ グラフには 2386 個のノードと 2769 個のエッジが含まれており、その一部を図 8 に示します。

画像-20230704103233166

不具合ログ取得の統計結果

画像-20230704104034498

表 9 に示すように、提案されたナレッジ グラフ ベースの半構造化表現は 3 つの指標の中で最も優れたパフォーマンスを発揮します。これは、表現モジュールの特定の設計が全体のパフォーマンスを効果的に向上できることを証明しています。ナレッジグラフは、テキスト情報をより深く理解するために、関係性を直接表現することで知識推論を実現します。より直観的に説明するために、表 Xで欠陥ログの 2 つのグループを選択して説明します。

画像-20230704104053990

各表現方法について、各グループ内の 2 つの欠陥ログの整合性を判定し、その結果を表 11に示します。

画像-20230704104115618

表 X では、A1 と A2 は同じ欠陥を指しますが、欠陥のある機器と部品の説明は大きく異なります。A2 と比較すると、A1 には欠陥のある機器「変圧器」がなく、要素「タップ切換器」のタイプがオンロードであるかオフサーキットであるかが記載されていません。したがって、構造化形式に基づく 3 つの表現方法では、A1 と A2 の整合性を識別できません。ただし、ナレッジ グラフ モデルは、図 9 に示すように、ノードの接続を通じて 2 つの欠陥ログに対応するパスが同じであると推測できます。灰色のノードは、マークされた欠陥ログに対応するノードであり、対応するパスは、ログのエッジは太字で強調表示されます (以下も同様)。

画像-20230704104215053

画像-20230704104249171

V. 結論

電力設備の運用・保守に適したテキストマイニングフレームワークを提案する。私たちの主な革新は、電力設備の運用と保守における短いテキストの特性に対処し、フレームワークの各モジュールに特定の設計を提案して、フレームワークを電力業界のテキストマイニングにより適したものにすることです。欠陥度の判断と欠陥処理の意思決定に関する 2 つのケーススタディを通じて、ショート テキスト マイニング フレームワークの実用化への指導的役割を実証します。一方、2 つのケーススタディの結果は、各モジュールの特定の設計が電力設備の運用および保守におけるショート テキスト マイニングの全体的なパフォーマンスを向上させるのに有益であることを示しています。

電力設備の運用と保守において、短文マイニング研究のさらなる改善には主に 2 つの側面があります。1 つは、構文解析などの手法によってショート テキスト マイニング フレームワークの解釈可能性を高め、人間の思考に近い方法でテキスト データを理解できるようにすることです。2つ目は、あらゆるデータ形態を考慮した汎用的なデータ融合モデルを構築し、さらなる精度向上と応用分野の拡大を図るというものです。これらの側面は両方とも、私たちの将来の研究にとって重要な方向性となるでしょう。

おすすめ

転載: blog.csdn.net/qq_43537420/article/details/131530214