テキストマイニング 5 日目: 化学物質の安全性リスク要因を特定するためのテキストマイニングとベイジアン ネットワーク手法

1. はじめに

この研究は、多数の化学事故報告書を分析するための改良されたテキストマイニング方法を提案することを目的としています。単語分割シソーラスを構築および更新するためのワークフローが設計されています。相関ルール マイニングとベイジアン ネットワーク分析の結果は、セキュリティ リスク要因間の関係を明確に明らかにできます。この調査の方法により、インシデント レポートから重要な情報を迅速かつ効率的に抽出でき、管理者に新しい洞察と推奨事項を提供できます。

実用的な意義

画像-20230814094230220

図 1 は、2016 年から 2021 年までの全国の年間化学事故と死亡者数を示しています。化学事故は1,050件、死亡者は1,330人に上り、化学品製造の安全性は依然として深刻な状況にあります。したがって、化学製品の安定供給を確保しつつ、安全生産レベルを向上させることは現実的に極めて重要です。

事故の約8割は人為的なものであるため、事故要因を特定し、内部のつながりを掘り起こす必要があります。

理論上の重要性

化学事故に関するこれまでの研究は、原因分析よりも安全性評価手法に重点が置かれており、既存の分析手法は専門家の経験に基づいており、人間のプロセスに依存しているため、分析が不完全でした。さらに、この化学物質の事故報告には統一された標準フォーマットがなく、報告内容は非常に体系化されていません。コンピューターはこの種の情報を直接処理できず、人間によるプロセスは時間がかかり、エラーが発生しやすくなります。したがって、大規模なテキスト データセットを処理するという課題に対処するには、セキュリティ リスクを自動的に識別する方法が必要です。

一般的なクラスタリング方法は、潜在ディリクレ割り当て (LDA) です。LDA メソッドは、テキスト分類タスクを効果的に改善するのに役立ちます。これは、多くの高度なエキスパート システムやインテリジェント システムにとって、特にラベル付きテキストが少ない場合に不可欠です。Zhong et al. [23] は、事故の危険性を分析するために LDA モデルによって生成された 34 のカテゴリーのトピックを使用することにより、建設業界のさまざまな事故に対するディープラーニング (DL) と TM のフレームワークを構築しました。Chen ら [24] はステークホルダー分類システムを構築し、LDA モデルを使用してトピックのクラスタリングを完了し、トピックの焦点と世論分野におけるステークホルダーの進化の経路を明らかにしました。しかし、検索結果は対応する情報をテキスト形式で表現するものであり、不確実性が高い。特に事故報告書などの大きな文章では、単語頻度の高い単語が特定の危険因子を特定していないにもかかわらずキーワードとして抽出される場合があります。コーパスと抽出の目的によっては、従来のテキスト マイニングではセキュリティ リスク要因を効果的に特定できず、改善する必要があります。

方法や目標を提案する

化学物質の安全性研究においてテキストマイニングが適用されることはほとんどないことを考慮し、本論文ではテキストマイニング、相関ルールマイニング、ベイジアンネットワークを独創的に組み合わせ、化学事故の分析に適用する。

まず、データの前処理において、ドメイン辞書、シソーラス辞書、ブレイクワード辞書がそれぞれ構築および更新されます。そこでキーワード抽出手法を改良し、BM25Wモデルを提案した。安全性の危険因子を特定するために、距離公式と社会技術システムを使用して相関係数が正規化されました。

次に、相関ルール マイニング手法を使用して、セキュリティ リスク要因間の強い相関ルールを見つけ、主要な原因間の関連を発見します。

最後に、相関ルールマイニングの結果に基づいて、ベイジアンネットワーク分析を実行して、化学事故の重要な要因、主要な原因経路、高頻度の要因、および高濃度の要因を見つけます。これらの結果の理論的分析が行われます。

これまでの知識主導型またはモデル主導型の研究とは異なり、この研究では、テキスト データの直接目に見えないパターンと複雑な関連性をデータ主導型の方法で分析します。私たちの目標は、事故原因の強力な自動分析と安全ポリシーの最適化を提供することにより、事故の数を減らすことです。

2。材料と方法

この研究は主に、図 2 に示すように、データの前処理、主要な理由の抽出、相関ルール マイニング、ベイジアン ネットワーク分析の 4 つの部分で構成されます。これら 4 つの部分については、次の章で 1 つずつ紹介します。

画像-20230814101143492

2.1 データセット

化学生産分野における事故調査報告書は、本論文で分析したオリジナルのコーパスである。これらの報告書は、安全管理分野の専門家が事故後の調査・分析を通じて作成したものです。事故調査報告書を入手するには多くの情報源があります。Esmaseiliら[25]は国立労働安全衛生研究所(NIOSH)から事故報告書を入手し、Rodriguesら[26]は欧州航空安全局(EASA)などから事故報告書を入手して分析した。学者 [27-29] も、関係当局から必要なデータを別途入手しました。

中国の「化学企業生産安全事故報告・調査制度」では、死傷者を伴う事故は完全、正確、適時に記録・保存しなければならず、いかなる部隊や個人もそれを隠蔽してはならないと規定している。事故報告書の内容は、事故の原因、損失、責任、是正措置などを記載する必要があります。他国と同様、中国にも安全生産管理専門部門、すなわち中華人民共和国非常事態管理部(https://www.mem.gov.cn/ (2022 年 8 月 2 日訪問)) があり、全国の省や市の緊急事態管理部門。データソースの信頼性を確保するために、2011 年から 2022 年上半期までの合計 665 件の化学物質および有害化学物質の事故調査報告書がダウンロードされました。

その後、データをフィルタリングして要件を満たさないデータを除外し、化学生産分野の事故調査報告書 330 件を残しました。図3、図4に示すように、上記の事故のレベルと種類も計算されます。

画像-20230814101749325

図 3 から、事故の大部分は一般事故と重大事故であることがわかります。これらの事故による死傷者や損失の数は少ないものの、頻繁に発生しており、依然として非常に深刻な事態になる可能性があります。

画像-20230814101801009

図 4 から、事故の種類の半分以上が爆発であり、次に中毒と窒息が続くことがわかります。これは、ほとんどの化学生産分野では、可燃性、爆発性、または有毒で有害なガスが使用されており、混合ガス爆発や人体の中毒や窒息を容易に引き起こす可能性があるためです。

2.2 データの前処理

元のコーパスには不規則な単語や意味のない単語が多数含まれているため、データの前処理は非常に重要ですが、面倒なプロセスです。最も重要なタスクの 1 つは、さらにテキスト マイニング分析を行うために、元の中国語のテキストをスペースで区切られた英語のテキストと同様の形式に分割することです。

この研究で使用されたテキスト セグメンテーション ツールは、Python3 の Jieba セグメンテーション ツールです。化学製造事故の原因は、一般に名詞と動詞、または単純名詞で構成されていることがわかりましたしたがって、この研究では、単語の分割に一般名詞、機関名、その他の固有名詞、一般的な動詞、および動名詞のみを選択します。このように、Jieba は単語分割中に残りの単語分割結果を自動的に除外します。JiebaWSS 単語分割システムには、ドメイン辞書、同義語辞書、単語分割辞書の 3 つの辞書が含まれています。

  1. ドメイン辞書: JiebaWSS は、単語の分割に最も一般的に使用される単語 (反応器、パイプラインなど) を含む辞書を提供しますが、蒸留塔、中間手術室、蒸留塔、中間手術室など、認識できない業界固有の単語も多数あります。蒸気弁、ガス検知器など これらの単語に関しては、JiebaWSS は適切な単語全体を 2 つ以上の単語に分割できます。これには、これらの業界固有の単語をドメイン辞書に事前に統合し、その辞書を JiebaWSS に追加する必要があります。

  2. 同義語辞書: 事故調査報告書には多くの同義語があり、同義語が多数あると単語の分割結果が不連続になりすぎます。すべての同義語を 1 つの単語に置き換えることができます。たとえば、パイプ、パイプ、蒸気パイプ、圧力パイプなどはすべてパイプに置き換えることができます。

  3. ストップワード辞書:事故調査報告書にも、「私たち」、「実は」、「その通り」、「3」、「6」、「、」など、意味のない単語や数字、記号がたくさん含まれています。"!"等。これらの単語は、この研究の分析にとって実際的な意味を持たないため、除外するためにストップワード辞書に追加できます。

画像-20230814103301634

これら 3 つの単語は単語の分割結果に直接影響し、単語の分割結果はその後の分析に連鎖的に影響します。したがって、この研究と一致する JiebaWSS を形成するには、これら 3 つの語彙を更新する必要があります。この研究は、esmaiili、Hallowell、Xu らの語彙開発のアイデアを活用し、語彙の更新方法を設計します。図 5 に、この方法のワークフローを示します。

2.3 キーワードの抽出

元のコーパスの分割結果の内容は非常に膨大であり、事故の直接の原因分析を行うことは困難です。キーワードとは、文書の主要な内容を表現できる言葉であり、コンピューター システムで論文の内容の特徴を引用し、情報検索を実行し、読者が参照できるように体系的に収集するためによく使用されます。

2.3.1 TF-IDF

キーワード抽出はテキストマイニングの分野の一分野であり、テキスト検索、文書比較、要約生成、文書分類、クラスタリングなどのテキストマイニング研究の基礎となります[32]。従来のキーワード抽出方法には、主に単語頻度 TF (単語頻度) と単語頻度逆文書頻度 TF-idf (単語頻度 - 逆文書頻度) が含まれており、これらは簡単で使いやすいです。TF は、単語が頻繁に出現するほど、その単語が文書に大きく貢献すると考えています。しかし、事故調査報告の場合、安全リスク要因を示す単語が文書内で頻繁に出現するほど、その単語がより重要であると単純に想定されるわけではありません。各事故調査報告書の長さはさまざまであるため、長い文書ではいくつかの重要でない単語が繰り返される場合があります。高周波の影響を軽減するために、式(2)に示すように、TF-IDFとTF後のIDFを乗算します。

画像-20230814103758062

ここで、nij は単語 ti が文書dj内に出現する回数です。

∑k nk,j は、文書 dj 内のすべての単語の出現の合計を表します。

**|D|** は、コーパス全体の文書の総数を示します。

{j: ti ∈ dj} は、単語tiを含む文書の数を示します

しかし、TF-idf は文書の長さを無視します。この場合、単語 ti の重要度スコアは依然として単語頻度 TF と線形に関連しています。たとえば、1000 ワードの文書に 100 ワードの a が含まれ、別の 5000 ワードの文書に 100 ワードの a が含まれる場合、これら 2 つの文書における単語 a の重要性が異なることは明らかです。多くの場合、長い文書では単語がより頻繁に使用されます。これは、最終的には、TF-IDF 重要度スコアが依然として長い文書を優先しすぎるという事実につながりますこの問題を改善するために、研究者らは式 (3) に示す BM25 モデル [33] を提案しました。

2.3.2 改良版 BM25——BM25W

BM25

画像-20230814104341640

ここで、Nはコーパス内のドキュメントの総数、**n(qi)** は単語「qi」を含むドキュメントの数です。

tf(qi, d)文書 d内のqiの周波数、 Ldは文書の長さです。

Lavgはコーパス全体のすべてのドキュメントの平均長でk1bは自由に調整可能なハイパーパラメータです。

一般に、k1∈[1.2,2.0]、b = 0.75。R(qi, d) から tf(qi, d) までの関数は飽和増加関数であるため、文書単語頻度の増加はキーワード スコアの増加と非線形に関係します。したがって、この研究では、キーワード抽出に使用される BM25 モデルに基づいていくつかの改善を提案します。

BM25W

TF-IDF と BM25 は両方とも、単語と文書の関係を考慮しますが、キーワード抽出に対する単語自体の意味論の影響は考慮していません。一方で、安全リスク要因を表す単語については、装置、安全装置、安全インターロック装置など、単語が長ければ長いほど、表現される情報がより明確で専門的になると一般に考えられています[34,35]。特に、セキュリティのリスク要因をより明確に示す単語を抽出できるようにしたいと考えていました。一方、以前のドメイン辞書の適切な単語は、ドメインの専門家によって慎重にチェックされ、ドキュメントから選択されているため、その意味表現はより明確で専門的です。したがって、この論文では、単語自体の意味に応じて BM25 モデルに重み付けを行います

まず、語長に応じた重みの計算式を式(4)に示します。

画像-20230814110617779

ここで、len(qi)は単語qiの長さを表しmaxlen(d, q) は文書d内の最長の単語の長さを表します。

次に、ドメイン辞書に基づく重み計算式を式(5)に示します。

画像-20230814110712447

式 (5) は、単語qiがドメイン辞書にない場合は重みを 0、それ以外の場合は基本値を 0.5 に設定し、単語分割結果の単語数に対する 100 単語ごとの比率を意味します。文書d

画像-20230814111135837

式 (3) と比較すると、次のようになります。

画像-20230814104341640

今回の研究では、BM25Wと呼ばれるこの新しいモデルをキーワード抽出に使用しました。

2.3.3 キーワードの生成(相関係数)

抽出されたキーワードは単一の名詞や動詞のみであるため、特殊設備、有毒ガス、有害ガス、監督管理などの事故原因を完全に反映することはできません。これは、単語に意味上の重複がある可能性があるか、隠れた問題を具体的に反映していない可能性があるためです [36]。これらのキーワードは標準化する必要があります。**この研究では、式(7)に示すように、すべての特徴語は最初にコンピュータによって単語-文書行列(TDM)にベクトル化されます。**TDM は mxn の 2 次元疎行列です。

画像-20230814112726339

各行はドキュメントdj、 j∈m を表し、各列は特徴語ti、 i ∈ n を表します。

t fm, n は、ファイル dm 内での特徴語 tn の出現数を表します。

このようにして、高度に構造化されていないイベント レポートを構造化された数値データに変換できます。次に、式 (8) に示すように、TDM を使用して特徴項目間の相関係数を計算します。

画像-20230814113157103

pearson(i, j) : 特徴語 i と j のピアソン相関係数。

Mindist(i, j) : すべての文書内の 2 つの単語間の最短距離を指します。

文書内に 2 つの特徴用語が同時に出現するが、遠く離れて配置されている場合、隠れた問題を表す場合、2 つの特徴用語に関連性がないことは明らかです。TDM はコーパス空間全体における特徴語数の分布を表すだけであり、文書内での特徴語の位置関係は反映されませんそこで、本研究では、log2 {1/mindist(i,j)+1} を 2 つの特徴項目の距離重みとして使用し、これにピアソン相関係数を乗じて最終的な相関係数とします。

2.4 アソシエーションルールの分析

アソシエーションルールマイニングは、Agrawal によってスーパーマーケットの買い物かご分析で初めて提案され、データベース内の商品セット間の潜在的な関係を研究する方法です。これは、現在データマイニングの分野で最も活発な研究方向の 1 つです。アソシエーションルールは、大量の事故データから事故につながる不確実な要因の関連性を発見し、要因間の因果関係を特定し、管理者の意思決定を支援します。

したがって、この研究では、テキストマイニングによる安全性リスク要因の特定に基づいて、相関ルールマイニングの方法を採用して、安全性リスク要因間の強力な相関ルールを取得し、その後の化学安全性リスク要因とベイジアンネットワーク構造の分析の基礎を提供します。ビルドは基礎を築きます。アソシエーションルールマイニングは次のように定義されます::

I = {i1, i2,...,in} を項目と呼ばれる n 個のバイナリ属性のコレクションとし、D = {t1, t2,...,tn} をデータベースと呼ばれるトランザクションのセットとしますDの各トランザクションには一意のトランザクション ID があり、I の項目のサブセットが含まれています。ルールは X⇒Y ( x から y へ) として記述されます。ここで、X、Y⊆I です。

各ルールは、アイテムセット X および Y とも呼ばれる 2 つの異なるアイテムセットで構成されます。X は前件または左側 (LHS) と呼ばれ、Y は後件または右側の項 (右側;右ハンドル)。** 考えられるすべてのセットルールから興味深いルールを選択するには、さまざまな意味と関心の基準に関する制約が使用されます。**最も有名な制約は、サポートと信頼の最小しきい値です。

  • X をアイテムセット、X⇒Y を相関ルール、T を特定のデータベースのトランザクションのセットとします。

    • サポートは、データセット内でアイテムセットが発生する頻度を示します。データセットが大きくなるにつれて、アイテムセットの前提条件は包括的ではなく制限的になります。

    • X から T までのサポートは、項目セット Xを含むデータセット内のトランザクション tの割合として定義され、次のように計算されます。

      画像-20230814150831485

    • 信頼度は、ルールが正しいと判明する頻度を示し、次のように表されます。

      画像-20230814150915189

    • 一連のトランザクション T に対する X ⇒ Y の信頼値は、X を含むトランザクションのうち、Y も含まれるトランザクションの割合です。conf(X⇒Y) の値が 1 の場合、X⇒Y の法則は避けられません。

    アソシエーション ルールは、最小限のサポートと最小限の信頼を同時に満たす必要があります。ほとんどの場合、相関ルールの生成は 2 つの別々のステップに分かれています。

    最初のステップでは、最小サポートしきい値を適用して、データベース内の頻度の高いアイテムセットをすべて検索します。

    2 番目のステップでは、最小信頼制約を適用して、これらの頻度の高いアイテムセットを取得してルールを形成します。

安全性の危険因子は当初文献には記載されていませんでしたが、標準化されたキーワードを通じて取得されました。したがって、キーワードと非キー特徴項目のペアが文書内に同時に出現し、その距離が 10 を超えない場合、これら 2 つの単語によって正規化されたセキュリティ リスク要因がこの文書内にも存在すると考えられます。このようにして、相関ルールマイニングに必要なトランザクションセット、すなわち上記のトランザクションデータセットを取得することができる。

従来の相関ルール マイニング アルゴリズムには、主にApriori アルゴリズムと FP-growth アルゴリズムが含まれます。

Apriori アルゴリズムはトランザクション データベースを複数回スキャンし、候補の頻出セットを使用して毎回頻出セットを生成します。

FP -growth アルゴリズムは、ツリー構造を使用して、候補頻出セットを生成せずに直接頻出セットを取得します。これにより、トランザクション データベースのスキャン数が大幅に削減され、アルゴリズムの効率が向上します。

したがって、FP-growth は、1 次元のブール相関ルールをマイニングするためにのみ使用できます。ただし、セキュリティ リスク要因と多数のマルチセット相関ルールの間には複雑な因果関係があるため、この研究では相関ルール マイニングに Apriori アルゴリズムを使用しています。

2.5 ベイジアンネットワーク分析

ベイジアン ネットワークは信念ネットワークとしても知られ、ベイジアンの拡張であり、不確実な知識の表現と推論の分野で最も効果的な理論モデルの 1 つです。Pearl が 1988 年にベイジアン ネットワークを提案して以来、ベイジアン ネットワークは近年研究のホットスポットとなっています。ベイジアン ネットワークは、図 6 に示すように、変数を表すノードとこれらのノードを接続する有向エッジで構成される有向非巡回グラフ(DAG)です。

画像-20230814151826044

事象 A の発生が事象 B の発生に影響を与える場合、次の関係 (条件付き確率) が成り立ちます。

画像-20230814151847628

式 (11) はベイズの公式と呼ばれ、P(A) と P(B) はそれぞれイベント A とイベント B の事前確率、P(A|B) は事後確率 (条件付き確率)、つまり、イベント A が発生したときにイベント B が発生する確率、P(B|A) は尤度確率を表し、想定された結果が発生した場合の原因の可能性の説明を表します。任意の確率変数について、その結合確率は、式 (12) に示すように、それぞれの局所的な条件付き確率分布を乗算することによって取得できます。

画像-20230814152341412

本稿で化学事故の因果関係ネットワークを構築・分析する目的は、定量的な分析を通じて化学品安全生産システムの主要なリスク要因を明らかにし、より的を絞った事故防止戦略を提案することである。そこで本研究では、相関ルールマイニングの結果に基づいてベイジアンネットワーク構造を構築し、トランザクションセットをOne-Hot Encodingに変換してベイジアンネットワークのパラメータ学習を行う。次に、セキュリティのリスク要因について、感度、重大な原因経路、および頻度の統計分析が実行されます。

この研究では、ベイジアン ネットワーク解析に GeNIe4.0 ソフトウェアを使用します。GeNIe Modeler は、グラフィカルな意思決定理論モデルを構築するための開発環境です。その多用途性と信頼性により、GeNIe と SMILE は非常に人気があり、学術界だけでなく、多くの政府、軍事、商業ユーザーによって事実上の標準となっており、GeNIe は多くの教育、研究、商用で使用されています。テストは環境で実行されました[45]。

おすすめ

転載: blog.csdn.net/qq_43537420/article/details/132277312