デジタルツイン紙読書ノート [1.2]

[1] Liu Jinsong. ハイエンド CNC 工作機械のデジタル ツインの主要技術の研究と応用 [D]. 中国科学院大学 (中国科学院瀋陽計算技術研究所)、2022. DOI: 10.27587 /d.cnki.gksjs.2022.000005.

実験による検証

故障診断のための畳み込みニューラル ネットワーク

この実験では、下の図に示すように、3 つの畳み込み層、3 つのプーリング層、1 つの全結合隠れ層、および 1 つのソフトマックス層を含む畳み込みニューラル ネットワーク構造を使用します。故障データは、最初の畳み込み層と ReLU 活性化関数を通過し、一連の特徴マップ (Feature Map) を出力し、ダウンサンプリングのために最大プーリングを受けます。この操作を 2 回以上繰り返し、最後のプーリング層が出力した特徴マップを完全に接続された隠れ層に接続し、ReLU 関数によってアクティブ化された後、最後の Softmax 層に渡します。

最初の畳み込み層の畳み込みカーネルの数は 16、畳み込みカーネルのサイズは 62×1、ステップ サイズは 16×1、2 番目と 3 番目の畳み込み層の畳み込みカーネルの数は 64、コンボリューション カーネルのサイズは 3×1、ステップ サイズは 1×1 です。最初のプーリング層のスライディング ウィンドウ サイズは 2×1、ステップ サイズは 1×1、2 番目と 3 番目のプーリング層のスライディング ウィンドウ サイズは 2×1、ステップ サイズは 2×1 です。全結合層のニューロンの数は 64 で、ソフトマックス層によって出力されるカテゴリの数は 10 です。

故障知識グラフの構築と検証 

触ったことないので分かりません…意味だけ見てください ┗( ▔, ▔ )┛

ハイエンドCNC工作機械のデジタルツインにおける生産計画の意思決定手法に関する研究

モチベーション

CNC工作機械の故障情報が検出されると、故障知識マップ検索推論に従って故障のメンテナンス知識が取得され、これらの知識が制約として使用され、再スケジュールの意思決定アルゴリズムが支援に使用されます。生産計画の更新において、生産計画の動的な調整と実行を提供するポリシーのサポート。ハイエンドCNC工作機械のデジタルツインの生産再スケジュール意思決定問題に向けて,インテリジェントな障害保守と生産再スケジュール決定の実現を目的として,故障診断と生産再スケジュールのための統合意思決定アーキテクチャを提案した。

障害診断と生産スケジュール変更の統合意思決定アーキテクチャ

(1)故障診断層以前に提案されたデータ認識方法に基づいて、この層はハイエンド CNC 工作機械の全要素認識データ取得ネットワークを構築し、CNC 工作機械の全要素認識データのリアルタイム取得を実現し、リアルタイム動作をマッピングします。 CNC 工作機械のステータス データを情報空間に移し、物理エンティティとデジタル ツインを維持します。モデルの一貫性により、CNC 工作機械の故障診断に豊富な情報が提供されます。以前に提案した故障診断技術は、CNC工作機械の故障のインテリジェントな診断を実現します。

(2)知識アプリケーション層。 CNC工作機械の構築された故障ナレッジマップに基づいて、ナレッジマップ検索と推論技術を適用して、マルチレベルの故障分析、迅速かつ効率的な故障メンテナンス、知識の伝達と共有を実現し、インテリジェントな意思決定のための知識サポートも提供します。 。
(3)インテリジェントな意思決定層。 故障診断層で故障診断結果が得られると、ナレッジアプリケーション層によって提供されるメンテナンス知識(メンテナンス理由、メンテナンス対策、推定メンテナンス時間など)は、CNC工作機械の故障メンテナンスの指針を提供することができます。インテリジェントな意思決定層 障害保守戦略は、元の保守知識を更新します。

再スケジュール決定アルゴリズム モデル

再スケジュール決定モデルは、次の記号を使用して確立されます。

  1. J=\left \{ J_{i} \right \},1\leq i\leq n, J は、初期スケジューリングを完了した n 個のジョブを表します。
  2. M=\left \{ M_{k} \right \},1\leq k\leq m, M は m 台の工作機械を表します。
  3. 各ジョブにはじ_{い}順序付けられたタスクのシーケンスがあります。つまりJ_{i}=\left \{ O_{i,h} \right \},1\leq h\leq q_{i}ジョブの h 番目のタスクO_{i,h}を示し、ジョブのタスクの総数を示します。じ_{い}q_{i}じ_{い}
  4. p_{i、h、m}じ_{い}ジョブ内のO_{i,h}工作機械でのタスクM_{k}の処理に費やした時間を示します。

デジタルツインによって引き起こされる生産再スケジュールの意思決定問題は、制約付きスケジューリング問題とみなすことができ、その主な目標は、スケジューリングスキームの効率を達成し、元のスケジューリングスキームの偏差を最小限に抑えることです。したがって、効率パフォーマンスと安定性という 2 つの重要なパフォーマンス指標が考慮され、再スケジュール意思決定スキームの効率を反映できる最大完了時間 ( として表されます) と開始時間偏差 (SI として表されます) およびシーケンス偏差C_{最大}( F) として表され、再スケジュール意思決定スキームのパフォーマンスを評価する場合、計算方法は次のとおりです。

\begin{array}{c} C_{\max }=\max _{1 \leq i \leq n} c_{i} \\\\ SI=\frac{\sum_{i=1}^{n} \sum_{j=1}^{q_{j}}\left|S T_{ij, \text { new }}-S T_{ij, \text { ori }}\right|}{\sum_{i= 1}^{n} q_{i}} \\\\ F=1-\frac{\sum_{i=1}^{n} \sum_{h=1}^{q_{i}} \sum_{ k=1}^{m} x_{i, h, m}}{\sum_{i=1}^{n} q_{i}} \end{array}

アルゴリズムフレームワーク

モンテカルロ ツリー検索方法の紹介参考: https://www.bilibili.com/video/BV1JD4y1Q7mV/?spm_id_from=333.337.search-card.all.click&vd_source=0ef0e3dcc699e4536466b007ec6c95cf
は、モンテカルロ ツリー検索方法を使用して再スケジュール決定アルゴリズムを構築します。全体的なアルゴリズムのフレームワークは次のとおりです。

モンテカルロ探索木の各状態ノードは現在のスケジューリングの状態を表し、終端ノードと非終端ノードの 2 種類に分けられます。非終端ノードは終端ノードの反対です。現在のスケジューリング状態には、エッジのセット (s, a) を含む、スケジュールされていないタスクがあります。各エッジは、現在のスケジューリング状態の正当な動作空間 A(s) 内の動作 a に対応します。 state s. 動作空間内の動作は、現在のスケジューリング状態に応じたスケジューリング ルールで構成され、統計情報が各エッジに保存されます。

\{N(s, a), Q(s, a), P(s, a)\}

ここで、N(s, a) はエッジへの訪問数、Q(s, a) はエッジのグローバル動作値、P(s, a) はエッジの選択確率です。各状態の検索において、ノードが最終状態ノードではない場合、アルゴリズムは、現在の状態ノードをルート ノードとして持つ検索ツリーを構築します。この検索ツリーには、この状態の法的アクション空間内のすべてのアクションが含まれ、次のいずれかを選択します。それらのアクションが拡張され、最終的に複数の拡張を通じて完全な再スケジュール シーケンスが構築され、再スケジュール シーケンスが評価され、逆伝播されて次の検索ラウンドが最適化されます。したがって、アルゴリズムは選択、拡張、評価、逆伝播の 4 つの段階に分かれており、以下に 4 つの段階について詳しく説明します。

選択段階

訪問先状態ノード st が探索された非終端ノードである場合、現在の状態における正当な動作空間内の動作を選択します。現在の状態 St での動作は、上限信頼区間アルゴリズムを使用して選択されます。

\begin{array}{c} a_{t}=\underset{a}{\arg \max }\left(Q\left(s_{t}, a\right)+U\left(s_{t}, a\right)\right) \\\\ U\left(s_{t}, a\right)=c_{puct} P\left(s_{t}, a\right) \frac{\sqrt{\sum_ {a} N\left(s_{t}, a^{\prime}\right)}}{1+N\left(s_{t}, a\right)} \end{array}

c_{パクト}ここで、 は探索の程度を決定する定数です。訪問先状態ノード st が未探索の非終端ノードである場合、アルゴリズムは拡張段階に入り、ノード状態の動作を探索します。

拡大段階

st が未探索の非終端ノードの場合、それを展開します。

\left\{N\left(s_{t}, a_{i}\right)=0, Q\left(s_{t}, a_{i}\right)=0, P\left(s_{t} 、a_{i}\right)=P_{a_{i}}\right\}

このうち、Paj は、現在の状態ノード下の法的行動空間が A(s)={a1,a2,...,an} のときの行動 ai の選択確率であり、Paj の計算式は次のとおりです。

P_{a_{i}}=\frac{\sum_{i=1}^{n} v_{i}}{v_{i} \sum_{i=1}^{n} \frac{\sum_{i =1}^{n} v_{i}}{v_{i}}}

ここで、vi は、現在の状態で動作 ai を実行することによって得られる状態ノードのローカル動作値を表します。要約すると、ユニット インデックス値 (UIV) の計算方法は次のとおりです。

v_{i}=\sum_{j=1}^{3} w_{j} \frac{q_{ij}-q_{\min }^{j}}{q_{\max }^{j}-q_ {\分 }^{j}}

このうち、w={w1,w2,w3} はそれぞれスケジューリング戦略における Cmax、SI、F のユーザー優先重みを表し、\sum_{j=1}^{3} w_{j}=1qi1、qi2、qi3 はそれぞれ動作実行後の状態ノードの Cmax、SI、F を表します。 ai 値、q_{max}^{j}およびq_{分}^{j}すべての動作によって得られる状態ノード内のインデックス j の最大値と最小値をそれぞれ表します。

評価段階

このラウンドで現在訪問している状態ノードが終端状態ノードである場合、評価フェーズに入り、このラウンドに従ってスケジューリングシーケンスのインデックス値が取得され、このラウンドのフィードバック値が計算されます。これは、バックプロパゲーション プロセスのパスを更新するために使用され、各動作の Q 値が使用されます。

バックプロパゲーション段階

バックプロパゲーションは、推定値のバックトラッキングを実装するために使用され、それによって Q 値が更新されます。まず、すべての検索パスで渡されたエッジの数に 1 を加算し、N\left(s_{t}, a_{t}\right)=\mathrm{N}\left(s_{t}, a_{t}\right)+1次の式を使用してエッジの Q 値を更新します。

Q\left(s_{t}, a_{t}\right)=\frac{N\left(s_{t}, a_{t}\right)-1}{N\left(s_{t}, a_ {t}\right)}+\frac{R}{N\left(s_{t}, a_{t}\right)} 

おすすめ

転載: blog.csdn.net/fjyalzl/article/details/128003503