Shangjian Intelligence の学術的成果|レノボ、深層強化学習に基づく深層強化学習を使用したノートパソコンの製造をスケジュール

ここに画像の説明を挿入

詳細は上記公式アカウントに注目してください!

  この論文は、Shangjian Intelligenceの最新の研究成果として、オペレーションズリサーチのトップジャーナル「INFORMS JOURNAL ON APPLIED ANALYTICS」に掲載されたもので、深層強化学習が初めて大規模製造スケジューリングシナリオに適用されたものです。高度なスケジューリング プロジェクトがオペレーションズ リサーチの国際的権威によって最終候補に選ばれましたINFORMS オペレーションズ リサーチの応用に対する最高賞であるフランツ エデルマン賞は、製造業の技術変革の典型的な事例として人民日報やその他のメディアで広く報道されています。

筆頭著者の Liang Yi 氏は、Shangjian Intelligent の CEO 兼 CTO であり、人工知能と運用最適化アルゴリズムの専門家であり、浙江大学朱克鎮学院で物理学の学士号を取得し、マクマスターで理論物理学の修士号を取得し、博士号を取得しています。アルバータ大学で高エネルギー物理学の博士号を取得し、中国科学院大学の博士研究員です。高エネルギー物理学と人工知能の分野で 10 本以上の論文を発表しており、平均引用率は 15 以上です。彼は以前、Lenovo Research Institute の AI ラボの主任アルゴリズム研究者であり、製造における人工知能の応用に重点を置いていました。

まとめ

  Lenovo Research Institute は、Lenovo 最大のコンピューター製造工場である Lianbao Technology LCFC の運用グループのメンバーと協力して、従来の手動による生産スケジューリングを深層強化学習アーキテクチャに基づく意思決定支援プラットフォームに置き換えました。このシステムは、工場内の 43 の組立および製造ラインすべての製造オーダーをスケジュールし、生産高、交換コスト、注文納品率の相対的な優先順位のバランスをとり、深層強化学習モデルを使用して多目的スケジューリング問題を解決できます。この方法は、高い計算効率と新しいマスキング メカニズムを組み合わせて操作上の制約を保証し、それによって機械学習モデルが実行不可能な解決策を探索する時間を無駄にすることを回避します。この新モデルの導入により、従来の生産管理プロセスが変更され、受注残が20%削減され、納期率が23%向上しましたまた、複数の目標の柔軟性を維持しながら、スケジュール設定プロセス全体が6 時間から 30 分に短縮され、工場が目標の変化に迅速に対応できるようになりました。研究活動により、同工場の収益は2019年に19億1000万ドル、 2022年には26億9000万ドル増加した。

背景紹介

  Lenovo の合肥工場 LCFC は、Lenovo 最大のコンピューター製造工場です。4 つの製造工場と 43 の組立ラインがあります。平均して、毎日約 5,000 台のコンピューターの注文を受けています。これは、Lenovo のコンピューター生産の半分以上、全生産量の少なくとも 8 分の 1 を占めています。世界のコンピューター。これらのコンピュータには20 以上の製品シリーズ550 製品モデルが含まれています。生産前に、これらの注文は生産作業指示書 (MO) に分割されます。MO では、それぞれの注文に同じモデル番号と同様の約束出荷日を持つ数千台のコンピューターが含まれる場合があります。

  コンピュータの製造プロセスは、大きく次の 3 つの段階に分けられます。

  • 第一段階:メイン基板の生産は表面実装技術ワークショップが担当します。この段階では、生産は主に自動実行に基づいており、安定性が高く、人間の介入は必要ありません。
  • 部品工場は生産の第 2 段階を完了し、作業員がラップトップのケースをモニターとキーボードに取り付けます。
  • 3 番目の段階である組み立て段階では、ラップトップの内部コンポーネントを組み立てます。この段階は最も時間がかかり、不安定であり、多くの手動介入が必要となるため、通常、この段階の効率が製造プロセス全体のボトルネックになります

  第 3 段階では、半製品と予備部品が作業指示に従って 43 の生産ラインに割り当てられ、これらの生産ラインでは、作業員が各作業指示を順番に処理します。つまり、次の作業指示は現在の作業の後でのみ開始できます。注文が組み立てられました。特定のコンピューター モデルの組み立て効率は、割り当てられた生産ラインによって異なる場合があります。時間当たりの生産量 (単位/時間、UPH) マトリックスは、製品と生産ラインの対応する効率を表します。UPH は、従業員の出勤状況、生産ラインの機械の状態、工具や材料の入手可能性の変動の影響を受けやすくなります。それぞれの作業指示はワークに対応しており、図 1 に示すように、作業指示 4 は生産ライン B から生産ライン A に移動します。さらに、各生産ラインでの作業指示の順序は、総生産時間に大きな影響を与える可能性があります。

  生産ラインを切り替えて別の機種を生産する場合、機種変更コストが発生しますが、合理的な作業指示の割り当てによりスケジューリングのパフォーマンスが向上します。生産ラインの数と発送される注文の量を考慮すると、最適化問題は計算では解決できません。したがって、第 3 段階の組立セクションの管理は、Lenovo のすべての工場の生産管理の焦点であり、最も困難な部分です。

従来のアプローチでは既存の課題に対処できない

  Lenovo では、人間の経験と判断に基づいて生産スケジュールを設定するには、何時間もの作業が必要でした。今日の現代の製造会社は、生産リソースの供給が変動するため、多大なプレッシャーにさらされています。したがって、Lenovo では、次の特性を備えた生産管理システムが必要です。

  1. 大規模なスケジュールの問題を解決できますLenovo のような企業では、生産がますます複雑になり、工場は毎日最大数万件の注文を処理できなければなりません。
  2. 素早い対応力供給側の変動性により、生産スケジューリング システムは部品供給の変化に迅速に対応する必要があります。Lenovo の以前のスケジューリング プロセスは、プランナーの経験と判断に基づいていたため、供給側の変化にタイムリーかつ適切に対応できませんでした。
  3. KPI パフォーマンスの向上総生産量、注文納品率、切り替えコストなどを同時に最適化できます。
  4. 複数基準の最適化ターゲットに対する柔軟な構成機能プランナーは機械的な作業から解放され、戦略的な作業により多くの時間を割くことができます。システムと対話することで、意思決定プロセスに積極的に参加できます。たとえば、KPI しきい値を構成したり、最適化目標の相対的な優先順位 (重み) を設定したりできます。これは、システムに対するプランナーの信頼を築き、このワークフローを通じて仕事の満足度を高め、スケジュール設定プロセスの効率を高めるために重要です。

  従来の方法では、このような要求を満たすことが困難です。従来の方法は、正確な方法近似的な方法に分けられます大域最適解を追求する分枝限定法や切断面法などの厳密法は、小規模な問題の解決に限定されます。大規模な問題を解決するために、従来のソリューション開発者は、ルールベースまたはヒューリスティックなアプローチを通じて最適に近いソリューションを模索します。ただし、タブー検索/パス再リンクなどの一部の近似手法は、小規模および中規模の問題セットでは良好に機能しますが、大規模な問題では速度が遅すぎて、高速応答時間のニーズを満たすことができないことがよくあります。大規模な問題と小規模な問題の両方を適切な時間内に解決できる他の近似手法は、通常、KPI 最適化の観点からはうまく機能しません。応答速度と解の品質の間の矛盾は、従来の手法を使用する場合よりも、多目的最適化問題を扱う場合により顕著になります。要約すると、従来の手法のこうした欠陥は、Lenovo のサプライチェーン管理に大きな課題をもたらしています。

解決

  これらの課題に対処するために、**生産ライン計画問題 (PLPP)** 問題はマルコフ決定プロセス (MDP) としてモデル化されています。

  ある工場にKKがあるとします。K生産ラインとNNN 個の作業指示の場合、生産スケジューリング問題に対応する MDP は、{ X t , A , P , R } \left\{\mathbf{X}_{\mathbf{t}}, \mathbf{A}, として表すことができます。 \ mathbf{P}、\mathbf{R}\right\}{ XP R }

の:

X t \mathbf{X}_{\mathbf{t}}バツ: 各イベントtttの状態セットは、一連のベクトルX t = { xti } \boldsymbol{X}_t=\left\{\boldsymbol{x}_t^i\right\} で構成されます。バツ={ ×t私は}xti \boldsymbol{x}_t^iバツt私は一連の説明入力iii状態の特徴。PLPP では、xti \boldsymbol{x}_t^iバツt私は作業命令iiを示します各ラインのiシリーズ、モデル、数量、UPH、残容量のスナップショット。

\mathbf{A}A:アクションコレクション。\mathbf{A} は直接A は、MDP のポリシー関数 P( y ∣ x ) P(\boldsymbol{y} \mid \boldsymbol{x})P (x )、ここでx \boldsymbol{x}xy \boldsymbol{y}y はそれぞれエンコーダとデコーダの状態を表します。P ( . ∣ . ) P(. \mid .)P ( .. )は条件付き確率です。連鎖規則によれば、初期状態x 0 \boldsymbol{x_0} がバツ0、逐次意思決定モデルに基づいて完全な解を取得するプロセスは次のとおりです:
P ( y ∣ x 0 ) = ∏ t = 0 NP ( yt + 1 ∣ yt , xt ) P\left(\boldsymbol{y } \mid \boldsymbol{x} _0\right)=\prod_{t=0}^NP\left(\boldsymbol{y}_{t+1} \mid \boldsymbol{y}_{t}, \boldsymbol {x}_t\right)P( yバツ0)=t = 0NP( yt + 1yバツ)

P \mathbf{P}P : 状態遷移確率関数。この問題では、状態遷移P ( y ∣ x ) P(\boldsymbol{y} \mid \boldsymbol{x}) となります。P (x )は決定論的であるため、ランダムな状態遷移はありません。

R\mathbf{R}R : 報酬関数のコレクション。r ( y ) ∈ R r(\boldsymbol{y}) \in \mathbf{R}r ( y )Rは状態 y へのシステム遷移\boldsymbol{y}yに対する報酬関数の値多目的最適化問題の場合、r ( y ) r(\boldsymbol{y})r ( y )は、複数の生産指標の重み付けされた値を含むベクトルとして定義できます。

  MDP の表現では、ソリューションは各生産ラインに割り当てられる一連の作業指示です。問題に対する最適に近い解決策は、強化学習 (RL) フレームワークを通じて目的のシーケンスを生成する確率を高めることを学習する機械学習モデルを使用することによって得られます。

  生産スケジューリング タスクは、注文順序を調整する方法を学習するものと見なすことができます。つまり、最初の注文が与えられた場合に、新しい並べ替え結果を出力するため、シーケンスツーシーケンス モデル (シーケンスツーシーケンス、S2S) を考慮できます

  ご存知のとおり、一般的な S2S モデルにはエンコーダーとデコーダーが含まれており、エンコーダーは入力シーケンスを固定サイズのベクトルにエンコードしてデコーダーに送信する方法を学習し、デコーダーはこのベクトルを出力に変換する方法を学習します。順序。この問題では、エンコーダーへの入力はチケットの初期シーケンスであり、デコーダーは最適化されたチケットのシーケンスを生成します。出力順序は作業指示インデックスと区切りマーク の並びで、先頭から先頭マークまでのインデックスマークが生産ライン 1 に割り当てられた作業指示に対応し、先頭マークと 2 番目マークの間のインデックスが を示します。次の図に示すように、対応する作業指示が 2 番目の生産ラインに割り当てられ、以下同様に続きます。

  エンコーダ ネットワークは、入力シーケンスを高次元のテンソルに繰り返し変換します。デコーダ ネットワークは、アテンション メカニズムを通じて各 MO を選択するための確率分布を生成します。

  適切にトレーニングされると、モデルは学習したパラメーターを保持し、最適化されたシーケンスを迅速に生成します。これにより、従来の OR メソッドよりも計算時間が短縮されます。私たちのモデルでは、実行時間は問題のサイズに応じて指数関数的に増加しないため、モデルを比較的小さな問題でトレーニングし、より大きな問題に適用することができます。

  モデルの入力には、注文関連情報と工場関連情報が含まれます。注文関連情報には、計画内の各注文の必要な製品数量、製品シリーズ、製品 ID が含まれます。工場の関連する側面には、生産ラインの数、各生産ラインの各モデルの生産効率、生産モデルの各ペア間の切り替えコスト、および製造ルールが含まれます

  注文情報と、機械の可用性ステータス (機械が生産可能か、メンテナンス中か修理中かなど)、UPH、生産カレンダーなどの対応する生産情報が、システム内の MO ユニットに結合されます。

  上記のモデルをEncoder Enhanced Pointer Network (EEPN)と呼びます。このモデルは、入力 MO シーケンスを並べ替え、2 つの隣接するラインの位置を示すマーカー (白い立方体) を挿入することで計画を最適化するために強化学習によってトレーニングされます。

モデル表現力の向上

  生産スケジューリングを最適化するための多くの重要なプロセス (スイッチングコストの計算、生産ラインの選択など) は、以前の深層強化学習手法を使用したモデルで学習することが困難です。これらの操作は非常に非線形です。したがって、単純なネットワーク構造を適切にモデル化することはできません。従来のエンコーダを2 層の非線形畳み込みニューラル ネットワークにアップグレードすることによって。情報抽象化能力が向上した EEPN は、キャプチャされた問題構造を利用して、トレーニング直後に高品質の生産スケジューリング ソリューションを取得します。

複雑な制約のためのマスキングメカニズム

  LCFC の生産スケジュールの規模を考慮すると、このような大規模かつ複雑な生産システムで適切な生産計画を作成することは困難です。同時に、スケジュールは制約として複雑なルールに従う必要があります。以下に、最も重要な 4 つの制約をリストします。

  1. 生産時間: 各オーダーの生産時間は、事前に定義された時間枠 (最も早い開始時間とすべてのシフトの利用可能な時間の交点) を超えることはできません。各シフトには合計時間が設定されており、これには従業員の休憩時間やシフトの引き継ぎ時間が含まれます。
  2. 生産数量: 製品モデルに特殊な設備が必要な場合、指定時間内の総生産数量が制限される場合があります (たとえば、2 時間あたり最大 200 個)。制限に達すると、指定された期間が終了するまでモデルの生産が停止されるため、品質管理が容易になります。
  3. 割り当てられた生産ライン: 各注文は、対応するモデルを処理する能力と能力を持つ生産ラインにのみ割り当てられます。さらに、一部のモデルは、治具(つまり、生産中に PC を拘束する専用の機器)の数に制限があるため、特定のシフトで固定数のラインでしか生産できません。
  4. 関連: 一部の注文は関連としてマークされており、これらの注文は指定された期間内に同じ工場で処理される必要があることを示します。

  これらの制約は注文、生産ライン、時間、数量に関連付けられており、制約の数は1 0 6 10^6を超える場合があります。1 06

  EEPN では、新しいマスキング メカニズムを導入することでこれらの制約に対処します。マスキング メカニズムのコア テクノロジーは、制御可能なマスキング テンソル (つまり、多次元行列) です。マスク テンソルの各要素は、特定のラインの特定の位置での注文の配置が可能かどうかを制御するゲートと考えることができます。モデルが注文を処理する各最適化タイム ステップで、ライン上での注文が制約に違反しない場合はゲートが開き、そうでない場合はゲートが閉じられます。

  したがって、EEPN はドアを開けるオーダーのみを選択し、タイム ステップに従ってその一部を生産ラインに投入します

  上の図に示すように、結合マスクは論理加算によって結合された複数のサブマスクで構成され、各サブマスクは制約を表します。マスキング メカニズムは、解の生成中に複数の制約を同時に考慮し、実行不可能な解を除外するため、モデル トレーニングの計算時間が大幅に短縮されます。

高速モデルトレーニング

  アルゴリズムのテスト段階では、マスキングの有無にかかわらず、さまざまな問題サイズを含む AI ベンチマーク スケジューリングのランタイムへの影響が評価されました。

  結果は、マスキング メカニズムを使用しないテストと比較して、マスキング メカニズムを使用したテストの実行時間がわずかに増加することを示しています。問題のサイズが大きくなるにつれて、両方のテストの実行時間の増加率はほぼ同じになり、結果として、より大きな問題の実行時間は直線的に増加しますマスキング メカニズムにより、最適化を解く際の計算時間は増加しますが、効果的な制約の適用によりトレーニング時間が大幅に短縮されます。さらに、より大きな問題の場合、マスキング メカニズムはモデルの実行時間の大幅な増加にはつながりません。

複数の目的のスケジューリング最適化を構成する

  各スケジューリング実行では、EEPN は異なるターゲット優先度の下で一連のソリューションを同時に生成する必要があります。一連のターゲット優先度が与えられた場合、意思決定者は各ターゲットの優先度の重みを柔軟に構成し、必要な最適なソリューションを直感的に選択できる必要があります

  したがって、1 つのアイデアは、EEPN を更新して、複数の目的のシナリオでさまざまな優先順位セットに対する最適なスケジューリング ポリシーを学習できるようにすることです。

  これは、さまざまなターゲット優先度の重みを機械学習モデルの追加入力データとして使用することで実行できます。

  以前の研究によると、この目的には複数の EEPN インスタンスの設計が必要であり、各インスタンスは特定の目的関数の優先順位のセットの下で最適化を完了する責任を負います。ただし、この方法は非常に時間がかかり、多くのコンピューティング リソースを必要とします。

  代わりに、Lenovo の研究チームは、この目標を達成するために単一の EEPN を使用することを決定しました。EEPN の多目的バージョンは、目的関数基準の優先度 (つまり、優先度の重み) を入力として受け取ります。したがって、EEPN は、時間とともに変化する環境におけるオブジェクトの優先順位とスケジューリング データのさまざまな組み合わせを継続的に学習します。

  構成されたターゲットの優先順位が異なる場合でも、EEPN は同じスケジューリング データを使用して、それぞれの場合に最適なスケジューリング結果を迅速に生成できます。この学習ベースのアプローチを使用して、アルゴリズムは多目的最適化問題を首尾よく解決します。

結論は

  要約すると、Lenovo が開発し、LCFC によってテストされた、OR と AI によるインテリジェントなスケジューリングを目的とした EEPN フレームワークは、効率を向上させ、収益を増やし、人的資本を節約し、環境を保護することが証明されています。このようなソリューションには、ビジネスや社会が直面している最も複雑な問題のいくつかを解決できる大きな可能性があります。

  このソリューションは蓮宝工場に導入されただけでなく、深セン工場や恵陽工場などの他の Lenovo 社内工場の生産シナリオにも移行およびテストされ、POC 段階の結果では、2 つの工場の KPI が大幅に改善されたことが示されました。このソリューションは、 PC 業界に加えて、携帯電話業界、半導体業界、ディスクリート加工業界にも適用できますが、OR の観点から見ると、これらの業界の生産スケジュールの問題は蓮宝工場の PLPP とは異なる可能性があります。なぜなら、各工場には独自の生産プロセスと KPI 設定がありますが、マスキング メカニズムを変更し、目的関数を設定することで、これらの違いに簡単に適応できるからです。

おすすめ

転載: blog.csdn.net/hba646333407/article/details/128529557