Logros académicos de la inteligencia de Shangjian|Lenovo programa la fabricación de portátiles mediante el aprendizaje por refuerzo profundo basado en el aprendizaje por refuerzo profundo

inserte la descripción de la imagen aquí

Para obtener más información, preste atención a la cuenta oficial anterior.

  Este artículo, como resultado de la investigación más reciente de Shangjian Intelligence , se publicó en la principal revista de investigación de operaciones "INFORMS JOURNAL ON APPLIED ANALYTICS". Es la primera vez que se aplica el aprendizaje de refuerzo profundo a escenarios de programación de fabricación a gran escala . El proyecto de programación avanzada fue preseleccionado por la autoridad internacional en investigación de operaciones. El Premio Franz Edelman, el premio más importante para la aplicación de la investigación de operaciones de INFORMS , ha sido ampliamente informado por People's Daily y otros medios como un caso típico de transformación tecnológica de empresas manufactureras.

El primer autor, Liang Yi, CEO y CTO de Shangjian Intelligent, experto en inteligencia artificial y algoritmos de optimización operativa, tiene una licenciatura en física de Zhu Kezhen College, Universidad de Zhejiang, una maestría en física teórica de McMaster y un doctorado en física de alta energía de la Universidad de Alberta y es becario postdoctoral en la Academia de Ciencias de la Universidad de China. Ha publicado más de diez artículos en los campos de la física de alta energía y la inteligencia artificial, con una tasa de citas promedio de >15. Solía ​​ser el principal investigador de algoritmos del laboratorio de IA del Instituto de Investigación de Lenovo, centrándose en la aplicación de la inteligencia artificial en la fabricación.

Resumen

  Lenovo Research Institute cooperó con miembros del grupo de operaciones de Lianbao Technology LCFC, la fábrica de fabricación de computadoras más grande de Lenovo, para reemplazar la programación de producción manual tradicional con una plataforma de soporte de decisiones basada en una arquitectura de aprendizaje de refuerzo profundo. El sistema puede programar las órdenes de producción de las 43 líneas de ensamblaje y fabricación en la fábrica, equilibrar la prioridad relativa de producción, el costo de reemplazo y la tasa de entrega de pedidos , y resolver el problema de programación de objetivos múltiples mediante el uso del modelo de aprendizaje de refuerzo profundo. El método combina una alta eficiencia computacional con un mecanismo de enmascaramiento novedoso para garantizar las restricciones de ejecución, evitando así que los modelos de aprendizaje automático pierdan tiempo explorando soluciones inviables. Mediante el uso de este nuevo modelo, el proceso de gestión de la producción original se modificó, lo que resultó en una reducción del 20 % en la acumulación de pedidos de producción y un aumento del 23 % en la tasa de entrega . También acortó todo el proceso de programación de 6 horas a 30 minutos , al tiempo que mantuvo la flexibilidad de múltiples objetivos, lo que permitió a la fábrica adaptarse rápidamente a los objetivos cambiantes. El trabajo de investigación impulsó los ingresos de la planta en 1910 millones de dólares en 2019 y 2690 millones de dólares en 2022.

introducción de fondo

  La fábrica LCFC de Lenovo en Hefei es la planta de fabricación de computadoras más grande de Lenovo. Tiene plantas de fabricación 4 y líneas de ensamblaje 43. En promedio, recibe alrededor de 5,000 pedidos de computadoras todos los días , lo que representa más de la mitad de la producción de computadoras de Lenovo y al menos una octava parte de la las computadoras del mundo. Estas computadoras contienen más de 20 series de productos y 550 modelos de productos . Antes de la producción, estos pedidos se dividen en órdenes de trabajo de producción (MO), donde un pedido puede contener miles de computadoras, cada una con el mismo número de modelo y una fecha de envío prometida similar.

  El proceso de producción de computadoras se puede dividir aproximadamente en tres etapas:

  • La primera etapa: la producción del tablero principal está a cargo del taller de tecnología de ensamblaje de superficies. En esta etapa, la producción se basa principalmente en la ejecución automática, con alta estabilidad y sin necesidad de intervención humana;
  • El taller de componentes completa la segunda etapa de producción, con los trabajadores colocando la carcasa de la computadora portátil en el monitor y el teclado;
  • La tercera etapa, la etapa de ensamblaje, ensambla los componentes internos de la computadora portátil. Esta etapa es la más lenta e inestable, requiriendo mucha intervención manual, por lo que la eficiencia de esta etapa suele ser el cuello de botella de todo el proceso de fabricación .

  En la tercera etapa, los productos semielaborados y las piezas de repuesto se asignan a las líneas de producción 43 de acuerdo con las órdenes de trabajo. En estas líneas de producción, los trabajadores procesan cada orden de trabajo por turno, es decir, la siguiente orden de trabajo solo puede comenzar después del trabajo actual. se arma el pedido. La eficiencia de ensamblaje para un modelo de computadora en particular puede variar según la línea de producción asignada. La matriz de producción por hora (Unidad por hora, UPH) expresa la eficiencia correspondiente de los productos y las líneas de producción. UPH es susceptible a las fluctuaciones en la asistencia de los empleados, el estado de la máquina en la línea de producción y la disponibilidad de herramientas y materiales. Cada orden de trabajo corresponde a una pieza de trabajo.Como se muestra en la Figura 1, la orden de trabajo 4 se mueve de la línea de producción B a la línea de producción A. Debido a que la UPH se vuelve más grande, el tiempo de producción se acorta. Además, la secuenciación de las órdenes de trabajo en cada línea de producción puede afectar significativamente el tiempo total de producción.

  Cuando la línea de producción se cambia para producir diferentes modelos, generará el costo de cambiar los modelos, y el rendimiento de la programación se puede mejorar mediante la asignación razonable de órdenes de trabajo. El problema de optimización es computacionalmente intratable considerando el número de líneas de producción y la cantidad de pedidos despachados. Por lo tanto, la gestión de la sección de ensamblaje en la tercera etapa es el enfoque y la parte más desafiante de la gestión de producción de todas las fábricas de Lenovo.

Los enfoques tradicionales no pueden abordar los desafíos existentes

  En Lenovo, la programación de la producción basada en la experiencia y el juicio humanos requería horas de trabajo. Las empresas de fabricación modernas de hoy en día se encuentran bajo una enorme presión debido al suministro fluctuante de recursos de producción. Por lo tanto, Lenovo necesita un sistema de gestión de producción con las siguientes características:

  1. Puede resolver problemas de programación a gran escala . Para una empresa como Lenovo con una producción cada vez más compleja, una fábrica debe poder procesar hasta decenas de miles de pedidos todos los días;
  2. Capacidad de respuesta rápida . La volatilidad del lado de la oferta requiere que el sistema de programación de la producción responda rápidamente a los cambios en la oferta de componentes. El proceso de programación anterior de Lenovo se basaba en la experiencia y el juicio de los planificadores, que no podían responder a los cambios en el lado de la oferta de manera oportuna y adecuada;
  3. Mejor rendimiento de KPI . Puede optimizar simultáneamente la producción total, la tasa de entrega de pedidos, el costo de cambio, etc.;
  4. Capacidades de configuración flexibles para objetivos de optimización multicriterio . Liberados del trabajo mecánico, los planificadores tienen más tiempo para el trabajo estratégico. Pueden participar activamente en el proceso de toma de decisiones interactuando con el sistema; por ejemplo, pueden configurar umbrales de KPI y establecer prioridades relativas (pesos) para objetivos de optimización. Esto es fundamental para generar la confianza de los planificadores en el sistema, aumentar su satisfacción laboral a través de este flujo de trabajo y aumentar la eficiencia del proceso de programación.

  Los métodos tradicionales son difíciles de satisfacer tales demandas. Los métodos tradicionales se dividen en métodos exactos y métodos aproximados . Los métodos exactos, como los métodos de ramificación y límite y plano de corte, que buscan soluciones óptimas globales, se limitan a resolver problemas de pequeña escala. Para resolver problemas a gran escala, los desarrolladores de soluciones tradicionales buscan soluciones óptimas aproximadas a través de enfoques heurísticos o basados ​​en reglas. Sin embargo, algunos métodos de aproximación, como la búsqueda tabú o la vinculación de rutas, funcionan bien en conjuntos de problemas de tamaño pequeño y mediano, pero a menudo son demasiado lentos para problemas de gran escala para satisfacer las necesidades de tiempos de respuesta rápidos. Otros métodos de aproximación que pueden resolver problemas de gran y pequeña escala en un tiempo razonable no suelen funcionar bien en términos de optimización de KPI. El conflicto entre la velocidad de respuesta y la calidad de la solución es más pronunciado cuando se trata de problemas de optimización multiobjetivo que cuando se utilizan métodos tradicionales. En resumen, estas deficiencias de los métodos tradicionales han traído desafíos considerables a la gestión de la cadena de suministro de Lenovo.

solución

  Para abordar estos desafíos, el **problema de planificación de la línea de producción (PLPP)** se modela como un proceso de decisión de Markov (MDP).

  Supongamos que una fábrica tiene KKLíneas de producción K yNNN órdenes de trabajo, el MDP correspondiente al problema de programación de producción se puede expresar como{ X t , A , P , R } \left\{\mathbf{X}_{\mathbf{t}}, \mathbf{A}, \mathbf{P}, \mathbf{R}\right\}{ Xt,un ,pag _R }

en:

X t \mathbf{X}_{\mathbf{t}}Xt: cada evento ttEl conjunto de estados de t está compuesto por una serie de vectoresX t = { xti } \boldsymbol{X}_t=\left\{\boldsymbol{x}_t^i\right\}Xt={ xtyo}xti \boldsymbol{x}_t^iXtyoes un conjunto de descripción de entrada iiCaracterísticas del estado i . En PLPP,xti \boldsymbol{x}_t^iXtyoIndica orden de trabajo iiUna instantánea de la serie i , modelo, cantidad, UPH y capacidad restante para cada línea.

\mathbf{A}A : colección de acciones. Un \mathbf{A}puede ser directamenteA es equivalente a la función de política P en MDP( y ∣ x ) P(\boldsymbol{y} \mid \boldsymbol{x})P(yx ), dondex \boldsymbol{x}x y \boldsymbol{y} y representa los estados del codificador y del decodificador, respectivamente. P ( . ∣ . ) P(. \mid .)P ( .. ) es la probabilidad condicional. De acuerdo con la regla de la cadena, dado el estado inicialx 0 \boldsymbol{x_0}X0, el proceso para obtener una solución completa basada en el modelo secuencial de toma de decisiones es el siguiente:
P ( y ∣ x 0 ) = ∏ t = 0 NP ( yt + 1 ∣ yt , xt ) P\left(\boldsymbol{y } \mid \boldsymbol{x} _0\right)=\prod_{t=0}^NP\left(\boldsymbol{y}_{t+1} \mid \boldsymbol{y}_{t}, \boldsymbol {x}_t\derecha)PAG( yX0)=t = 0nortePAG( yt + 1yt,Xt)

P \mathbf{P}P : Función de probabilidad de transición de estado. Para este problema, la transición de estadoP ( y ∣ x ) P(\boldsymbol{y} \mid \boldsymbol{x})P(yx )es determinista, por lo que no hay transiciones de estado aleatorias.

R\mathbf{R}R : colección de funciones de recompensa. r ( y ) ∈ R r(\boldsymbol{y}) \in \mathbf{R}r ( y )R es la transición del sistema al estadoy \boldsymbol{y}Valor de la función de recompensa para y . Para problemas de optimización multiobjetivo,r ( y ) r(\boldsymbol{y})r ( y ) se puede definir como un vector que contiene valores ponderados de múltiples indicadores de producción.

  En la expresión MDP, una solución es la secuencia de órdenes de trabajo asignadas a cada línea de producción. Se obtiene una solución casi óptima a un problema mediante el uso de un modelo de aprendizaje automático que aprende a aumentar la probabilidad de generar la secuencia deseada a través de un marco de aprendizaje por refuerzo (RL).

  La tarea de programación de producción puede verse como aprender a organizar el pedido, es decir, dado un pedido inicial, generar un nuevo resultado de clasificación, por lo que se puede considerar el modelo de secuencia a secuencia (secuencia a secuencia, S2S). .

  Como todos sabemos, un modelo S2S típico incluye un codificador y un decodificador , el codificador aprende a codificar una secuencia de entrada en un vector de tamaño fijo y lo envía al decodificador, y el decodificador aprende a convertir este vector nuevamente en una salida. secuencia. En nuestro problema, la entrada al codificador es una secuencia inicial de boletos y el decodificador genera una secuencia optimizada de boletos. La secuencia de salida es la disposición del índice de la orden de trabajo y la marca de separación . La marca de índice desde la primera posición hasta la primera marca corresponde a la orden de trabajo asignada a la línea de producción 1, y el índice entre la primera marca y la segunda marca indica la orden de trabajo correspondiente Asignada a la segunda línea de producción, y así sucesivamente, como se muestra en la siguiente figura.

  La red del codificador convierte iterativamente la secuencia de entrada en un tensor de alta dimensión. La red decodificadora genera una distribución de probabilidad para seleccionar cada MO a través de un mecanismo de atención.

  Una vez bien entrenado, el modelo mantiene los parámetros aprendidos y genera rápidamente secuencias optimizadas. Esto proporciona una ventaja de tiempo computacional sobre los métodos OR tradicionales. En nuestro modelo, el tiempo de ejecución no aumenta exponencialmente con el tamaño del problema, lo que permite que el modelo se entrene en problemas relativamente pequeños y se aplique a problemas más grandes.

  La entrada del modelo incluye información relacionada con el pedido y la fábrica.La información relacionada con el pedido incluye la cantidad requerida del producto, la serie del producto y la identificación del producto de cada pedido en el plan . Los aspectos relevantes de la fábrica incluyen el número de líneas de producción, la eficiencia de producción de cada modelo en cada línea de producción, el costo de cambiar entre cada par de modelos de producción y las reglas de fabricación .

  La información de pedidos y la información de producción correspondiente, incluido el estado de disponibilidad de la máquina (por ejemplo, si una máquina está disponible para producción, en mantenimiento o reparación), UPH y calendario de producción, se combinan en la unidad MO en el sistema.

  Llamamos al modelo anterior Encoder Enhanced Pointer Network (EEPN) . Este modelo se entrena mediante el aprendizaje por refuerzo para optimizar el plan reordenando las secuencias MO de entrada e insertando marcadores (cubos blancos) para indicar las posiciones de dos líneas adyacentes.

Mejorar la capacidad de expresión del modelo.

  Muchos procesos clave para optimizar la programación de la producción (p. ej., cálculo del costo de cambio, selección de la línea de producción) son difíciles de aprender para los modelos que utilizan métodos anteriores de aprendizaje por refuerzo profundo. Estas operaciones son altamente no lineales. Por lo tanto, las estructuras de red simples no se pueden modelar bien. Al actualizar el codificador tradicional a una red neuronal convolucional no lineal de dos capas . Con la capacidad de abstracción de información mejorada, EEPN utiliza la estructura del problema capturado para obtener soluciones de programación de producción de alta calidad inmediatamente después del entrenamiento.

Mecanismo de enmascaramiento para restricciones complejas

  Teniendo en cuenta la escala de la programación de la producción de LCFC, es un desafío generar un buen plan de producción en un sistema de producción complejo y de gran escala. Al mismo tiempo, la programación debe seguir reglas complejas como restricciones. A continuación enumeramos las cuatro restricciones más importantes:

  1. Tiempo de producción : el tiempo de producción de cada pedido no puede exceder su ventana de tiempo predefinida, que es la intersección de la hora de inicio más temprana y el tiempo disponible para todos los turnos. Cada turno tiene un tiempo total configurado, que incluye descansos de los trabajadores y tiempos de entrega de turnos;
  2. Cantidad de producción : cuando un modelo de producto requiere equipo especial, su cantidad de producción total dentro de un tiempo específico puede ser limitada (por ejemplo, hasta 200 unidades por dos horas). Una vez alcanzado el límite, el modelo dejará de fabricarse hasta el final de la duración especificada, lo que facilita el control de calidad;
  3. Líneas de producción asignadas : Cada pedido solo puede ser asignado a una línea de producción que tenga la habilidad y capacidad para manejar el modelo correspondiente. Además, algunos modelos solo se pueden producir en un número fijo de líneas en un turno determinado debido a las limitaciones en el número de accesorios (es decir, equipos dedicados a restringir las PC durante la producción).
  4. Relacionado : algunos pedidos están marcados como relacionados, lo que indica que estos pedidos deben cumplirse en la misma fábrica dentro del plazo especificado.

  Estas restricciones están asociadas con el pedido, la línea de producción, el tiempo y la cantidad, y el número de restricciones puede exceder 1 0 6 10^61 06 _

  En EEPN, estas restricciones se abordan mediante la introducción de un nuevo mecanismo de enmascaramiento . La tecnología central del mecanismo de enmascaramiento es el tensor de enmascaramiento controlable (es decir, matriz multidimensional). Cada elemento en el tensor de máscara se puede considerar como una puerta que controla si es factible colocar una orden en una ubicación particular en una línea particular. En cada paso de tiempo de optimización en el que el modelo procesa un pedido, si colocar el pedido en la línea no viola ninguna restricción, la puerta se abre; de ​​lo contrario, la puerta se cierra.

  Por lo tanto, EEPN solo selecciona los pedidos que abren la puerta y coloca algunos de ellos en la línea de producción de acuerdo con el paso del tiempo .

  Como se muestra en la figura anterior, una máscara combinada consiste en varias submáscaras combinadas por suma lógica, cada submáscara representa una restricción. El mecanismo de enmascaramiento considera múltiples restricciones simultáneamente durante la generación de la solución y excluye las soluciones no factibles, lo que reduce en gran medida el tiempo de cálculo para el entrenamiento del modelo.

entrenamiento rápido de modelos

  Durante la fase de prueba del algoritmo, se evaluó el impacto en el tiempo de ejecución de la programación de referencia de IA con y sin enmascaramiento e incluyendo varios tamaños de problemas.

  Los resultados muestran un ligero aumento en el tiempo de ejecución de las pruebas que utilizan el mecanismo de enmascaramiento en comparación con las pruebas que no utilizan este mecanismo. A medida que aumenta el tamaño del problema, la tasa de crecimiento del tiempo de ejecución para ambas pruebas es aproximadamente la misma, lo que da como resultado un aumento lineal en el tiempo de ejecución para el problema más grande . Aunque el mecanismo de enmascaramiento conduce a un aumento en el tiempo de cálculo en la resolución de optimización, reduce significativamente el tiempo de entrenamiento a través de la aplicación efectiva de restricciones. Además, para problemas más grandes, el mecanismo de enmascaramiento no genera un aumento significativo en el tiempo de ejecución del modelo.

Configurar la optimización de la programación multiobjetivo

  En cada ejecución de programación, EEPN debe generar simultáneamente un conjunto de soluciones bajo diferentes prioridades de objetivos.Cuando se le da un conjunto de prioridades de objetivos, el tomador de decisiones debe poder configurar de manera flexible el peso de preferencia de cada objetivo y elegir intuitivamente la solución óptima deseada .

  Por lo tanto, una idea es actualizar EEPN para poder aprender políticas de programación óptimas para diferentes conjuntos de prioridades en escenarios de objetivos múltiples.

  Esto se puede hacer mediante el uso de varios pesos de preferencia objetivo como datos de entrada adicionales para los modelos de aprendizaje automático.

  Según investigaciones previas, este objetivo requiere el diseño de múltiples instancias de EEPN, cada una de las cuales es responsable de completar la optimización bajo un conjunto específico de prioridades de función objetivo. Sin embargo, este método consume mucho tiempo y requiere muchos recursos informáticos.

  En su lugar, el equipo de investigación de Lenovo decidió utilizar un solo EEPN para lograr este objetivo. La versión multiobjetivo de EEPN toma como entrada las prioridades del criterio de la función objetivo (es decir, pesos de preferencia). Por lo tanto, EEPN aprende continuamente varias combinaciones de prioridades de objetos y datos de programación en un entorno variable en el tiempo.

  Usando los mismos datos de programación, EEPN puede generar rápidamente resultados de programación óptimos en cada caso si las prioridades de destino configuradas son diferentes. Utilizando este enfoque basado en el aprendizaje, el algoritmo resuelve con éxito el problema de optimización multiobjetivo.

en conclusión

  En resumen, se ha demostrado que el marco EEPN desarrollado por Lenovo y probado por LCFC para la programación inteligente a través de OR e IA mejora la eficiencia, aumenta los ingresos, ahorra capital humano y protege el medio ambiente. Tales soluciones tienen un enorme potencial para resolver algunos de los problemas más complejos que enfrentan las empresas y la sociedad.

  La solución no solo se implementó en la fábrica de Lianbao, sino que también migró y probó en los escenarios de producción de otras fábricas internas de Lenovo, como las fábricas de Shenzhen y Huiyang.Los resultados de la etapa POC mostraron que los KPI de las dos fábricas han mejorado sustancialmente. Además de la industria de PC , esta solución también es aplicable a la industria de teléfonos móviles, la industria de semiconductores y la industria de mecanizado discreto , aunque desde la perspectiva de OR, el problema de programación de producción de estas industrias puede ser diferente del PLPP de la fábrica de Lianbao. , porque cada fábrica tiene su propio conjunto de procesos de producción y preferencias de KPI, pero puede adaptarse fácilmente a estas diferencias modificando el mecanismo de enmascaramiento y estableciendo la función objetivo.

Supongo que te gusta

Origin blog.csdn.net/hba646333407/article/details/128529557
Recomendado
Clasificación