Aplicación del Aprendizaje por Refuerzo en el Escenario de Reabastecimiento Inteligente

El autor de este artículo: Ying Rushi, ingeniero del equipo de algoritmos de Guanyuan, se graduó del Departamento de Ciencias de la Computación del Imperial College de Londres y su principal dirección de investigación es el aprendizaje por refuerzo, el algoritmo de series temporales y su aplicación. Cultive profundamente los escenarios de bienes de consumo minorista y resuelva los problemas de optimización de la logística de la cadena de suministro. Proporcione a los clientes soluciones de inteligencia artificial basadas en el aprendizaje automático.

1. Antecedentes

Con el rápido desarrollo de tecnologías de vanguardia como big data, inteligencia artificial y computación en la nube, la industria de consumo minorista se caracteriza por la digitalización y la inteligencia desde la fabricación, las compras y las ventas hasta el servicio.

Este artículo toma como ejemplo el escenario de reabastecimiento inteligente en la solución de panorama de la cadena de suministro. Permítame revelarle cómo la solución de inteligencia artificial de Guanyuan permite a las empresas reabastecerse de bienes de manera inteligente.

El reabastecimiento inteligente puede evitar la pérdida o el pedido incorrecto de productos, controlar de manera efectiva la tasa de rotación del inventario, reducir la tasa de falta de existencias, reducir la carga laboral y mejorar la eficiencia de los pedidos.

Las soluciones de reabastecimiento inteligente existentes se dividen principalmente en arquitectura de extremo a extremo y arquitectura de varios pasos .

Arquitecturas de extremo a extremo, como modelos de redes neuronales profundas, modelos de optimización de investigación operativa de extremo a extremo, etc. Una arquitectura de varios pasos generalmente incluye dos partes: un modelo de pronóstico de ventas y un modelo de reabastecimiento . La dependencia del modelo de red neuronal profunda de extremo a extremo de la cantidad de datos ya es uno de los mayores obstáculos para la implementación de las aplicaciones de IA actuales. La arquitectura de varios pasos conduce a resultados finales insatisfactorios debido a la superposición y amplificación de errores entre múltiples modelos.

La implementación comercial del aprendizaje automático debe tener en cuenta muchos factores, como la estabilidad del modelo, la complejidad del modelo y la interpretabilidad de la toma de decisiones . La solución técnica actual depende en gran medida de los datos de entrada, la estabilidad del modelo es baja y la capacidad de generalización es débil. Aumenta la dificultad del aterrizaje comercial, y la capacidad de ampliar los escenarios comerciales es limitada.

Este artículo analizará las dificultades técnicas del escenario de reabastecimiento inteligente y explicará cómo la solución de IA de Guanyuan se basa en el aprendizaje por imitación y el aprendizaje por refuerzo inverso, y utiliza un marco de modelo de pocas muestras para optimizar la solución técnica existente.

La solución de inteligencia artificial de Guanyuan se adhiere al principio de "hacer que el negocio sea utilizable" y cree que el reabastecimiento inteligente tiene como objetivo reducir la carga del trabajo manual, mejorar las capacidades de toma de decisiones manuales en lugar de reemplazar el trabajo manual, especialmente en la era posterior a la epidemia, manual la toma de decisiones es insustituible para el procesamiento oportuno de la información

2. Dificultades técnicas

Este artículo analiza las dificultades de la solución técnica de los escenarios de reposición inteligente desde los aspectos de la estabilidad del modelo, la complejidad del modelo y la interpretabilidad de las decisiones .

2.1 Estabilidad del modelo

La estabilidad del modelo se puede analizar desde dos perspectivas: entrada y salida del modelo:

  • Desde la perspectiva de la entrada, la estabilidad del modelo está determinada por el grado de dependencia del modelo de los datos.

  • Desde la perspectiva de la salida, muestra la fuerza de la capacidad de generalización del modelo.

2.1.1 Confiabilidad de los datos

La dependencia de datos se puede subdividir en dependencia de calidad de datos y dependencia de volumen de datos:

  • Confiabilidad de la calidad de los datos

Se refiere a la precisión, integridad, oportunidad, relevancia, consistencia, confiabilidad, representación razonable, accesibilidad, etc. de los datos.

  • Confiabilidad del volumen de datos

Se refiere a la cantidad de datos necesarios para respaldar el entrenamiento del modelo para lograr la convergencia.

El modelo de red neuronal profunda requiere datos de entrenamiento masivos, es decir, el requisito de volumen de datos es grande. Al mismo tiempo, el modelo también requiere datos de alta calidad. Como dice el famoso dicho de aprendizaje automático "Basura dentro, basura fuera", cuando un modelo encuentra un "problema de deriva", su adaptabilidad es débil y su rendimiento está destinado a ser pobre.

Los problemas de deriva generalmente se pueden dividir en las siguientes dos categorías:

  • Deriva de datos

Se refiere a cuándo cambia la distribución de datos de entrada. Por lo tanto, es difícil que los modelos entrenados históricamente funcionen bien con estos nuevos datos.

  • Deriva del concepto

Se refiere a cuando el modo de aprendizaje del modelo ya no está establecido y cambia;

A diferencia de la deriva de datos, la distribución de los datos de entrada permanece constante. En cambio, la relación entre las entradas y salidas del modelo cambia.

Cuando se produce una deriva de datos o de conceptos, la distribución de datos de entrada del modelo cambia o el modelo aprendido por el modelo ya no es válido. Un ejemplo típico es el brote de Covid-19.

En 2020, la epidemia de Covid-19 se extendió por todo el mundo. Casi de la noche a la mañana, los patrones de viaje, los hábitos gastronómicos y el almacenamiento de la cadena de suministro de las personas experimentaron cambios trascendentales. Este cambio incluye tanto cambios en la distribución de datos (Data Drift), como compras en línea que conducen a un aumento en los pedidos en línea y una fuerte caída en los pedidos fuera de línea; también incluye la deriva conceptual (Concept Drift), como durante la epidemia, el turismo internacional y otros negocios se han visto muy afectados, pero a medida que la situación mejora, los conceptos antiguos pueden reanudarse (conceptos recurrentes).

Los cambios anteriores afectarán a todos los modelos, independientemente de si dichos modelos eran conocidos anteriormente por su alta estabilidad. Cuando se produce una deriva repentina (Sudden Drift) , no se puede garantizar el efecto futuro del modelo.

En el escenario de reabastecimiento inteligente, por un lado, la calidad de los datos es preocupante y hay problemas como inventario, desecho e información de llegada inexacta, y retrasos en el mantenimiento de la información del producto. Por otro lado, sufre el "problema de la deriva". En la era posterior a la epidemia, la distribución de datos y los modelos internos han sufrido cambios drásticos. Debido a la alta dependencia de la arquitectura técnica existente en la calidad y el volumen de los datos, el ajuste El período del modelo es largo y la mejora del efecto es limitada. Es difícil satisfacer las necesidades comerciales en constante cambio de hoy.

2.1.2 Generalización del modelo

La estabilidad del modelo se analiza a partir de la fuente de datos del modelo anterior, y la estabilidad del modelo se analiza a partir de la capacidad de generalización del modelo a continuación.

Los escenarios de generalización de los modelos de aprendizaje automático se dividen en dos categorías:

  • generalización débil

Los datos de entrenamiento y los datos de prueba provienen de la misma distribución, también conocida como interpolación o robustez.

  • fuerte generalización

Los datos de entrenamiento provienen de una distribución diferente a la de los datos de prueba; también llamada extrapolación o comprensión.

La "generalización débil" generalmente asume que las distribuciones de datos de entrenamiento y prueba son las mismas. Pero en problemas prácticos, incluso en el caso de "límite de muestra grande", siempre habrá diferencias entre las dos distribuciones. En el escenario de reabastecimiento inteligente, las actualizaciones comerciales de la tienda, los cambios en el flujo de clientes circundantes y las áreas afectadas temporalmente por la epidemia harán que los datos del modelo de entrenamiento y los datos del modelo de prueba no cumplan con las condiciones de distribución independientes e idénticas. En este caso, ya sea un modelo de red neuronal de extremo a extremo entrenado en base a una gran cantidad de datos históricos o una arquitectura de investigación operativa de varios pasos, ambos enfrentan el problema de la deriva de datos, lo que debilita la capacidad de generalización del modelo. .

En la categoría de "generalización fuerte", el modelo se evalúa en una distribución de datos completamente diferente. El aprendizaje por refuerzo tiene como objetivo abordar la generalización del modelo en escenarios tan cambiantes. Cuando el sistema de aprendizaje inteligente comprende más sobre el mundo, es más fácil obtener señales de aprendizaje y se necesitan menos muestras para tomar decisiones. Por eso son importantes el aprendizaje por pocas tomas, el aprendizaje por imitación y aprender a aprender: nos liberarán de soluciones de fuerza bruta con gran varianza y poca información útil.

El esquema de la técnica anterior adopta la suposición de una distribución independiente e idéntica, lo que conduce a un pobre efecto de su "generalización débil". Al mismo tiempo, cuando las soluciones técnicas existentes encuentran diferentes distribuciones de datos, la capacidad de "generalización fuerte" debe mejorarse con urgencia.

2.1.3 Desintegración del modelo

Hay un concepto en el aprendizaje automático llamado Model Decay , lo que significa que el efecto del modelo histórico no garantiza el efecto del modelo futuro. Esta situación generalmente se llama Model drift, decay o staleness . Por lo tanto, es necesario mantener el modelo regularmente y mantener el efecto del modelo volviendo a entrenar el modelo o incluso refactorizando el modelo.

Debido a la dependencia del modelo mencionado anteriormente de los datos y la existencia de problemas de deriva, cualquier modelo inevitablemente declinará. Las soluciones técnicas existentes dependen en gran medida de los datos. Una vez que ocurre el problema de deriva, es más probable que el modelo decaiga y requiera altos costos de mantenimiento, incluso necesita rediseñar el modelo, y el costo de iteración es alto. La siguiente figura resume la relación entre la capacidad de generalización del modelo, el riesgo de deterioro del modelo y la dependencia de los datos.

Como se muestra en la figura, cuanto mayor sea la dependencia del modelo de los datos, más débil será la capacidad de generalización del modelo (línea verde) y mayor será el riesgo de recesión (línea roja), que es también la principal deficiencia del modelo. soluciones técnicas existentes.

2.2 Complejidad del modelo

La complejidad del modelo se considera principalmente a partir de la dificultad de entrenar el modelo y el costo de las iteraciones.Dado que los requisitos comerciales en los escenarios comerciales a menudo varían, causará el problema de degradación del modelo mencionado anteriormente, y las actualizaciones iterativas y el reentrenamiento regular son esenciales . De esta manera, la dificultad de entrenamiento y el costo de iteración del modelo deben descontarse para convertirse en los factores de consideración de la complejidad del modelo.

2.2.1 Capacitabilidad del modelo

深度神经网络需要海量数据输入,并且需要高性能 GPU 等硬件设备支持,同时训练花费时间较长。海量数据的需求限制了智能补货范围只能是开店较久的成熟门店,无法支持数据少的新开门店。

多步骤模型架构中,多模型的优化目标不同,中间环节的优化目标和最终目标并不完全一致,比如预测准确度的提升,不一定带来周转的优化(牛鞭效应)。这也导致模型训练难度上升,常常出现 1+1<2 的尴尬处境。

2.2.2. 模型迭代成本(Model Iteration Cost)

深度神经网络训练耗时长,通常指定目标损失函数后,通过最小化损失函数训练模型。当业务逻辑变更时,需要重新提炼业务知识,修改目标函数,构建新特征,调整网络结构等。

也存在一些模型根据运营总成本建立数学模型,且以运营总成本作为损失函数,求解建议补货量。当需求变化,例如业务目标从最优化运营总成本到开拓抢占市场份额,愿意打价格战吸引客流时,目标并非运营总成本最低。

综上,从模型复杂度角度考虑,这些技术方案训练耗时长,中间目标与最终目标断层,目标函数单一,当遇到业务需求变更时,调整成本高,难度大,迭代慢,无法适应商业世界快速变更的业务需求。

2.3. 补货决策可解释性(Decision Interpretability)

智能补货决策最终触达的是业务、领域专家,需要决策具备强解释性。从补货决策可解释性角度出发,黑盒预测与盲目假设是技术方案需要兼顾解决的。

2.3.1. 黑盒预测(Black-Box Predict)

深度神经网络模型把原始数据丢进模型,直接输出补货值,好处是方便,坏处是越来越像一个黑箱。这种端到端的黑箱模型,除了输入输出,工程师和业务使用者对中间过程一无所知。

对于业务、领域专家来说,AI 智能决策需要解决最基本的信任问题。当模型预测采取某一行动时,专家需要有理由相信模型是正确的。专家需要知道模型的决策逻辑,了解模型的弱点,并确保风险得到控制,如果专家不信任模型,决策结果就不敢被广泛的使用。有用的模型是被使用起来的模型,如果模型生产系统永远无法被使用,再出色的黑盒预测精度也没有任何价值。

2.3.2. 盲目假设(False Assumption)

机器学习中伴有许多假设,巧妙的假设能够精简模型,但盲目假设会使模型犯致命错误。

最常见的盲目假设就是训练数据与测试数据的独立同分布,这种隐式假设难以发现,因为训练模型时并不要求数据满足独立同分布,工程师只需拿到数据,训练,就能获得模型,而独立同分布假设的不满足将在底层逻辑上影响模型的预测效果。

另一种业务层面的盲目假设,例如学界最常说到的经济订货量(Economic Order Quantity,EOQ),在实际中却很少用到,首先不管是库存成本还是作业成本都很难衡量,基本无法获取。此外,实际运营中更多看数量,比如库存量能否满足需求,滞销 1 件需要销售多少件才能回本,至于库存租赁成本、固定作业成本这些是不怎么看的。类似的,以单一目标(例如运营总成本)建立数学模型,且以运营总成本作为损失函数,求解直接输出建议补货量,该技术方案也会遇到运营总成本难以预估的现实问题。

还有一种盲目假设,例如一些多步骤模型,将补货模型分为预测和补货两部分,该方案假设更准确的销量预测能够带来更合理的补货决策,但预测误差会随着多模型叠加而累积放大,并且中间环节的优化目标和最终的目标并不是完全一致的,比如预测准确度的提升,不一定带来周转的优化等。

3. 观远 AI 技术

观远 AI 团队深耕供应链场景,以业务用起来为指导思想,采用少样本数据框架,基于模仿学习与逆强化学习技术。从以下角度优化了现有的供应链技术方案。

  • 模型稳定性(Model Stability)

降级数据质量依赖

提高模型泛化能力

降低模型衰退维护成本

  • 模型复杂度(Model Complexity)

降低模型训练难度

降低模型迭代成本

  • 补货决策可解释性(Decision Interpretability)

避免了黑盒预测

避免了盲目假设

3.1. 理论基础

3.1.1. 什么是强化学习(RL)

强化学习(Reinforcement learning,简称 RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡,强化学习中的“探索-利用”的交换,在多臂老虎机问题(Multi-armed Bandit)和有限 MDP 中研究得最多。

基本的强化学习被建模为马尔可夫决策过程(Markov decision processes,MDP),包含以下要素:

  1. 状态空间

  1. 动作空间

  1. 奖励函数

  1. 策略 Policy

  1. 状态之间转换的规则(转移概率矩阵)

在强化学习中,上述要素中前四点与智能体(Agent)相关,即状态空间、动作空间、奖励函数和策略。第五点“状态之间转换的规则 ”是环境属性。

关于强化学习的深入讨论,可以参考这篇文章 《深入了解强化学习》

3.1.2. RL 与模仿学习(Imitation Learning)

模仿学习(Imitation Learning)——从专家示例中学习(Learn from Expert Demonstration)——是一种让智能体像人类专家一样能够进行智能决策的方法。在通往通用人工智能的路上,人们发现很难手工地进行编程来教会智能体进行思考,因为这么做涉及到大量的人工工程。比如,在教会车辆自动驾驶的过程中,需要有大量的约束进行考虑 (安全驾驶而不发生事故、平稳驾驶而增加舒适感)等等,而针对这些约束设计特定的监督信息信号来引导智能体是一个比较困难的任务。相反之下,人类却能比较容易地完成这些任务,并且为智能体提供大量的示例行为。利用这些专家示例来教会智能体进行智能决策就是模仿学习主要解决的问题。

不断涌现的新的任务促使研究者们设计了各种各样的模仿学习算法。其中,普遍认为模仿学习有两大类算法:

  • 行为克隆(Behavioral Cloning)

  • 对抗式模仿学习(Adversarial Imitation Learning)

行为克隆算法尝试最小化智能体策略和专家策略的动作差异,把模仿学习任务归约到常见的回归或者分类任务。而对抗式模仿学习算法则是通过逆强化学习(Inverse Reinforcement Learning, IRL)来构建一个对抗的奖励函数,然后最大化这个奖励函数去模仿专家行为。

观远 AI 技术方案融合了行为克隆对抗式模仿学习两种方式,以专家历史补货决策作为示例,通过模仿学习训练使智能体(Agent)的补货决策能力能够达到专家水平。在此基础上,当 Agent 面对复杂业务场景,奖励函数不明确时,通过逆强化学习构建对抗的奖励函数,也能做出一流的补货决策。

3.2. 架构设计

观远 AI 智能补货技术架构自底向顶包含三部分:MDP 设计,模仿学习建模以及智能决策

MDP 设计是基础设施,在此之上对业务场景抽象构建模仿学习模型,其中包含两个子模型:行为克隆以及对抗式模仿学习。行为克隆算法用于应对奖励函数已知的简单业务场景,属于基础策略(exploitation),对抗式模仿学习算法用于应对奖励函数未知的复杂业务场景,属于探索策略(exploration)

3.2.1. 马尔可夫决策过程(MDP)设计

MDP 设计主要包含状态空间,动作空间,奖励函数以及策略

  • 状态空间设计

状态空间描述 Agent 感知到的环境信息及其动态变化,是模型对环境的抽象。

在智能补货场景中,状态空间包含商品库存量、商品在途量、门店类型等信息。

  • 动作空间设计

动作空间描述 Agent 可执行的操作,如游戏中的上下左右、攻击、躲闪等。

在智能补货场景中,动作空间包含是否补货、补多少货等。

同时,在动作空间设计上结合业务知识,创新地引入若干新概念,更细粒度地刻画补货动作。例如:

  1. 触发库存(Trigger Stock):当商品真实库存低于触发库存时,引发店员补货动作

  1. 期望库存(Expect Stock):店员补货时,期望该商品补到的量

  1. 补货频率(Replenishment Frequency):商品两次补货行为之间的时间间隔

引入上述动作空间信息后,商品的补货决策基于下述条件:

当商品的真实库存低于触发库存时,智能体触发补货决策,补货量为期望库存与真实库存的差值,同时模型还会考虑补货频率,保证补货行为的合理性。

  • 奖励函数设计 (Reward Function Design)

在强化学习任务中,智能体根据探索过程中来自环境的反馈信号持续改进策略,这些反馈信号被称为奖励(Reward),奖励是即时的,而累计的奖励被称作回报(Return)。作为任务目标的具体化和数值化,奖励信号起到了人与算法沟通的桥梁作用。算法工程师将客户期望和任务目标“翻译”成奖励函数,引导强化学习算法的训练。

在补货场景中,奖励函数可以从日商、净利的角度设计,例如门店的净利越高,对应的奖励越高。奖励函数也可以从报废率角度设计,例如门店的报废率越低,对应的奖励越高。

  • 策略设计

策略设计基于状态空间、动作空间以及奖励函数的设计。在智能补货场景中,补货策略可以做到多种多样,例如:

  1. 日常运营时,补货策略是最大化门店日商、净利目标;

  1. 占领市场时,补货策略可以是最大化门店商品陈列量,并允许报废率调高。

根据不同奖励函数的设计,可以灵活调整模型策略,甚至可以综合考虑净利、报废率,将多种奖励函数结合得到复合奖励函数。

策略设计通过调整奖励函数引导补货决策适应业务需求,这也更符合当今商业世界变化多端的业务场景。

3.2.2. 模仿学习建模

  • 行为克隆(Behavior Cloning)

行为克隆算法适用于奖励函数已知或者专家示例已经足够优秀,模型仅最小化智能体策略和专家策略的动作差异即可,通常把模仿学习任务归约到常见的回归或者分类任务。

本节以最佳备货量预测和最佳备货日预测为行为克隆的两个例子。

  • 最佳备货量预测

首先明确备货量预测与销量预测不同,一些多步骤架构的技术方案在销量预测后往往需要考虑箱规转换、货架陈列、仓库压货等等业务问题。

而备货量,一般来说是远大于销量,并且考虑了箱规转换、货架陈列、仓库压货等等业务逻辑,本发明通过模仿专家的备货行为,直接预测备货量替代了传统方法预测销量后转化为备货量,大大减少精度损失。

  • 最佳备货日预测

门店商品订购需要考虑物流延期问题,即前置时间(Leadtime)。不同商品、不同物流方式的前置时间显著不同。本发明首先对商品进行聚类,把商品物流属性相似的聚为一类,然后通过学习店长的提前备货习惯,学习某一聚类商品的备货日提前量。

综上,行为克隆针对简单业务场景,能抽象成简单的回归或者分类问题,使用线性回归、树模型均能取得良好效果。此外,值得注意的是,行为克隆能够显著降低模型对数据的依赖,实践表明,行为克隆能够在商品库存数据质量较低的情况下,仅根据专家补货策略,获得较好的初始化补货策略,而现有技术方案面对低数据质量做出的决策合理性较低。

  • 对抗式模仿学习(Adversarial Imitation Learning)

对抗式模仿学习算法适用于复杂业务场景,虽然有示例数据,但模型不能通过简单的模仿示例数据达到最优效果,同时奖赏函数未知或较难设计,此时可以通过逆强化学习(IRL)来拟合一个奖赏函数,然后最大化该奖赏函数引导 Agent 生成补货策略。

类似的场景包含但不限于新品补货、新老商品汰换,由于无法确认复杂业务的奖励函数,可以基于专家历史上对新品的补货策略、对新老商品的汰换策略,训练奖励函数,再基于该奖励函数生成最佳补货策略。

例如奖励函数训练得到新品补货业务的报废率为 15%;新老品汰换场景中的汰换比例为 20%等。这种情况下,即便遇到一个全新商品,模型从未见到过该商品,但模型通过逆强化学习获得了新品补货和新老品汰换业务的奖励函数,模型也能对从未见过的新商品进行合理补货。这也是模型强泛化能力(extrapolation)的一种体现。

3.2.3. 智能决策

在完成 MDP 设计,模仿学习建模后,进入决策流程。决策分为基础决策(exploitation),通过克隆店长行为,达到大部分专家平均水平,应对简单业务场景。探索决策(exploration)基于逆强化学习,通过学习奖励函数,应对复杂业务场景。基础决策注重弱泛化能力,探索决策针对强泛化能力。

同时,本发明架构能够不断收集真实世界的新数据,优化模型,以下流程被称为 DAgger(Dataset Aggregation)算法,把行为克隆得到的策略与环境不断的交互,来产生新的数据;然后在增广的数据集上,重新使用行为克隆进行训练,再与环境交互;这个过程会不断重复进行。由于数据增广和环境交互,DAgger 算法会大大减小未访问状态的个数,以此提高模型的“强弱”双泛化能力。

3.3. 总结

本文总结了观远 AI 智能补货方案带来的有益效果,并在商业落地和业务迭代上能力的提升,拥有更好的商业落地能力以及业务拓展能力。

模型稳定性

  • 基于模仿学习架构,对输入数据的质量和体量依赖少。因此支持新店补货。

  • 模型应对 Sudden Data Drift 调整速度更快,能快速适应业务变化,相较深度神经网络模型耗时更短,应对模型衰退问题能力更强。

  • 结合行为克隆和逆强化学习提高模型“强弱”双泛化能力,实践表明模型面对简单业务场景和复杂业务场景均有不俗表现。

模型复杂度

  • 可在无明确损失函数前提下,只进行模仿学习,克隆专家补货行为。训练难度低。

  • 摒弃深度神经网络的多层架构,开创式的使用强化学习——模仿学习,训练所需数据少,模型训练难度低。

  • 使用显示 MDP 设计(状态空间、动作空间、奖励函数),能够在复杂多变的商业世界,以低成本快速迭代。

补货决策可解释性

  • 传统深度神经网络中以历史销量为输入,经过多层隐藏层输出预测销量,模型整体可解释性低。

  • 本方案具有更细粒度的显示 MDP 设计(状态空间、动作空间、奖励函数),能更好地解释补货逻辑,增强补货决策可解释性。

  • 通过对动作空间的监控来检测数据漂移或者概念漂移。如期望库存、触发库存、补货频率这类描述补货决策逻辑的参数,当模型返回一个“奇怪”的补货决策时,领域专家可以通过分析对应商品的动作空间来分析决策逻辑,判断其合理性。

  • 避免了黑盒预测,也避免了对数据分布、业务逻辑、模型架构等盲目假设导致方案存在逻辑漏洞。

4. 观远 AI 与展望

观远 AI 方案以”让业务用起来“为宗旨,结合具体业务场景,优化业务价值。此外,除了前面提到的 AI 技术方案,观远在产品技术、企业服务、业务推广方面都有非常丰富的经验。可登录观远数据官网查看相关资料。在一些行业头部客户,我们的产品也成功达到了 20000 名以上活跃分析师和数据决策用户的里程碑,可以想象这样的企业在激烈的市场竞争中能够体现出来的决策效率与质量的巨大优势。非常欢迎有兴趣的朋友来一道探讨交流,寻求合作共建的机会。

5. Reference

Supongo que te gusta

Origin blog.csdn.net/GUANDATA_/article/details/128675900
Recomendado
Clasificación