La aplicación práctica de la estética de generación de imágenes de IA en Taobao

[Vista previa de la transmisión en vivo] ¿Los modelos grandes reemplazarán a los programadores? "

Este artículo presenta cómo formular y aplicar estándares estéticos para evaluar y mejorar la calidad de las imágenes generadas por la inteligencia artificial, especialmente en el campo del comercio electrónico. Se divide principalmente en cuatro categorías: formular estándares estéticos, entrenar modelos estéticos y aplicar estética. Modelos y actualización de modelos de estilo Taobao.

Definición y análisis de la estética.

Estándares de calidad de imagen: en el marco de diseño moderno, los estándares de calidad de imagen definidos están básicamente unificados. Centrarse en la definición de habilidades y técnicas también se extiende a la evaluación de la calidad de fotografías, pinturas, fotografías e imágenes. Sobre esta base, habrá requisitos y énfasis en las características de los medios para realizar fotografías.
Estándares de contenido de imagen: Los requisitos para la calidad de expresión según la ideología son extensos y los estándares de calidad de imagen se romperán para satisfacer las necesidades de expresión de contenido. Por lo general, lo definen e interpretan figuras autorizadas, como críticos o jueces de la industria.

Objetivos del proyecto de estética

El primer paso es formular estándares estéticos : formular estándares de dibujo de IA y estándares de estilo de IA, e investigar conjuntamente con la Academia de Arte de China y profesores. Resaltar profesionalismo, pertinencia, objetividad y autoridad.
Paso 2: modelo estético de entrenamiento : cultive un modelo de juicio estético basado en estándares estéticos de IA para que la máquina pueda juzgar y calificar automáticamente.
Paso 3: aplicar el modelo estético : guiar la optimización y actualización del modelo de generación de imágenes de Taobao AI en función de las capacidades del modelo estético.
Paso 4: actualice el modelo de estilo de Taobao: establezca una biblioteca de modelos de estilo de Taobao basada en los estándares de estilo, para que los comerciantes tengan un modelo de estilo rico y diverso para elegir. Crea un modelo de estilo Taobao.

Paso uno: desarrollar estándares estéticos

El marco de criterios se define en función de los componentes de "imagen", mientras se centra en las " características generadas por IA " para construir estándares estéticos:

Composición de la imagen: forma del objeto/entorno/composición/luz y sombra/textura

Características de generación de IA: autenticidad de elementos y racionalidad de escena

Estándares estéticos de IA: 5 pautas, 19 estándares

Paso 2: entrena el modelo estético

Objetivo del modelo estético: mejorar la precisión de la puntuación y el juicio automático de las imágenes por parte de las máquinas.
Tasa de precisión: la misma imagen se somete a una puntuación estética de IA y a una puntuación manual, y se toma la tasa de superposición entre las puntuaciones humanas y de las máquinas.

▐Experiencia inmersiva

Nuestro modelo de evaluación estética de IA adopta métodos de aprendizaje de ajuste fino de múltiples tareas y preentrenamiento estético multimodal. Las ventajas de hacer esto son las siguientes:

Nuestro modelo tiene menos parámetros, permite iteraciones de entrenamiento rápidas, velocidad de inferencia rápida, puede visualizar rápidamente imágenes de alta estética y también puede evaluar los efectos de generación de diferentes modelos de generación, lo que reduce los costos de revisión y anotación manual;
En comparación con los modelos que solo generan puntuaciones estéticas, nuestro modelo puede generar atributos anormales de las imágenes generadas, lo que tiene una mayor interpretabilidad;
Los atributos anormales generados por nuestro modelo se pueden usar como un prediscriminador para la restauración de imágenes y también se pueden usar para optimizar el modelo de generación para el marcado de imágenes generadas anormalmente;

▐Proceso de formación

Desarrolle especificaciones de puntuación basadas en estándares estéticos y establezca una regla de puntuación de 5 puntos, que los diseñadores marcan para acumular datos de entrenamiento de IA de alta calidad:

Formule reglas de puntuación: especificaciones de puntuación para imágenes generadas por IA (5 niveles) y reglas de puntuación para la proyección de imágenes originales (3 niveles).
Capacidad para evaluar la estética de la imagen del maniquí original: según la preferencia por la calidad de la imagen, como el maniquí, el entorno, la composición, la luz y las sombras, la textura, etc., se entrena un modelo estético especializado de la imagen del maniquí original para realizar capas estéticas. . Los tipos de baja estética filtrables incluyen imágenes borrosas, imágenes o texturas con bordes blancos, rostros humanos incompletos o recortados, cuerpos humanos muy bloqueados, fondos deficientes o una estética general deficiente, etc.
Capacidad de evaluación estética de imágenes sin formato AIGC: nuestra evaluación estética de imágenes sin formato AIGC está dirigida principalmente a imágenes sin formato que contienen personajes, centrándose en la racionalidad de la imagen y centrándose en la integración de la imagen, la puntuación se formula en base. en 5 criterios principales y 19 reglas estándar, y al mismo tiempo marca los atributos anormales del gráfico sin formato. Los atributos anormales actualmente admitidos por nuestro modelo incluyen la integración anormal entre las personas y el fondo (personajes suspendidos en el aire, textura de fondo deficiente, etc.), anomalías en las manos, anomalías faciales, anomalías en las extremidades, otras anomalías, etc. de 1 a 5 puntos.

Figura: Imágenes de diferentes puntuaciones estéticas predichas por la evaluación estética de imágenes sin procesar de AIGC

Capacitación razonable: múltiples rondas de verificación coincidente entre humanos y máquinas para garantizar datos de alta calidad.

1 ronda de prueba de puntuación: tome la puntuación promedio de 3 personas para acumular datos y garantizar una puntuación objetiva. La sección de diferencias reinterpreta los puntos problemáticos específicos presentados por la diferencia. Realice la verificación nuevamente. Garantizar que las interpretaciones del Código por parte de diferentes personas sean coherentes y estables (sistema de 5 puntos).
2 rondas de verificación de puntuación de IA: tome la puntuación promedio de 3 personas y corríjala con la máquina. Si hay una diferencia en la puntuación, reinterprete los puntos problemáticos específicos de la diferencia para aclarar si se trata de un problema humano o de una máquina. asegurando que los dos sean gradualmente consistentes y asegurando la precisión de la máquina. (Esto comenzará después de que esté disponible la primera versión del modelo de juicio de IA).

marco técnico

Evaluación estética del dibujo en bruto de AIGC: basada en los criterios estéticos de 5 puntos definidos por el diseñador, asignados a cinco niveles de calidad. Al mismo tiempo, realizamos un análisis inductivo de los datos generados y resumimos cinco atributos principales: normal, fusión anormal de persona y fondo, anomalía de la mano, colapso facial, anomalía del cuerpo y otras anomalías. El nivel de calidad y los motivos de atributo se combinan para formar una palabra de indicación de evaluación estética, que se utiliza como entrada del modelo de preentrenamiento multimodal. La función de pérdida utiliza la pérdida de regresión de puntuación estética y la pérdida de clasificación de etiquetas múltiples de motivo de atributo.
Evaluación estética de la imagen del maniquí original: CLIP tiene una buena capacidad de disparo cero para clasificar bien/malo en términos de evaluación estética de la calidad de la imagen, el color, la iluminación, la composición, los conceptos abstractos, etc. Por lo tanto, en la etapa de preentrenamiento, mejoramos la capacidad de representación estética de la columna vertebral destilando el codificador de imágenes de CLIP. La etapa de ajuste utiliza la columna vertebral mejorada para predecir la puntuación estética normalizada. La función de pérdida está ponderada por la pérdida L1 y la pérdida de entropía cruzada binaria para mejorar el rendimiento y la solidez del modelo. Una vez completado el entrenamiento del modelo, seleccionando diferentes umbrales, se pueden superponer imágenes de modelos humanos con diferentes niveles estéticos.

▐Fase de prueba

Según la situación de prueba, analice los problemas actuales de la máquina o los problemas humanos y ajuste continuamente la precisión del modelo. Evolucionar y sintonizarnos continuamente en este proceso.

Versatilidad de ajuste: pruebe el [modelo inteligente Qianniu] interno de Taobao y los modelos externos de terceros de Taobao en la plataforma Qianniu . Se evaluaron el mismo tipo de maniquíes y se encontró que eran compatibles, pero hubo diferencias significativas. Al rastrear problemas de imágenes específicos, descubrimos que la calidad de la imagen original cargada tendrá un impacto en la precisión. Para garantizar la equidad, es necesario desarrollar estándares para los atlas de pruebas.
Prueba de autenticidad : la tasa de precisión fluctuará hasta cierto punto cada semana y se construirá un conjunto de prueba estándar en función de las condiciones del modelo. Utilice 1200 conjuntos de pruebas estándar para IA y puntuación manual (teniendo en cuenta que la dificultad de las imágenes originales afectará el juicio de la IA, el conjunto de pruebas se divide en tres niveles: fácil, medio y difícil, con una proporción de 1:1:1) .
Prueba rigurosa de puntuación automática: el modelo de puntuación ajustado puntuará automáticamente las imágenes recién generadas y las comparará con puntuaciones humanas.

Paso tres: aplicar el modelo estético

Objetivo: utilizar modelos estéticos para mejorar la tasa de buenos dibujos de los modelos grandes de Taobao AI.

▐Modelo estético versión 1.0: aplicación de capacidades de evaluación de imágenes de IA:

Objetivo: utilizar el modelo estético para evaluar el modelo de generación de Taobao, determinar la puntuación y los problemas de las imágenes y reparar los problemas de las imágenes identificados.
Capacidad de juicio: puede puntuar imágenes (1-5 puntos), descartar imágenes buenas y malas y guiar sugerencias de optimización posteriores para el modelo.
Capacidad de reconocimiento: actualmente, se pueden retroalimentar 5 atributos clave de la pantalla. (1. Anomalías en las manos. 2. La persona no se confunde con el fondo. 3. Anomalías en el rostro. 4. Anomalías en el cuerpo. 5. Otros).
修复能力：AIGC生成人物时画好的手一直是难点，人的手部自由度高且姿态复杂多变、图中占比小且细节多，导致画手的成功率不高。特别地，在实际业务中，由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景，在进行换模特换背景时，生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手，对异常的手，利用3D手部状态重建模型保持正确的手指数量与手的形状，同时能够自适应生成图像中所需的手势。基于我们内部基底模型，融合Text Embedding，根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配，我们的手部修复方案在业务数据上测试，修复成功率超过50%，可大幅度提高整体的生图良图率。手部修复的case如下：

▐ 美学模型2.0版本-应用原图评测能力

目标：调优淘宝基地模型，目前有混杂的原图数据集，数据集质量参差不齐，需要进行有效的筛选优化。
背景：目前原图数据集来源核心是两部分：视觉中国和淘宝模特图。
视觉中国的摄影图核心是供给给新闻稿做新闻配图，因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理，有些诸如模特的处理已经比较夸张。
筛选优质原图：通过原图判定模型，筛选优质摄影图，调优自研模型等数据集效果。提升生图的良图率。（如多人混乱、背景混乱，场景融合感等效果可提升）。
收集专业摄影原图：目前通过设计团队搜集优质的摄影模特图。
1.0版本的AI美学评价模型影响生成模型，使生成模型自适应对齐人类偏好：AI美学评价可用于指导基于扩散的生成模型，不仅指导生成模型要生成高美学图像，也需要减少生成低美学图像的概率。为了解决这个问题，我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签，增强模型学习异常生成图像概念的能力，可以在推理阶段避免。

第四步：升级淘宝风格模型

目标：打造淘宝特色风格模型。

风格标准的归纳：风格框架已经设定完成，内容量较大，将联动校企合作研究生，根据我们的要求逐步填充风格内容。

▐ 风格的背景情况

目前风格选择的丰富性不足，生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。
因为原图本身的来源关系，图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。
因为采用穷举的方式，导致工具的选择项过多，体验比较复杂，商家使用过程中会选择困难，采用不断尝试的方式。