A aplicação prática da estética de geração de imagens de IA no Taobao

[Antevisão da transmissão ao vivo] Os modelos grandes substituirão os programadores? "

Este artigo apresenta como formular e aplicar padrões estéticos para avaliar e melhorar a qualidade das imagens geradas pela inteligência artificial, especialmente na área de e-commerce. É dividido principalmente em quatro categorias: formulação de padrões estéticos, treinamento de modelos estéticos, aplicação estética. modelos e atualização de modelos de estilo Taobao.

Definição e análise de estética

Padrões de qualidade de imagem: Na estrutura de design moderno, os padrões de qualidade de imagem definidos são basicamente unificados. O foco na definição de habilidades e técnicas também se estende à avaliação da qualidade de quadros, pinturas, fotos e imagens. Nesta base, haverá requisitos e ênfase nas características dos meios de confecção de quadros.
Padrões de conteúdo de imagem: Os requisitos de qualidade de expressão sob a ideologia são extensos e os padrões de qualidade de imagem serão quebrados para atender às necessidades de expressão de conteúdo. Geralmente é definido e interpretado por figuras de autoridade, como críticos ou juízes do setor.

Metas do Projeto de Estética

O primeiro passo é formular padrões estéticos : formular padrões de desenho de IA e padrões de estilo de IA e pesquisar em conjunto com a Academia de Arte da China e professores. Destacar profissionalismo, pertinência, objetividade e autoridade.
Etapa 2 - Treinamento do modelo estético : Cultive um modelo de julgamento estético baseado em padrões estéticos de IA para que a máquina possa julgar e pontuar automaticamente.
Etapa 3 - Aplicar o modelo estético : Orientar a otimização e atualização do modelo de geração de imagens Taobao AI com base nas capacidades do modelo estético.
Etapa 4 - Atualizar o modelo de estilo Taobao: Estabeleça uma biblioteca de modelos de estilo Taobao baseada em padrões de estilo, para que os comerciantes tenham um modelo de estilo rico e diversificado para escolher. Crie um modelo de estilo Taobao.

Etapa um: desenvolver padrões estéticos

A estrutura de critérios é definida com base nos componentes da “imagem”, focando nas “ características geradas pela IA ” para construir padrões estéticos:

Composição da imagem: forma do objeto/ambiente/composição/luz e sombra/textura

Características de geração de IA: autenticidade do elemento e racionalidade da cena

Padrões estéticos de IA: 5 diretrizes, 19 padrões

Passo 2: Treine o modelo estético

Objetivo do modelo estético: Melhorar a precisão da pontuação automática da máquina e do julgamento das imagens.
Taxa de precisão: a mesma imagem é submetida à pontuação estética de IA e à pontuação manual, e a taxa de sobreposição entre as pontuações humanas e de máquina é obtida.

▐Experiência imersiva

Nosso modelo de avaliação estética de IA adota pré-treinamento estético multimodal e métodos de aprendizagem de ajuste fino multitarefa. As vantagens de fazer isso são as seguintes:

Nosso modelo tem menos parâmetros, permite iterações de treinamento rápidas, velocidade de inferência rápida, pode exibir rapidamente imagens de alta estética e também pode avaliar os efeitos de geração de diferentes modelos de geração, reduzindo anotação manual e custos de revisão;
Comparado com modelos que geram apenas pontuações estéticas, nosso modelo pode gerar atributos anormais de imagens geradas, que possuem maior interpretabilidade;
Os atributos anormais gerados pelo nosso modelo podem ser usados como um pré-discriminador para restauração de imagens e também podem ser usados para otimizar o modelo de geração para marcação de imagens geradas anormalmente;

▐Processo de treinamento

Desenvolva especificações de pontuação com base em padrões estéticos e estabeleça uma regra de pontuação de 5 pontos, que é marcada pelos designers para acumular dados de treinamento de IA de alta qualidade:

Formular regras de pontuação: especificações de pontuação para imagens geradas por IA (5 níveis) e regras de pontuação para triagem de imagens originais (3 níveis).
Capacidade de avaliar a estética da imagem original do manequim: Com base na preferência pela qualidade da imagem, como manequim, ambiente, composição, luz e sombra, textura, etc., um modelo estético especializado da imagem original do manequim é treinado para camadas estéticas . Os tipos pouco estéticos filtráveis incluem imagens borradas, imagens ou texturas com bordas brancas, rostos humanos incompletos ou cortados, corpos humanos fortemente bloqueados, fundos ruins ou estética geral ruim, etc.
Capacidade de avaliação estética AIGC de imagens brutas: Nossa avaliação estética AIGC de imagens brutas visa principalmente imagens brutas contendo personagens A partir de dois aspectos, focando na racionalidade da imagem e focando na integração da imagem, a pontuação é formulada com base. em 5 critérios principais e 19 requisitos padrão e, ao mesmo tempo, marcar os atributos anormais do gráfico bruto. Os atributos anormais atualmente suportados por nosso modelo incluem integração anormal entre as pessoas e o fundo (personagens suspensos no ar, textura de fundo ruim, etc.), anormalidades nas mãos, anormalidades faciais, anormalidades nos membros, outras anormalidades, etc. de 1 a 5 pontos.

Figura: Imagens de diferentes pontuações estéticas previstas pela avaliação estética da imagem bruta AIGC

Treinamento razoável: múltiplas rodadas de verificação de correspondência entre humanos e máquinas para garantir dados de alta qualidade.

1 rodada de teste de pontuação: calcule a pontuação média de 3 pessoas para acumular dados e garantir uma pontuação objetiva. A seção de diferença reinterpreta os pontos problemáticos específicos apresentados pela diferença. Execute a verificação novamente. Certifique-se de que as interpretações do Código por diferentes pessoas sejam consistentes e estáveis (sistema de 5 pontos).
2 rodadas de verificação de pontuação de IA: pegue a pontuação média de 3 pessoas e revise-a com a máquina. Se houver uma diferença na pontuação, reinterprete os pontos específicos do problema da diferença para esclarecer se é um problema humano ou de máquina, garantindo que os dois sejam gradualmente consistentes e garantindo a precisão da máquina. (Isso começará após a primeira versão do modelo de julgamento de IA estar disponível).

quadro técnico

Avaliação estética do desenho bruto AIGC: baseada nos critérios estéticos de 5 pontos definidos pelo projetista, mapeados em cinco níveis de qualidade. Ao mesmo tempo, conduzimos uma análise indutiva dos dados gerados e resumimos cinco atributos principais: normal, fusão anormal de pessoa e histórico, anormalidade nas mãos, colapso facial, anormalidade corporal e outras anormalidades. O nível de qualidade e os motivos dos atributos são combinados para formar uma palavra de alerta de avaliação estética, que é usada como entrada do modelo de pré-treinamento multimodal. A função de perda usa perda de regressão de pontuação estética e perda de classificação multirótulo de motivo de atributo.
Avaliação estética da imagem original do manequim: O CLIP possui uma boa capacidade de tiro zero de classificação bom/ruim em termos de avaliação estética da qualidade da imagem, cor, iluminação, composição, conceitos abstratos, etc. Portanto, na fase de pré-treinamento, melhoramos a capacidade de representação estética do backbone destilando o codificador de imagem CLIP. O estágio de ajuste fino usa a estrutura aprimorada para prever a pontuação estética normalizada. A função de perda é ponderada pela perda L1 e pela perda de entropia cruzada binária para melhorar o desempenho e a robustez do modelo. Após a conclusão do treinamento do modelo, selecionando diferentes limites, imagens de modelos humanos com diferentes níveis estéticos podem ser colocadas em camadas.

▐Fase de teste

Com base na situação de teste, analise os problemas atuais da máquina ou problemas humanos e ajuste continuamente a precisão do modelo. Evoluir e sintonizar-se continuamente neste processo.

Versatilidade de ajuste: teste o [modelo inteligente Qianniu] interno do Taobao e os modelos externos de terceiros do Taobao na plataforma Qianniu . O mesmo tipo de manequins foi avaliado e considerado compatível, mas houve diferenças significativas. Ao rastrear problemas específicos de imagens, descobrimos que a qualidade da imagem original enviada terá impacto na precisão. Para garantir a equidade, é necessário desenvolver padrões para atlas de testes.
Teste de autenticidade : A taxa de precisão flutuará até certo ponto a cada semana e um conjunto de teste padrão será construído com base nas condições do modelo. Use 1.200 conjuntos de testes padrão para IA e pontuação manual (considerando que a dificuldade das imagens originais afetará o julgamento da IA, o conjunto de testes é dividido em três níveis: fácil, médio e difícil, com uma proporção de 1:1:1) .
Teste rigoroso de pontuação de máquina: O modelo de pontuação ajustado pontuará automaticamente as imagens recém-geradas e as comparará com pontuações humanas.

Terceiro Passo: Aplicar o Modelo Estético

Objetivo: Usar modelos estéticos para melhorar a taxa de bons desenhos de modelos grandes do Taobao AI.

▐Modelo estético versão 1.0 - aplicação de recursos de avaliação de imagens de IA:

Objetivo: Use o modelo estético para avaliar o modelo de geração Taobao, determinar a pontuação e os problemas de imagem e reparar os problemas de imagem identificados.
Capacidade de julgamento: você pode pontuar imagens (1-5 pontos), selecionar imagens boas e ruins e orientar sugestões de otimização subsequentes para o modelo.
Capacidade de reconhecimento: Atualmente, 5 atributos principais da tela podem ser realimentados. (1. Anormalidades nas mãos. 2. A pessoa não se mistura com o fundo. 3. Anormalidades no rosto. 4. Anormalidades no corpo. 5. Outros).
修复能力：AIGC生成人物时画好的手一直是难点，人的手部自由度高且姿态复杂多变、图中占比小且细节多，导致画手的成功率不高。特别地，在实际业务中，由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景，在进行换模特换背景时，生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手，对异常的手，利用3D手部状态重建模型保持正确的手指数量与手的形状，同时能够自适应生成图像中所需的手势。基于我们内部基底模型，融合Text Embedding，根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配，我们的手部修复方案在业务数据上测试，修复成功率超过50%，可大幅度提高整体的生图良图率。手部修复的case如下：

▐ 美学模型2.0版本-应用原图评测能力

目标：调优淘宝基地模型，目前有混杂的原图数据集，数据集质量参差不齐，需要进行有效的筛选优化。
背景：目前原图数据集来源核心是两部分：视觉中国和淘宝模特图。
视觉中国的摄影图核心是供给给新闻稿做新闻配图，因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理，有些诸如模特的处理已经比较夸张。
筛选优质原图：通过原图判定模型，筛选优质摄影图，调优自研模型等数据集效果。提升生图的良图率。（如多人混乱、背景混乱，场景融合感等效果可提升）。
收集专业摄影原图：目前通过设计团队搜集优质的摄影模特图。
1.0版本的AI美学评价模型影响生成模型，使生成模型自适应对齐人类偏好：AI美学评价可用于指导基于扩散的生成模型，不仅指导生成模型要生成高美学图像，也需要减少生成低美学图像的概率。为了解决这个问题，我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签，增强模型学习异常生成图像概念的能力，可以在推理阶段避免。

第四步：升级淘宝风格模型

目标：打造淘宝特色风格模型。

风格标准的归纳：风格框架已经设定完成，内容量较大，将联动校企合作研究生，根据我们的要求逐步填充风格内容。

▐ 风格的背景情况

目前风格选择的丰富性不足，生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。
因为原图本身的来源关系，图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。
因为采用穷举的方式，导致工具的选择项过多，体验比较复杂，商家使用过程中会选择困难，采用不断尝试的方式。