AIGCs Untersuchung der Erstellung von Tmall-Produktplakaten





Das Inspiration Artist Project zielt darauf ab, die Zeichenfähigkeiten von AIGC zu nutzen, um Händler zu vereinen, um einen niedrigschwelligen und hochinteressanten Werbeplakat-Design-Wettbewerb zu erstellen. In diesem Artikel teilen wir unseren Plan und unsere Optimierungsrichtung. Die Lektüre wird Studierenden aus den Bereichen Ingenieurwesen und Algorithmen empfohlen, die sich für AIGC interessieren.



Hintergrund des Projekts

Das Inspirationskünstlerprojekt zielt darauf ab, die Zeichenfähigkeiten von AIGC zu nutzen, um Händler zu vereinen, um einen niedrigschwelligen und hochinteressanten Werbeplakatdesign-Wettbewerb zu schaffen, um neue Produkte . Gleichzeitig soll den Verbrauchern ein Kanal zur Teilnahme an neuen Produktankündigungen geboten werden.

Zielaufschlüsselung

Der GPT-Teil verwendet das Tongyi Qianwen-Sprachmodell. Weitere Informationen finden Sie in der technischen Dokumentation. Dieser Artikel konzentriert sich auf den Bilderzeugungsteil des Posterstils, der in vier Stile unterteilt ist: kommerzielles Poster, Pixar, zweidimensional und realistisch:



Die drei Stile Pixar, 2D und Realismus haben relativ klare Implementierungsideen. Sie sind Standard-Vincentian-Diagramme und können basierend auf MJ und SD realisiert werden. Es gibt viele Artikel, in denen die Vor- und Nachteile von MJ und SD analysiert werden. Ohne auf Details einzugehen, haben wir uns schließlich für SD als Algorithmuslösung für Vincentian-Diagramme entschieden. Der Kern besteht darin, dass SD Open Source ist und eine starke Plastizität aufweist. Basierend auf Diffusoren haben wir eine Reihe von SD-Implementierungen neu geschrieben, um Funktionen wie VAE, ControlNet, Lora und Embedings zu unterstützen. Basierend auf Geschäftsmerkmalen haben wir Funktionen wie Warmup und Auto_Predict angepasst. Es löst die Generierungsprobleme dieser drei Stile relativ einfach.

Die Schwierigkeit des Algorithmus liegt in der Stilgenerierung von Produktplakaten. Marken verlangen von Produkten, dass sie stark restauriert werden, und die generierten Poster weisen klare Pixel, reichhaltige Details und ein High-End-Feeling auf. Die Anforderungen sind voll, aber die Realität ist dürftig. Produktdetails sind komplex, insbesondere wenn sie schwer zu generierenden Text enthalten. Darüber hinaus wird die Zeichnungsinspiration zufällig durch den Text des Benutzers eingegeben, und der Zeicheneffekt ist nahezu unkontrollierbar. Zu diesem Zweck haben wir viel recherchiert und einige Optimierungsversuche unternommen.

Programmforschung

Am Beispiel des Parfüms Chanel Nr. 5 haben wir zunächst 4 Pläne ausprobiert.

▐Plan 1 SD + Outpainting  


Kurzbeschreibung: Fixieren Sie die Position des Produkts und zeichnen Sie den Bereich außerhalb des Produkts neu.
Vorteile: Beeinträchtigt das Aussehen des Parfüms nicht.
Nachteile: Die Positionsbeziehung zwischen den Charakteren, dem Hintergrund und dem Parfüm im Bild ist schwer zu kontrollieren und es besteht ein offensichtliches Gefühl der Verletzung.

▐Option 2 SD Inpainting + Nur Referenz  


Kurzbeschreibung: Fügen Sie Produktbildinformationen in die Aufmerksamkeitsebene ein, um Unet so zu steuern, dass ähnliche Bilder generiert werden.
Vorteile: Vorgenerierte Hintergründe bleiben vollständig erhalten.
Nachteile: Geringer Parfümreduktionsgrad.

▐Option 3 Diffusionsalgorithmus basierend auf Referenz  


Kurzbeschreibung: Generieren Sie relativ ähnliche Produkte basierend auf einem Referenzproduktbild
Vertreter: PBE, IP-Adapter, Anydoor…
Vorteile: Starke Verallgemeinerung, keine Notwendigkeit, jedes Produkt einzeln zu trainieren
Nachteile: Die Produktdetails reichen immer noch nicht aus, um das Copy&Paste wiederherzustellen.


▐Plan 4 SD + Lora/Dreambooth  


Kurzbeschreibung: Optimieren Sie das Modell und fügen Sie Informationen zum Erscheinungsbild des Produkts ein
Vorteile: Das Erscheinungsbild des Produkts wird stark wiederhergestellt und die Wiedergaberate ist relativ stabil.
Nachteile: Der Grad der Wiederherstellung von Details wie Text ist immer noch nicht hoch genug; und je kleiner die Details, desto gravierender die Verzerrung.
Option 4 kommt dem gewünschten Effekt am nächsten, es besteht jedoch noch eine große Lücke zwischen ihr und unseren Anforderungen.

Optimierungsrichtung

▐Entdecken Sie eine VAE-Erweiterung  


Nach der Analyse der Struktur des LDM-Modells (dem am häufigsten zitierten SD-Modell) wird zunächst vermutet, dass der Hauptgrund für die unzureichende Detailwiederherstellung der Verlust von Detailinformationen während des gegenseitigen Konvertierungsprozesses von VAE vom Pixelraum in den latenten Raum ist.


Um die Vermutung zu überprüfen, führten wir einen Test durch und führten zehn Encoder- und Decoder-Operationen an einem Bild durch. Bilddetails wie Text begannen zu verschwimmen. Wir haben über eine Möglichkeit nachgedacht, den durch VAE verlorenen Informationsverlust zu kompensieren, und der Wiederherstellungsgrad wurde erheblich verbessert.


Aber es gibt immer noch eine Lücke zwischen der perfekten Restaurierung.


▐Entdecken Sie zwei Bild-Superscores  


Da Details schwierig zu restaurieren sind, kann der Grad der Restaurierung durch eine Vergrößerung der Details verbessert werden? Um diese Vermutung zu überprüfen, haben wir das folgende Experiment durchgeführt.
Bei einer Auflösung von 256*256 ist der Text fast unleserlich.

Bei einer Auflösung von 512.512 gibt es eine deutliche Verbesserung im Vergleich zu 256.256, und der Wiederherstellungsgrad von Version 2.X ist besser als der von Version 1.X.



Nach dem Upgrade auf SDXL wird die Textwiederherstellung weiter verbessert.

Die Pixel wurden verbessert und der Grad der Wiederherstellung wurde tatsächlich verbessert. Natürlich dachten wir, wir könnten Details wie Text im generierten Bild völlig neu definieren und dann in der Verfeinerungsphase ein dediziertes Kontrollnetz trainieren, um den Grad der Wiederherstellung weiter zu verbessern.


Nach vielen Anpassungen kann der Detailwiederherstellungsgrad mehr als 90 % erreichen. Aber zwischen der perfekten Restaurierung klafft noch eine kleine Lücke.


▐Entdecken Sie drei Aufkleber  


Da es sehr schwierig ist, Text und andere Details wiederherzustellen, ist es dann möglich, den Text direkt zu kopieren und wieder einzufügen?
Durch Extrahieren des Textbereichs des Originalprodukts und Zuordnen zum entsprechenden Bereich des generierten Produkts werden die Textdetails perfekt wiederhergestellt.

Online-Programm


Nachdem wir die oben genannten Richtungen untersucht haben, haben wir zunächst das Problem der Postererstellung für Produkte wie Parfüm gelöst, aber es ist immer noch schwierig, Produkte mit komplexen Grafiken und Texten wiederherzustellen, wie zum Beispiel:

Es ist notwendig, es perfekt wiederherzustellen, aber auch seine Allgemeingültigkeit zu erhöhen. Fügen Sie einfach das gesamte Bild wieder ein [Hundekopf]. Der Plan sieht wie folgt aus:

  1. Das Offline-Modul generiert eine Hintergrundgalerie mit vinzentinischen Bildern.
  2. Das Offline-Modul ist mit Produktbildern aus mehreren Blickwinkeln voreingestellt, um das Problem der Vielfalt der Produktwinkel zu lösen.
  3. Wählen Sie als Leitbild ein Bild aus der Hintergrundgalerie aus, das für das aktuelle Produkt am relevantesten ist. Lösen Sie das Problem der Inkonsistenz zwischen Produkten und Hintergründen und verbessern Sie die Rendering-Rate.
  4. Aus dem Produktbild und dem Hintergrundbild zusammen werden das Drahtgitterbild, das weiße Produkthintergrundbild und die entsprechende Maske generiert.
  5. Erstellen Sie vorläufige Produktplakate über Stable Diffusion+Canny Controlnet+Reference.
  6. Verwenden Sie SAM und LAMA zum Löschen des Produkts, um zu verhindern, dass die Kanten beim späteren Anbringen von Bildern falsch ausgerichtet werden.
  7. Verwenden Sie das Bild des gelöschten Produkts, das weiße Hintergrundbild des Produkts in Schritt 4 und die entsprechende Maske als Eingabe, um ein neues Bild zu synthetisieren.
  8. Extrahieren Sie die in Schritt 5 generierten Licht- und Schatteninformationen des Produkts und projizieren Sie sie in Schritt 7 auf das Produkt, um das endgültige Produktplakat zu erstellen.

abschließend:
  1. Durch Copy&Paste ist eine wahlfreie Wiederherstellung gewährleistet.
  2. Durch die Voreinstellung von Leitbildern wird die vollständige Zufälligkeit gelöst und die Bildausgaberate verbessert.
  3. Probleme wie Reflexionen werden durch zweistufige Generierung gelöst. Die Bilder sind wunderschön und wirken hochwertig.
  4. Durch Löschrekonstruktion und Bildfusionstechnologie wird das Gratproblem am Rand des Produkts gemildert.
  5. Durch Extrahieren von Licht und Schatten aus der generierten Karte und deren Zuordnung zur Textur wird das Problem der Licht- und Schattendisharmonie gelöst.


Testeffekt



Online-Effekt


Die Bildausgaberate liegt bei über 95 %, praktisch jedes Bild kann angezeigt werden und die meisten Bilder können Schlägen standhalten. Auf der A10-GPU beträgt die Bildausgabegeschwindigkeit einer einzelnen Karte 3-5 Sekunden.


Nächster Schritt zum Erkunden

Auf den ersten Blick ist die Wirkung akzeptabel, es gibt jedoch noch Verbesserungspotenzial, wie zum Beispiel:


Wie kann der Generierungseffekt komplexer Poster weiter verbessert und die Okklusionsbeziehung erhöht werden?


Wie lässt sich das Problem des harmonischen Verhältnisses von Gütern und Hintergrund lösen? GLIGEN könnte die Antwort sein?


Texturen scheinen immer weniger algorithmisch zu sein. Gibt es eine Möglichkeit, die Fähigkeiten von VAE weiter zu verbessern oder VAE zu entfernen? Können Sie Consistency Decoder ausprobieren?


Schließlich hört die Erkundung nie auf und AIGC schläft nie.


Zitat


[1] IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
[2] Paint by Example: Exemplar-based Image Editing with Diffusion Models
[3] AnyDoor: Zero-shot Object-level Image Customization
[4] High-Resolution Image Synthesis with Latent Diffusion Models
[5] SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
[6] GLIGEN: Open-Set Grounded Text-to-Image Generation
[7]
https://github.com/openai/consistencydecoder


团队介绍

我们是大淘宝FC技术智能策略团队,负责手机天猫搜索、推荐、拍立享等业务研发和技术平台建设,综合运用搜推算法、机器视觉、AIGC等前沿技术,致力于依靠技术的进步支持场景的提效和产品的创新,为用户带来更好的购物体验。


¤  拓展阅读  ¤

3DXR技术 |  终端技术 |  音视频技术
服务端技术  |  技术质量 |  数据算法


本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

博通宣布终止现有 VMware 合作伙伴计划 deepin-IDE 版本更新,旧貌换新颜 WAVE SUMMIT 迎来第十届,文心一言将有最新披露! 周鸿祎:鸿蒙原生必将成功 GTA 5 完整源代码被公开泄露 Linus:圣诞夜我不看代码,明年再发布新版 Java 工具集 Hutool-5.8.24 发布,一起发发牢骚 Furion 商业化探索:轻舟已过万重山,v4.9.1.15 苹果发布开源多模态大语言模型 Ferret 养乐多公司确认 95 G 数据被泄露
{{o.name}}
{{m.name}}

Supongo que te gusta

Origin my.oschina.net/u/4662964/blog/10319793
Recomendado
Clasificación