すごい!APDrawingのアップグレードバージョンは、数秒であなたの顔をラインポートレートに変えることができます


著者|高偉華

プロデュース| AIテクノロジーベースキャンプ

深層学習の発展に伴い、画像スタイル変換におけるGANモデルのアプリケーションがますます増えており、その多くが良好な結果を達成しています。

以前は、GANモデルハイブリッドに基づくredditのテクノロジーブロガーであるAtreveteTeTeは、通常のポートレート写真を漫画化し、多くのネチズムを魅了してきたFirst OrderMotionモデルを通じてアニメーションを生成していました。このような漫画風の肖像画の生成は、通常、単一の要素の高品質を必要としません。モデルのトレーニングでは、詳細の一部の欠如は無視されます。

しかし、開発者は最近、ラインアートポートレートを作成するために使用できるプロジェクトをGitHubでリリースし、深い学習に基づいてArtLineを開発しました。それによって作成されたラインポートレートは、詳細に驚くべきものです。

プロジェクトリンク:

https://github.com/vijishmadhavan/ArtLine

ArtLineを使い始める最も簡単な方法:

https://colab.research.google.com/github/vijishmadhavan/Light-Up/blob/master/ArtLine(Try_it_on_Colab).ipynb

芸術的な肖像画の線画に関して、清華大学は昨年、顔写真に基づいて高品質で表現力豊かな線画を効果的に生成できる階層型GANモデルAPDrawingGANを提案しました

ただし、APDrawingGANには顔の特徴の識別に制限があります。たとえば、ID写真に似た正面の写真を識別する場合、写真には明確な顔の特徴があり、顔にガラスや明らかなしわがないことが必要です。

ArtLineはこの制限を解決し、人の姿勢のあらゆる画像を認識できます。生成されたポートレートが顔、目、唇、鼻の周りの適切な線に到達するかどうかは、モデルに提供されるデータに完全に依存します。

APDrawingデータセットは主にクローズアップポートレートで構成されており、このモデルでは衣服や手などの色を変更することは困難です。したがって、ArtLineは、アニメスケッチカラーリングデータセットから選択した画像と組み合わせて、モデルが線の詳細をよりよく理解できるようにします。

ArtLineを使って瞬時に作成した映画ポスターです。

技術的実現

  • 自己注意GNN

ArtLineは、Self-Attention Generative Adversarial Network(SAGAN)ジェネレーターを使用します。これは、スペクトルの正規化と自己注意機能を備えた事前トレーニング済みのUNETであり、画像生成タスクに注意駆動型のリモート依存関係モデリングを提供できます。

従来の畳み込みGANは、低解像度のフィーチャマップ内の空間ローカルポイントの機能に従って高解像度の詳細を生成します。SAGANでは、すべての要素の場所からのヒントを使用して詳細を生成できます。また、ディスクリミネーターは、画像部分の詳細な特徴が一貫しているかどうかを確認できます。

さらに、最近の研究によると、ジェネレータの調整はGANのパフォーマンスに影響を与える可能性があります。このため、GANジェネレーターにはスペクトル正規化が適用され、トレーニングダイナミクスが向上します。

SAGANは、最も高度な結果を達成しました。挑戦的なImageNetデータセットでは、公開された開始スコアが36.8から52.52に増加し、フレシェ開始距離が27.62から18.65に減少しました。アテンションレイヤーの視覚的表示によると、ジェネレーターは、固定形状のローカル領域ではなく、オブジェクトの形状に対応する近傍を使用します。

  • GANは、品質、安定性、多様性を徐々に向上させます

ArtLineは、敵対的なネットワークを生成するために新しいトレーニング方法を使用します。重要なアイデアは、低解像度から新しいレイヤーを追加し、トレーニングが進むにつれて、ジェネレーターとディスクリミネーターを徐々に増やして、より詳細な詳細をモデル化することです。これにより、トレーニング速度が向上するだけでなく、生成される画像の品質も大幅に向上します。

ArtLineはトレーニング中に、画質や変更などのGAN結果を評価するための新しい指標を採用し、CelebAデータセットのより高品質なバージョンを構築しました。

  • ジェネレーター損失:VGG16に基づく知覚損失/機能損失。

高品質の画像を変換する場合、通常、出力画像と実際の画像の間のピクセルごとの損失を使用して、フィードフォワード畳み込みニューラルネットワークをトレーニングします。研究によると、事前にトレーニングされたネットワークから高度な機能を抽出し、知覚損失関数を定義および最適化することによって、高品質の画像を生成することもできます。

ArtLineは、これら2つの方法の利点を組み合わせて、知覚損失関数を使用して、画像変換タスク用のフィードフォワードネットワークをトレーニングします。最適化ベースの方法と比較して、ArtLineは同様の品質の画像変換結果を提供できますが、その生成速度は3桁高速です。単一画像の超解像度法の場合、実験により、ピクセルごとの損失を知覚的な損失に置き換える方が視覚的に快適であることが示されています。

現在、ArtLineには、ジェネレーターが写真の影と髪の毛を混同するなど、画像生成にいくつかの問題があります。さらに、500ピクセル未満の低品質の画像の場合、ArtLineの画像変換効果は良くありません。

紙のリンク:

https://arxiv.org/abs/1805.08318

https://arxiv.org/abs/1710.10196

https://arxiv.org/pdf/1603.08155.pdf

更多精彩推荐
☞谷歌知名前 AI 研究员无辜被裁,CEO:调查!
☞惨烈!上班摸鱼被老板张一鸣抓现场...... | 每日趣闻
☞苏宁回应股权质押给淘宝:正常合作;苹果App Store被越狱商店指控垄断;Docker 20.10.0发布|极客日报☞【官方福利】CSDN内测师限时申请,参与赢年末礼包

☞一文聊“图”,从图数据库到知识图谱
☞区块链赋能物流行业:“圈子文化”下,网络货运的数字化转型之路
点分享点点赞点在看

おすすめ

転載: blog.csdn.net/csdnsevenn/article/details/111055418