AIGC ヴィンセント グラフ テクノロジーはどのようにして AI を「写真家」にしますか?

ダゲレオタイプは、837年にフランス人のルイ・ダゲールとジョゼフ・ニースフルールによって発明されました。
1839 年 8 月 19 日、フランス政府はその特許を購入し、この発明を「世界への無償の贈り物」であると宣言しました。
この重要な日を記念して、8 月 19 日は写真の芸術、工芸、科学、歴史を祝う世界写真デーに指定されました。

写真技術の発明から200年近くが経ち、さまざまな時代で無数の古典写真が保存され、人類の文明と写真史の発展と変遷を見守ってきました。

1825 年にはフランス人ニエプスが「ソーラー エッチング法」を発明し、巨大なオブスキュラを使って世界初の写真作品「馬を導く子供」を記録しました。

 

 

1839 年、カメラの父ダゲールがダゲレオタイプ写真を発明しました。彼の撮影機材には、カメラ、現像箱、薬品、金属板を研削するための道具などが含まれており、総重量は 50 キログラムでした。彼の作品「スタジオ コーナーのスタジオ」 「ダゲレオタイプ」は現存する最古の「ダゲレオタイプ」写真であり、世界初の静物写真でもあります。

1884 年、コダックの創設者イーストマンは世界初のネガフィルムを発明しました。フィルムの普及のため、1888年に「Kodak(コダック)No.1」カメラを発売し、小型カメラ発展の歴史を築いた。

 1975 年、コダックは世界初のデジタル カメラを製造し、デジタル イメージング技術の到来を告げました。

 2000年にシャープが世界初のカメラ付き携帯電話「J-SH04」を日本の共同事業者J-フォンで発売し、今ではほとんどの人がカメラ付き携帯電話を所有しており、ますますプロフェッショナルな機能が備わり、徐々に敷居が低くなり、カメラを使って何を記録するかが可能になりました。彼らは、いつでも、どこでも、生活の中で見て感じます。

写真技術の発展の歴史は、現在ではまさに PGC (Professional Generated Content) から UGC (User Generated Content) への進化過程ですが、テクノロジーの急速な反復により、写真は新たなレベルのAIGC (Artificial Intelligence Generated Content)へと押し上げられ、これは、世界の文化コンテンツ制作、芸術創作、デザイン業界に大きな推進力と影響を与えます。

2008 年に創設されたソニー フォトグラフィー アワードは、WPO (世界写真機関) が主催する唯一の世界的な写真コンテストであり、写真分野の権威を代表し、写真業界の発展を大いにリードしています。しかし、今年4月に閉幕した2023年の大会では、世間で激しい議論を巻き起こす事件が起きた。

今年のソニー・ワールド・フォトグラフィー・アワードのオープン・クリエイティブ部門で最優秀賞を受賞したのは、ドイツ人アーティストのボリス・エルダーグセン氏の「PSEUDOMNESIA | The Electrician」だった。しかし、受賞後、ボリスは複数のソーシャルメディアプラットフォームで受賞を公に拒否しており、その理由は驚くべきもので、この『PSEUDOMNESIA | The Electrician』、さらには『PSEUDOMNESIA』の「写真」全体もすべてAIによって生成されているという。

 AI が生成した写真の話題は、短期間で世界中のメディアの注目を集めましたが、ボリス氏はインタビューで次のように述べています。ディレクター。これは、ボタンを押すだけの問題ではありません。そして、それは完了しました。それは、プロセスの複雑さを探ることであり、テキスト プロンプトを洗練することから始めて、複雑なワークフローを開発し、プラットフォームとテクノロジーを混合することです。作成する作品は、プロセスが増えるほど、パラメーターを定義すればするほど、あなたの創造性はさらに高まります。」

いわゆる AI 写真は、テキストの説明を入力して対応する画像を生成する Text-to-Image Generation 技術を使用しており、AIGC の主な方向性の 1 つとして、コンテンツ制作やその他の分野での幅広い応用が期待されています。「AI撮影」では、人間がディレクターのような役割を果たし、あなたが望む「想い」を撮影監督に伝える責任を負い、撮影監督役のAIが「監督」のアイデアを現実にしていきます。 。2023 年、麗水写真祭(中国写真家協会と麗水市人民政府が共催する国際写真祭)は、初の AI イメージアート賞を創設し、世界的な収集、選考、展示会、フォーラムを通じてテクノロジーを活用することに尽力しています。 、中国の写真芸術分野におけるAIの普及を促進することを目的としています。

 

安定拡散は、革新的な画像生成方法と拡散アルゴリズム、ニューラル ネットワーク、ヒンティング技術を統合した最先端の画像生成方法です。安定した段階的な拡散プロセスとテキストヒントおよび微調整技術を組み合わせることで、高品質でクリエイティブな画像を生成できます。この手法は、芸術作品だけでなく、デザイン、メディアなどの分野でも大きな可能性を秘めています。テクノロジーの継続的な進化に伴い、ヴィンセント グラフは画像生成の分野でますます重要な役割を果たし、クリエイターにより多くの創造的なインスピレーションと可能性をもたらします。

画像生成は、コンピュータ ビジョンの分野で大きな関心を集めている注目のテーマです。ヴィンセングラフは、新しい生成方法として、拡散アルゴリズムを中心的なアイデアとして採用し、着実かつ段階的に画像を生成します。

拡散とは、物理学や化学の分野で一般的な、異なる領域間での物質の自発的移動のプロセスを指します。画像分野では、拡散アルゴリズムは定期的にノイズを追加または削除することで、画像のノイズ追加またはノイズ除去処理を実現します。ヴィンセン図では、このプロセスはピクセルのプロパティを徐々に変更することで画像生成に適用され、ユーザー プロンプトに関連した画像を生成します。この段階的な生成プロセスにより、画像の安定性と創造性が保証され、高品質の画像を生成するための信頼できるフレームワークが提供されます。

Vincent グラフのコア ネットワーク構造は、画像のセグメンテーションや処理タスクで一般的に使用される強力なニューラル ネットワーク アーキテクチャである Unet です。Unet の重要なアイデアは、入力画像を段階的に分解して再構築し、画像のノイズ除去と復元を実現することです。Vincent グラフでは、Unet を使用してユーザーのテキスト キューと画像特徴を組み合わせて、安定した方法で画像を生成します。このプロセスは技術的に難しいだけでなく、テキストと画像の関係をモデル化し、創造的な画像の生成を可能にします。

生成された画像の品質と関連性を向上させるために、ヴィンセント グラフには、主に CLIP (Contrastive Language-Image Pretraining) やその他の強化方法を含むヒンティング技術が導入されています。CLIP は、テキスト プロンプトを単語特徴ベクトル (埋め込み) に変換するテキスト エンコード アルゴリズムです。これらのベクトルはテキストのセマンティクスと特徴をキャプチャし、モデルがユーザーの手がかりを理解し、それらを画像生成プロセスに組み込むことができるようにします。このテキストによるヒントにより、生成された画像がユーザーの意図とより一致することが保証されます。

ビンセン図を生成するプロセスには、拡散ステップの設定も含まれます。段階的な拡散とノイズ除去のプロセスを通じて、モデルは画像の詳細と特徴を生成し、画像をノイズから徐々に浮かび上がらせます。さらに、Dreambooth、LoRA、埋め込み、ハイパーネットワークなどの微調整テクニックがいくつかあり、生成された画像の効果をさらに向上させることができます。これらのテクノロジーは、モデルのパラメータと構造を調整して、生成された画像を特定の絵画スタイルや特定の人物の特徴などの特定のニーズに合わせて作成します。

GPT-4 のリリースにより、マルチモーダル生成がそのハイライトの 1 つになりました。現在の拡散モデルはビジュアル作成の分野に革命をもたらしましたが、テキストから画像への単一のクロスモーダル機能のみをサポートしており、汎用の生成モデルにはまだ程遠いです。マルチモーダル大規模モデルの出現により、さまざまなモダリティ間の変換が実現すると予想されており、これが汎用生成モデルの将来の開発方向であると考えられています。

清華大学コンピューターサイエンス学部のZhu Jun教授率いるTSAILチームは、さまざまなモード間の分布を同時にモデル化できる革新的な確率モデリングフレームワークUniDiffuserを提案し、さまざまな生成タスクで大幅な改善を達成しました。テクノロジーのさらなる発展に伴い、マルチモーダル生成モデルは、画像、テキスト、その他のモダリティ間の創造的な変換の可能性をさらに高め、マルチフィールドのアプリケーションに新たな機会をもたらすことが期待されています。

 

近年、拡散モデルに基づくテキストから画像への生成が著しく進歩し、簡単な自然言語記述だけで高品質な画像を生成できる技術として、電子商取引や仮想現実、電子商取引などで広く利用されています。エンターテインメントやその他の分野。ただし、現在の事前トレーニング済みの大規模なグラフ生成テキスト モデルには、特定のオブジェクト、文字、またはシーンを制御可能に生成する機能がありません。大規模モデルの広範なアプリケーションでは、カスタマイズされた制御可能な生成が多くのアプリケーション分野で非常に重要です。グラフ生成テキスト大規模モデルがパーソナライズされた特定のオブジェクトの特性を生成し、編集可能性を維持できるように、少数の特定のオブジェクトのサンプルに基づいてアルゴリズムを設計する方法が重要な研究方向になっています。

2023 年の第 2 回広東・香港・マカオ大湾区 (黄埔) アルゴリズム計算コンテストが7 月 15 日に正式に開幕しました。そこでは、[効率的で信頼性の高いヴィンセント グラフ手法] が清華大学の Zhu Jun 教授のチームによって提案されました。パーソナライズされたキャラクター生成のための大規模なグラフ生成テキスト モデルに焦点を当て、競技者は、特定のキャラクター特性を生成して維持できると同時に、より柔軟な編集とトレーニングの軽減に努めながら、モデル チューニング アルゴリズムを開発する必要があります。課題は、特定のセマンティクスの下でパーソナライズされた画像コンテンツの生成と細かい生成制御を設計し、モデルのパーソナライゼーションと制御可能な生成技術における普及モデルの開発を促進することです。

 

コンテストは現在登録段階です。コンテストは世界に開かれています。革新的で AI アルゴリズムの計算に優れた基礎を備えている大学生、AI の関連企業や研究機関の実践者、製作者を心から招待します。コンテストに参加するにはフィールドを使用してください!

コンテストの紹介

広東・香港・マカオ大湾区(黄埔)国際アルゴリズム事例コンテストは、広州黄浦区政府の委託を受け、鷲州研究所(黄埔)が2022年に設立したアルゴリズム事例分野の国際コンテストです。デジタル経済分野における研究所の主導的役割を最大限に発揮し、大湾区におけるビッグデータと人工知能アルゴリズムのエコシステムの構築を促進することを目的としています。

 

このコンテストは、国家、広東・香港・マカオ大湾区、広州市、黄浦区のデジタルイノベーションと開発戦略に積極的に対応しており、デジタル経済と人工知能の発展において世界の最前線に位置しています。人工知能、モノのインターネット、クラウドコンピューティングおよびその他の新世代情報技術を活用し、主要な国家ニーズとこの分野の最先端技術の解決を目指し、スマートシティ、スマートヘルス、スマート製造、スマート金融およびその他の産業に焦点を当てています。 、全国向けに高品質のアルゴリズムを選択し、世界向けにビッグデータと人工知能の高精度技術を収集し、アルゴリズムの国際的なハイエンドの人材を魅了します。このコンテストは、賞金総額 1,000 万、シングルトラックボーナス最大 100 万 (チームの登録メンバーのみが賞金を受け取ることができます) を設定しており、人工音楽の分野で世界的に優れた才能とトップチームを誘致することを目指しています。インテリジェンスを高め、革新的な人工スマート産業クラスターのグループを育成および構築します。

コンテストの質問

この大会は、アリーナベースのトラック競技ベースのトラックの二重トラック競技システムを革新的に設定し、10の挑戦的な質問を凝縮し、出場者にマルチシナリオ、マルチフィールド、マルチ業界の競技コンテンツを提供し、産業を促進します。 -university-research 融合開発を利用します。

チャレンジコンテストの質問:

問題 1: 逐次タスクの継続的学習

問題 2: 言語拡張に基づく画像の新しいカテゴリの発見

質問 3: 効率的で信頼性の高いヴィンセン図法

質問 4: 大規模言語モデルの包括的な能力の強化

質問 5: クロスシーンの単眼奥行き推定

コンテストの質問:

問題 1: ニューラル暗黙的表現によるオブジェクトの 3D 再構成

質問 2: ビデオを見て話してください

質問 3: 路側ミリ波レーダーの校正と目標追跡

質問 4: 緊急多臓器および複数疾患のスクリーニング

質問 5: 高速モーション シーンでのビデオ フレーム補間

2023 年のコンテストのタイムライン

  • 7月15日~9月20日:大会参加登録開始および予選(予選は登録可能)
  • 9月21日~10月6日:事前評価
  • 10月7日以降:最終審査と最終評価
  • 11月上旬~中旬最終審査・結果発表
  • 12月:授賞式および賞品配布

エントリーのお知らせ

(1) コンテスト公式ホームページにログイン: https://iacc.pazhoulab-huangpu.com/contest/

コンテストのテーマ選択で、該当するテーマの「今すぐ登録」ボタンをクリックし、登録情報を送信するとコンテストに参加できます。

(2) 登録情報およびチーム情報が正確かつ有効であることを確認し、ラッパや偽名が判明した場合は、出場資格、成績、賞与を取り消します。

(3) 参加者:個人、高等教育機関、研究機関、メーカーチーム、企業等、社会全体が参加できるコンテストです。各トラックの各プレイヤーは1つの参加チームのみに参加でき、各チームは最大5人でチームを編成できます。

(4) 第 2 回広東・香港・マカオ大湾区(黄埔)アルゴリズム計算コンテストは全 10 問で、同一出場者(同一氏名、携帯電話番号、ID 番号)が複数のトラックに登録することができます。

注:コンペ形式のコンペ問題については、該当するコンペ支援部門(話題作成やデータ連絡など)の担当者は参加できず、また、他人に参加を委託することも禁止されています。大会には主催者の全社員(インターン含む)が参加可能ですが、参加できるのは予選、準決勝の順位のみで、防衛戦以降のステージには進めません。

参考文献

[1] Jianshu.世界写真デー丨世界写真発展史

[2]澎湃网. 観察丨写真家のAI写真賞拒否の裏側、AIはアートに何をもたらすのか

[3] マシンの心臓部 清華大学の Zhu Jun チームは、テキストとグラフィックスを書き換えた初の Transformer ベースのマルチモーダル拡散モデルをオープンソース化し、すべてが勝利しました


出典: アルゴリズム コンペティション センター

写真: この写真はインターネットからのもので、侵入され削除されました

文:張思月、王冰

編集者: Liu Kecheng Zhang Shiyue

初公判:徐興、王東

最終審査員:張海

Hejing はコンテストの発展を全面的にサポートし、出場者の良い結果を心から願っています。

おすすめ

転載: blog.csdn.net/ModelWhale/article/details/132544202