101 の CV モデルがまとめてオープンソース化され、視覚的な AI による魔法コミュニティの詳細な分析が行われます。

著者: Xie Xuansong 達磨学院オープンビジュアルインテリジェンスチーム

11月3日、2022 Yunqi Conferenceにおいて、アリババDAMO研究所とCCFオープンソース開発委員会は共同でAIアプリケーションの敷居を下げることを目的としたAIモデルコミュニティ「Magic Build」ModelScopeを立ち上げました。

AI モデルは比較的複雑で、特に業界のシナリオに適用する場合は再トレーニングが必要になることが多く、そのため AI は少数のアルゴリズム担当者の手に渡るだけとなり、普及するのは困難です。そして、新しく立ち上げられた ModelScope は、魔法のコミュニティであり、Model as a Service (サービスとしてのモデル) の新しい概念を実装し、特定のシナリオに合わせて少し調整するだけですぐに使用できる、事前トレーニングされた基本モデルを多数提供します。 。

Dharma Academy は、300 を超える検証済みの高品質 AI モデルを Mota コミュニティに提供することに率先して取り組みました。その 1/3 以上は中国のモデルであり、完全にオープンソースでオープンであり、モデルを直接利用可能なサービスに変えます。コミュニティのオープンソース モデルの最初のバッチには、視覚、音声、自然言語処理、マルチモダリティなどの AI の主な方向性が含まれており、60 以上の主流タスクをカバーする科学向け AI などの新しい分野を積極的に探索していますモデルは専門家によってスクリーニングおよび検証されており、150 を超える SOTA (業界をリードする) モデルと 10 を超える大規模モデルが含まれており、完全にオープンソースで公開されています。

この記事では、Alibaba Dharma Academy のオープン ビジュアル インテリジェンス責任者である Xie Xuansong 氏が、Mota コミュニティの 101 個のオープンソース ビジュアル AI モデルの最初のバッチを詳しく分析しました。


コンピューター ビジョンは人工知能の基礎であり、最も広く使用されている AI テクノロジーでもあり、日常生活で携帯電話のロックを解除するために使用される顔認識から、最先端の自動運転に至るまで、ビジュアル AI はその才能を発揮してきました。ビジュアルAIの研究者としては、ビジュアルAIの可能性はまだ十分には発揮されておらず、研究者の力を尽くしてもカバーできる業界やシナリオは限られており、社会全体のニーズに応えるには程遠いと感じています。

そこで、AI モデル コミュニティである ModelScope で、達磨アカデミーが開発したビジュアル AI モデルを完全にオープンソース化することにしました。最初のバッチは 101 に達し、そのほとんどが SOTA であるか、実際にテストされています。私たちは、より多くの開発者がビジュアル AI を利用できるようにし、AI が人類社会の進歩の原動力の 1 つになることを期待しています。

Magic Building コミュニティのアドレス:modelscope.cn

1.まとめ:人間中心のビジュアルAI

長年にわたり、Dharma Academy はアリババの基礎科学研究機関および人材の宝庫として、アリババの大規模なビジネス シナリオにおける優れたビジュアル AI 機能のバッチを開発し、さまざまなリンクで配布してきました。

 

これらのビジュアルAI技術は、理解から生成までほぼすべてをカバーします。視覚テクノロジーのタスクは多数あるため、モダリティ、オブジェクト、機能、シーンなどのいくつかの側面から分割できる、比較的合理的な分類方法が必要です。

Mota コミュニティによってリリースされた主要なビジュアル タスク モデルの最初のバッチであるこれらのモデルには、学術的かつ革新的な SOTA テクノロジーと実績のある戦闘モデルの両方が含まれており、「機能/タスク」の次元から共通の認識、理解、生産をカバーしています。カテゴリ:

映像技術は少し複雑ですが、実は「物」の研究という核があり、常に最も重要な「物」は「人」でした。「人間中心」のビジュアル AI テクノロジーは、最も古く、最も奥深く、最も広く使用されているテクノロジーでもあります。まずは人物の写真から始めます。AIはまず、写真に誰が写っているのか、どのようなアクションがあるのか​​、画像を抽出できるかどうかなど、写真や画像を理解する必要があります。次に、写真の品質は何なのか、もっと良くできるのか、写真の中の人物はもっと美しくなれるのか、あるいは漫画の人物やデジタルの人物などになれるのかなど、さらに検討する必要があります。

上記の7つの「人」に関わるプロセスは、視覚作業における「理解」「強化」「編集」を基本としています 当センターのビジョンテクノロジーの特徴、メリット、事例、応用例を紹介します。

2.知覚理解モデル

2.1 写真からポートレートを切り出す

モデル名:BSHMポートレートマット

体験リンク:

https://www.modelscope.cn/models/damo/cv_unet_image-matting/

写真から人物を切り出したり、背景を除去したりすることは非常に一般的な要求であり、「PS」の基本操作の 1 つですが、従来の手動操作では時間と労力がかかり、結果も良くありません。Mota が提供するポートレート マッティング モデルは、 生え際レベルでの細かいセグメンテーションを実現できる、全自動のエンドツーエンドのポートレート マッティング モデルです。

また、テクノロジーの革新も行っており、大量の細かくラベル付けされたデータに基づいてトレーニングされる他のモデルとは異なり、私たちのモデルは、粗いラベル付けされたデータを使用して、低いデータ要件と高精度で微細なマット化を実現できます。

具体的には、モデル フレームワークは、粗マスク推定ネットワーク (MPN)、品質統一ネットワーク (QUN)、および正確なアルファ マット推定ネットワーク (MRN) の 3 つの部分に分かれています。まず、粗セグメンテーション (MPN)、次に細かいセグメンテーション (MRN) という複雑な問題を分解します。学術界には簡単に入手できる大まかなセグメンテーション データが大量にありますが、粗いセグメンテーション データと細かいセグメンテーション データの間に不一致があると、予想される GAP が大きくなることにつながるため、高品質のユニファイド ネットワーク (QUN) を設計しました。MPN の目的は、粗い意味情報 (粗いマスク) を推定し、粗いラベル データと細かいラベル データを使用して一緒にトレーニングすることです。QUNは粗マスクの品質を標準化するための品質統一ネットワークであり、MPNが出力する粗マスクの品質を統一することができます。MRN ネットワークは、元の画像と QUN によって正規化された粗いマスクを入力し、正確なアルファ マットを推定し、正確なラベル付きデータを使用してトレーニングします。

もちろんマット化やセグメンテーションに対するニーズは多岐にわたり、ノンポートレートマット化やビデオマット化に対応したモデルもシリーズ化しています。デザイナーによる写真の切り抜き支援や、デザイン効率を大幅に向上させるワンクリック切り抜き、会議や証明写真の仮想背景を実現する背景を自由に変更できるなど、開発者はすぐに利用できます。 、タイムトラベルなどの効果。これらは、Ali の自社製品 (Dingding ビデオ会議など) やクラウドの顧客によっても広く使用されています。

2.2 人体のキーポイントと動作認識

モデル名:HRNet人体要所-2D

体験リンク:

https://www.modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/

 

このタスクでは、トップダウンの人体キー ポイント検出フレームワークが使用されており、画像内の 15 個の人体キー ポイントは、エンドツーエンドの高速推論によって取得できます。その中で、人体のキーポイントモデルは改良されたHRNetのバックボーンに基づいており、マルチ解像度機能を最大限に活用して日常の人体の姿勢をより適切にサポートし、COCOのAPおよびAR50でより高い精度を実現します。同時に、スポーツやフィットネスのシナリオ、特にヨガ、フィットネス、その他のマルチオクルージョン、一般的でない、複数のうつ伏せの姿勢や SOTA 検出精度を伴うその他のシーンにも最適化しました。 

さまざまなシナリオにより適切に適用するために、次の最適化を続けます。

  • 一般的なシナリオの大規模モデルは、指標の点で SOTA パフォーマンスを達成します。

  • モバイル端末に展開される小型モデルの場合、メモリ使用量が少なく、動作が速く、パフォーマンスが安定しており、千元マシンで 25 ~ 30FPS に達します。

  • ヨガ、縄跳び、腹筋運動、腕立て伏せ、ハイレッグリフト、その他の体力計測および採点シナリオ (多重咬合姿勢、珍しい姿勢、複数寝姿勢など) に対して徹底的な最適化が行われています。アルゴリズムの精度と精度を向上させるため。

このモデルは、Ali Sports Music Power、DingTalk Sports、Fitness Mirror などの AI スポーツフィットネスやスポーツテストのシナリオで広く使用されています。3D キーポイント検出や 3D 人体再構築などのシナリオにも適用できます。

2.3 概要

「人」に関する上記の 2 つのモデルは、どちらも知覚と理解のカテゴリーに属します。まず世界を知り、次に世界を変革します。認識と理解のビジョン テクノロジは、最も基本的で最も広く使用されているモデル カテゴリです。また、認識、検出、セグメンテーションの 3 つのサブカテゴリに分けることもできます。

  • 認識/分類は、視覚 (画像、ビデオなどを含む) テクノロジーにおける最も基本的かつ古典的なタスクであり、生物が目を通して世界を理解するための最も基本的な能力でもあります。簡単に言うと、画像データのセットに特定のオブジェクト、画像の特徴、動きの状態が含まれているかどうかを判断し、画像やビデオに記述されているオブジェクトと内容が何であるかを把握します。さらに、より詳細な次元の情報、または非エンティティ オブジェクトの説明的なラベルを知る必要があります。

  • オブジェクト検出のタスクは、視覚コンテンツ内で関心のあるオブジェクト (オブジェクト) を見つけ出し、その位置とサイズを決定することであり、マシン ビジョンの分野における中心的な問題の 1 つでもあります。一般に、位置特定されたターゲットも同時に分類および識別されます。

  • セグメンテーションは視覚タスクのもう 1 つの中心的なタスクであり、認識や検出と比較してさらに一歩進んで、「各ピクセルがどのオブジェクトまたはシーンに属するか」という問題を解決します。これは、画像をいくつかの特定かつ固有の領域に分割し、関心のあるターゲットを提案するテクノロジーとプロセスです。

Mota コミュニティは、AI 開発者が試用できる豊富な知覚および理解モデルを公開しました。

2.4 イースターエッグ: DAMO-YOLO を初リリース

モデル名:DAMOYOLO-高性能ユニバーサル検出モデル-S

体験リンク:

https://www.modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary

 

一般物体検出はコンピュータ ビジョンにおける基本的な問題の 1 つであり、非常に幅広い用途があります。DAMO-YOLOは、Aliが立ち上げた新しいターゲット検出フレームワークで 、モデルの速度と精度を考慮しており、その効果は現在のYOLOシリーズの手法を上回り、推論速度も高速です。DAMO-YOLO は、効率的なトレーニング戦略と便利で使いやすい導入ツールも提供しており、開発者が産業実装における実際的な問題を迅速に解決するのに役立ちます。

DAMO-YOLO は、ユーザーがハードウェアのコンピューティング能力に応じて低コストの検出モデルをカスタマイズし、ハードウェアの利用効率を向上させ、より高い精度を得ることができる TinyNAS テクノロジーを導入しています。さらに、DAMO-YOLO は、検出モデルの首と頭の構造設計、トレーニング中のラベル割り当てやデータ拡張などの重要な要素も最適化します。一連の最適化により、DAMO-YOLO の精度はレイテンシーの厳しい制限のもとで大幅に向上し、YOLO フレームワークの新しい SOTA となりました。

3.基礎となるビジュアルモデル

3.1 写真のノイズ除去とブラー除去

モデル名: NAFNet 画像ノイズ除去

体験アドレス:

https://www.modelscope.cn/models/damo/cv_nafnet_image-denoise_sidd/

 

撮影環境や機材、操作などにより画質が悪い場合がありますが、このような画像のノイズを除去したり、ボケを修復したりするにはどうすればよいですか?このモデルは画像復元の分野で優れた一般化が可能であり、画像のノイズ除去タスクと画像のブレ除去タスクの両方が現在の SOTA に到達しています。技術革新により、このモデルではアクティベーション関数が単純な乗算演算に置き換えられ、パフォーマンスに影響を与えることなく処理速度が向上します。 

モデルの正式名は NAFNet ノイズ除去モデル、つまり非線形活性化フリー ネットワーク (Nonlinear Activation Free Network) です。これは、一般的な非線形活性化関数 (Sigmoid、ReLU、GELU、Softmax など) が必要なく、使用できることを証明しています。除算は乗算アルゴリズムに置き換えられるか、移動されます。このモデルは、CNN 構造の設計における重要な革新です。

このモデルは、スマートフォン画像のノイズ除去、画像のモーション ブラーの除去など、多くのアプリケーションの前段階として使用できます。

3.2 写真の復元と補正

モデル名:GPENポートレート強化モデル

体験アドレス:

https://www.modelscope.cn/models/damo/cv_gpen_image-portrait-enhancement/

写真のノイズ除去に加えて、写真の品質 (解像度、細部のテクスチャ、色など) についてはより高度な処理要件が必要になります。また、入力で検出された各ポートレートに使用できる特別なポートレート強化モデルもオープンしました。画像を修復および強化し、RealESRNet を使用して画像内の非ポートレート領域を 2 倍の超解像度にし、復元後に最終的に完全な画像を返します。このモデルは、現実世界の最も複雑な劣化に確実に対処し、ひどく損傷した肖像画を修復できます。 

効果の観点から見ると、GPEN ポートレート強化モデルは、事前トレーニング済みの StyleGAN2 ネットワークをデコーダーとして完全なモデルに組み込み、最終的に微調整を通じて復元機能を実現し、多くの指標で業界をリードする結果を達成しています。将来的には、高解像度の顔の処理をサポートする 1024、2048 およびその他の事前トレーニング済みモデルを追加し、モデル効果の更新と反復を継続する予定です。アプリケーションの観点から見ると、このモデルは古い家族写真や有名人の古い写真を復元したり、携帯電話の夜景で撮影した低品質の写真を修復したり、古いビデオのポートレートを復元したりすることができます。

3.3 概要

根底にあるビジョンは画質の問題に焦点を当てています。生き物(人間も含む)である以上、光や影による細部、形、色、滑らかさなどに敏感であり、高画質な画像を追求するのは当然のことです。ここでビジョン AI が役に立ちます。

タスクの分類から、シャープネス(解像度/ディテール、ノイズ/スクラッチ、フレームレート)、カラー(明るさ、色かぶりなど)、シミ補正(肌質の最適化、透かし字幕の除去)などに分けることができます。 .、次の表に示すように:

4番目に、生成されたクラスモデルを編集します

4.1 もっと美しくなる

モデル名: ABPN ポートレートビューティー

体験アドレス:

https://www.modelscope.cn/models/damo/cv_unet_skin-retouching/

人々は、背の高い、低い、太っている、痩せているなど、シミ、色、シミなどを含む写真やポートレートの美学に対して厳しい要求を持っています。今回、プロレベルのポートレートスキンや液状化などのモデルを誰でも使えるように公開しました。

このモデルは、適応ブレンディング レイヤーを使用して画像の局所的な正確なレタッチを実現する、新しい適応ブレンディング モジュール ABM を提案します。さらに、ABMに基づいてブレンドレイヤーピラミッドを構築し、超高精細画像の高速レタッチを可能にします。ABPN は既存の画像修正方法と比較して、修正の精度と速度が大幅に向上しました。ABPN ポートレート肌美化モデルは、ポートレート肌美化タスクにおける ABPN モデルの特定のアプリケーションです。

例えば: 

さらに一歩進んで、しわの除去など、衣類に対していくつかの興味深い試みを行うこともできます。

痩身美人でも:

https://www.modelscope.cn/models/damo/cv_flow-based-body-reshaping_damo/

効果面では以下のような特徴があります。

  • 部分的な修正。対象領域のみが編集され、非対象領域は変更されません。

  • 精密なレタッチ。ターゲット自体のテクスチャの特徴とグローバル コンテキスト情報を十分に考慮して、正確な修正を実現し、肌自体のテクスチャを保持しながら傷を除去します。

  • 超高解像度処理能力。混合層ピラミッド設計により、超高解像度映像(4K~6K)に対応。

写真スタジオや広告などプロのレタッチ分野での生産性向上や、ライブエンターテイメントシーンでのポートレート写真の肌質感向上など、実用性の高いモデルです。

4.2 漫画にする

モデル名: DCT-Net ポートレート漫画モデル

体験アドレス:

https://www.modelscope.cn/models/damo/cv_unet_person-image-cartoon_compound-models/

ポートレート漫画化は非常にインタラクティブなゲームプレイであり、さまざまなスタイルから選択できます。Mota のオープン ポートレート漫画モデルは、まったく新しいドメイン キャリブレーション済み画像翻訳ネットワーク DCT-Net (ドメイン キャリブレーション済み翻訳) に基づいて実装されており、「最初にグローバルな特徴キャリブレーションを行い、次にローカル テクスチャ変換を行う」という中心的なアイデアを採用しています。 100 個の小さなサンプル スタイル データを使用して、軽量で安定したスタイル コンバーターをトレーニングして、忠実度が高く、堅牢で、拡張しやすい高品質のポートレート スタイル変換エフェクトを実現できます。

例えば: 

効果の観点から:

  • DCT-Net には高忠実度のコンテンツ マッチング機能があり、元の画像コンテンツ内のキャラクター ID、アクセサリー、体の部位、背景、その他の詳細を効果的に保持できます。

  • DCT-Net は複雑なシーンに対して強力な堅牢性を備えており、顔のオクルージョンや珍しいポーズなどを簡単に処理できます。

  • DCT-Netは処理次元やスタイル適応の拡張が容易で、頭部データを利用して全身画像・全身画像の洗練されたスタイル変換まで拡張できると同時に、汎用性も備えたモデルです。日本の漫画風、3D、手描きなどのスタイルの変換に適しています。

将来的には、一連の漫画化もオープンする予定です。画像変換に加えて、フォローアップには、画像、ビデオ、3D 漫画化などの一連のエフェクトが含まれる予定です。最初にいくつかのエフェクトを見てみましょう:

4.3 概要

このタイプのモデルは、ソース画像コンテンツの編集と処理 (コンテンツの追加、コンテンツの削除、コンテンツの変更など)、または新しいビジュアル コンテンツの直接生成、スタイルの変換、新しい画像の取得 (ベースの画像) など、画像コンテンツを変更します。ソース画像と異なるもの)はすべて編集と生成のカテゴリに属し、A 画像から B 画像を取得するプロセスとして理解できます。

5.業界シナリオモデル

冒頭でも述べたように、ビジュアルAI技術の価値は幅広いシーンに存在しており、上記の「人」に関するビジュアルAI技術に加え、インターネット、産業、相互エンターテインメント、メディア、セキュリティ、医療などの実戦モデルが多数あり、これらのモデルはすぐに使用することも、微調整トレーニングや自己学習ツールに基づいてさらに加工・改良することもでき、開発者や顧客の特定のシナリオで使用されます。以下に例を示します。

機種名:煙検知器(一体型)

モデル機能:屋外および屋内の炎検知および煙検知、森林、都市道路、公園、寝室、オフィスエリア、キッチン、喫煙所などに使用できます。アルゴリズムはほぼ2年かけて磨き上げられ、実用化されています。複数の顧客シナリオにおいて、全体的な効果は比較的安定しています。

技術的な観点から見ると、このモデルはマルチフレーム検出精度を向上させるための Correlation ブロックを提案しており、その設計データ強化方法により、誤検知を効果的に制御しながら認識感度が向上します。アプリケーションの面では、このモデルは屋内および屋外のさまざまなシーンに適用でき、モデルの機能を実現するには携帯電話の撮影や監視カメラなどの簡単な機器のみが必要です。

6.結論: Visual AI の開かれた未来

以上の分析から、ビジュアルAIの応用可能性は非常に広く、社会ニーズも極めて多様であるものの、ビジュアルAIの供給能力は非常に限られているのが現実です。

ダーマアカデミーは、ModelScopeよりも先にビジュアルAIサービスをAPI形式でオープン化し、AI開発者にパブリッククラウドプラットフォームを通じたワンストップのビジュアルオンラインサービスプラットフォーム、すなわちビジュアルインテリジェンスオープンプラットフォーム(vision. aliyun.com)、その中で、前述の「人間中心」のビジョン技術だけでなく、基本ビジョン、業界ビジョンなどを網羅する200以上のAPIが公開されています。 

これは、オープン ビジュアル プラットフォームから Mota コミュニティへ、Dharma Academy のビジュアル AI のオープンがさらに大きな一歩を踏み出したことを意味します。OpenAPI から OpenSDK および OpenSOTA まで、パブリック クラウドからデバイスとクラウドのコラボレーションまで、プラットフォームからコミュニティまで、ビジュアル AI に対するさまざまな業界のニーズに応え、ビジュアル AI のエコロジカルな発展を促進したいと考えています。

おすすめ

転載: blog.csdn.net/AlibabaTech1024/article/details/128034323#comments_27249308