CVPR 2023 | Meituan 技術チームによる厳選された論文の解釈

この記事では、CVPR 2023 に含まれていた Meituan 技術チームの 8 つの論文を解釈のために選択します。これらの論文には、自己教師あり学習、ドメイン適応、連合学習などの一般的な学習パラダイムの技術的反復が含まれているだけでなく、ターゲット検出、追跡、セグメンテーション、低レベル視覚などの典型的な視覚タスクの実行も含まれています。 Meituan の基本的かつ一般的な技術と垂直技術における総合的な革新。これらの論文は、Meituan の技術チームと国内の多くの大学や科学研究機関との協力の成果でもあります。関連する研究活動に従事している学生たちに何らかのインスピレーションや助けをもたらすことを願っています。

dca5089b15fd45a0c2000f88ef74dc80.png

CVPR は、コンピュータ ビジョンとパターン認識に関する IEEE 会議、コンピュータ ビジョンとパターン認識に関する国際会議の略です。このカンファレンスは1983年に始まり、ICCV、ECCVと並んでコンピュータビジョン分野の三大カンファレンスと呼ばれています。Google Scholar が 2022 年に発表した最新の学術雑誌と学会の影響力ランキングによると、CVPR はすべての学術雑誌の中で Nature、NEJM、Science に次いで 4 位にランクされています。2023 年、CVPR は世界中から合計 9,155 件の論文の投稿を受け取り、最終的に 2,360 件の論文が受理され、受理率は約 25.78% でした。​​​​​​​​

| 01 分割と適応: カスタマイズされた学習によるアクティブなドメイン適応

論文著者: Huang Duojun (中山大学、美団インターン)、Li Jichang (香港大学)、Chen Weikai (Tencent-USA)、Huang Junshi (美団)、Chai Zhenhua (美団)、Li Guanbin (Sun)ヤッセン大学)

論文ダウンロードPDF

f7791d083dc1df29221908937297874a.png

論文紹介:この論文はハイライトペーパーに選ばれました。近年、ディープラーニングの改善を最大限に高めるために、ドメイン適応問題でのラベル付けのために、ラベルのないターゲットドメインデータ内のサンプルの最も有益な小さなバッチを選択する能動学習アルゴリズムを設計するアクティブドメイン適応が提案されています。ターゲット ドメイン データに対するモデルのパフォーマンスにより、効率的なラベル付け効率が実現します。実際のオープン シナリオでは、ターゲット ドメインのサンプルは、ソース ドメイン データとは異なる程度の区別性を持っています。つまり、ソース ドメインで初期化されたものとは異なるレベルの転送可能性を持っています。現時点では、異なる転送可能性を持つターゲット ドメイン サンプルの分類、高価値サンプルのサンプリング戦略の設計、およびカスタマイズされたドメイン適応トレーニング戦略について議論した研究はほとんどありません。

アクティブ ラーニングのサンプリング戦略を設計するために、ターゲット ドメインのサンプルとソース ドメイン データの違いとモデル予測の不確実性を考慮した分割統治戦略を提案し、カスタマイズされた目的関数を提案して、移動サンプルサブセットは、サンプリングの堅牢性をさらに実現します。実験の結果、教師なしドメイン適応 (UDA)、半教師ありドメイン適応 (SSDA)、パッシブ ドメイン適応 (SFDA) など、さまざまなドメイン適応シナリオで最先端のパフォーマンスを達成できることが示されています。

| 02 効率的な2次平面調整

論文著者:周立埔(美団)

論文ダウンロードPDF

18076c643fa5d9bc01b05a9c0751cd53.png

論文の簡単な紹介: この論文は、焦点論文 (ハイライト論文) として選ばれ、平面最適化問題のヘッセ行列の閉形式解を導出し、平面最適化問題に対する効率的な 2 次最適化アルゴリズムを提案しました。このアルゴリズムは、深度センサーの 3D 高精度再構成に広く使用できます。

平面は、RGB-D カメラや LiDAR などの深度センサーからの 3D 再構成によく使用されます。この論文では、最適な平面とセンサーの姿勢を推定する問題を研究します。この結果として生じる最小二乗問題は、文献では平面調整 (PA) として知られています。これらの最小二乗問題を解決するには、反復法がよく使用されます。一般に、ヘッセ行列の計算時間の複雑さのため、ニュートン法が大規模な最小二乗問題に使用されることはほとんどありません。代わりに、反復アルゴリズムでは通常、レーベンバーグ マルカート (LM) 法などのヘッセ行列を使用した近似が使用されます。この論文では、ニュートン法を使用して PA 問題を効果的に解決します。

具体的には、ポーズが与えられると、最適な平面に対する閉形式の解が存在します。したがって、そこから平面パラメーターを削除することができ、変数の数が大幅に削減されます。さらに、最適な平面はポーズの関数であるため、このアプローチでは実際に各反復で収束に適した最適な平面が得られることが保証されます。問題は、ヘッセ行列とその結果として得られる勾配ベクトルを効率的に計算する方法にあります。この記事では、効率的な解決策を紹介します。経験的な結果は、私たちのアルゴリズムが現在の SOTA アルゴリズムよりも優れていることを示しています。

| 03 AeDet: 方位不変のマルチビュー 3D オブジェクト検出

論文の著者: Feng Chengjian (美団)、Jie Zequn (美団)、Zhong Yujie (美団)、Chu Xiangxiang (美団)、Ma Lin (美団)

論文ダウンロードPDF

a9d32260afe39a5fea391abf1bc3a9f5.png

要約: 近年、畳み込みネットワークを通じて物体を検出するブリッドアイビュー (BEV) 空間において、鳥瞰図ベースの多視点 3D 物体検出技術が大きく進歩しました。ただし、従来の畳み込みでは BEV の特徴の放射対称性が無視され、検出器の最適化がさらに困難になります。BEV 特徴の固有の特性を保存し、モデルの最適化を容易にするために、方位角等変畳み込み (AeConv) と方位等変アンカーを提案します。方位角等変畳み込みのサンプリング グリッドは常に放射状であるため、方位角不変 BEV 特徴を学習できます。一方、方位角等変アンカーにより、検出ヘッドは方位角に関係なく物体を予測することを学習できます。

さらに、カメラを分離した仮想深度を導入して、さまざまなカメラ固有の画像の深度予測を統合します。結果として得られる物体検出器は、方位角等変検出器 (AeDet) と呼ばれます。nuScenes データセットで多視点 3D 物体検出実験を実施しました。方位角等変検出器は 62.0% の NDS を達成し、既存の多視点 3D 物体検出方法を大幅に上回りました。

| 04 マスクされた自動エンコーダーが敵対的生成ネットワークなどに対応

論文の著者: Fei Zhengcong (美団)、Fan Mingyuan (美団)、Zhu Li (美団)、Huang Junshi (美団)、魏暁明 (美団)、魏暁林 (美団)

論文ダウンロードPDF

55b433adb149833decdb234832fdfb9c.png

要約: マスク オートエンコーダー (MAE) 事前トレーニング メソッドは、画像パッチ (パッチ) をランダムにマスクし、マスクされていない画像パッチに基づいて元の画像のピクセルを再構築する視覚モデルをトレーニングします。これらは下流の視覚タスクでは優れたパフォーマンスを示しますが、通常、効果を発揮するには大量の計算が必要になります。このペーパーでは、敵対的生成ネットワーク (GAN) に基づく事前トレーニング フレームワークを紹介します。

具体的には、ジェネレーターによって予測された画像と元のマスクされた画像が連結され、識別器を使用して連結された各画像パッチが置き換えられるかどうかを予測します。実験の結果、私たちが提案した MAE-GAN フレームワークは、完全な画像に対する入力モデリングとフィードバックにより、元の MAE ピクセル再構成よりも優れたパフォーマンスを発揮することがわかりました。一方、主要なネットワークパラメータを共有することにより、私たちの方法は、同じモデルサイズ、データ、計算の下で MAE 方法よりも大幅に優れた視覚的表現を学習します。特に、ImageNet-1k で 200 エポックで事前トレーニングされた ViT-B モデルは、ダウンストリーム画像分類結果において、1600 エポックでトレーニングされた ViT-B MAE ベンチマークを上回ります。

| 05 フェデレーション最適化のための柔軟な集約

論文の著者: Chen Dengsheng (美団)、Hu Jie (美団)、Vince Junkai Tan、Wei Xiaoming (美団)、Wu Enhua (中国科学院ソフトウェア研究所)

論文ダウンロードPDF

8577349ac9359498e1d861e0c47ca916.png

論文の紹介: 人工知能のセキュリティの観点から、フェデレーテッド ラーニングは、データのプライバシーが漏洩しないことを前提として、モデルの共同トレーニングを完了することを目的としています。異なる端末デバイスのデータ分散には大きな違いがあるため、グローバル共有モデルは、ローカル データで最適化された後、ローカル データ分散状態に偏ることになります。私たちはこの現象を「クライアントドリフト」と呼んでいます。クライアント ドリフトが存在すると、最適化の初期段階でグローバル共有モデルの収束が遅くなり、最適化の後期段階ではより良い解決策に到達できなくなります。

我々は、上記の現象を軽減するための新しいパラメータ更新手法である Elastic Aggregation を提案します。エラスティック集約は、まず各端末デバイス上のラベルなしデータを使用して、結果に対する対応するモデル パラメーターの感度 (パラメーター感度) を計算します。次に、このパラメーターの感度を使用して、グローバル共有モデルで加重集約更新を実行します。弾性集約は、フェデレーテッド ラーニングでラベルなしデータを最大限に活用してモデルのパフォーマンスを向上させる最初の方法であり、他の既存のフェデレーテッド ラーニング最適化アルゴリズムに簡単に組み込むことができます。実験によれば、弾性集約手法により、フェデレーテッド ラーニング シナリオにおける視覚およびテキスト理解タスクのパフォーマンスが大幅に向上することが示されています。

| 06 RGB-T トラッキング用のテンプレートとのブリッジ検索領域の相互作用

論文の著者: Hui Tianrui (中国科学院情報工学研究所、美団インターン)、Xun Zizheng (北京航空航天大学)、Peng Fengguang (北京航空航天大学)、Huang Junshi (美団)、 Wei Xiaoming (美団)、Wei Xiaolin (美団)、Dai Jiao (中国科学院情報技術研究所)、Han Jizhong (中国科学院情報技術研究所)、Liu Si (北京航空航天大学)

論文ダウンロードPDF

05dfffd5ff876f8f83f3dd35ca51884b.png

論文の紹介: RGB-T トラッキングは、可視 (RGB) モダリティと熱赤外 (TIR) モダリティの相補的な強化機能を使用して、効果的なクロスモーダル インタラクションが重要な側面であるさまざまなシナリオでの単一ターゲット追跡を改善することを目的としています。メソッドデザインのリングです。これまでの研究では、RGB および TIR 検索領域の特徴を直接連結するか、孤立した RGB および TIR 候補ボックスのペアに対してモダリティ融合を実行するため、冗長なバックグラウンド ノイズが発生したり、局所領域で不十分なコンテキスト モデリングが発生したりしていました。

上記の制限を軽減するために、ターゲット関連のオブジェクトおよび環境コンテキストを収集および配布することで、RGB 検索領域と TIR 検索領域間のクロスモダリティをブリッジする媒体としてテンプレートを活用する、テンプレート ブリッジング検索インタラクション (TBSI) モジュールを提案します。元のテンプレートも、テンプレート メディエーターからの豊富なマルチモーダル コンテキストで更新されます。TBSI モジュールを ViT バックボーン ネットワークに挿入して、統合された特徴抽出、検索領域とテンプレートのマッチング、およびクロスモーダル インタラクションを実現し、3 つの主流の RGB-T 追跡データセットで既存の方法よりも優れたパフォーマンスを実現します。

| 07 視覚言語ナビゲーションのための適応型ゾーン認識階層プランナー

論文著者:Gao Chen (北京航空航天大学、美団インターン)、Peng Xingyu (北京航空航天大学)、Yan Mi (北京大学)、Wang He (北京大学)、Yang Lirong (美団)、 Ren Haibing (美団)、Li Honsheng (香港中文大学)、Liu Si (北京航空航天大学)

論文ダウンロードPDF

c3033f5cf4722c17ef00969c7b611c83.png

要約: この研究は、視覚言語ナビゲーション (VLN) タスクに焦点を当てています。エージェントのナビゲーション中に、一連のサブ目標を適応的に設定して達成する必要があります。ただし、以前の方法では、単一ステップの計画スキームが採用されています。つまり、各ステップでナビゲーション アクションを直接実行します。この研究では、適応型ゾーン認識階層プランナー (AZHP) を提案します。これは、ナビゲーション プロセスを 2 つの異種フェーズ、つまりパーティション/選択 (高レベル アクション) とサブゴールの実行 (低レベル アクション) に明示的に分割します。 . -レベル アクション) を使用して階層的な計画を立てます。

具体的には、AZHP は状態切り替えモジュール (SSM) を通じて 2 レベルの操作を非同期に実行します。高レベルのアクションについては、ナビゲーション領域全体を異なるサブ領域に適応的に分割するシーン認識適応ゾーン パーティション (SZP) 方法を提案します。ターゲット ゾーン選択 (GZS) メソッドを通じて、現在のサブターゲットに適切なゾーンが選択されます。低レベル アクションの場合、エージェントは選択された領域で複数ステップのナビゲーション決定を実行します。さらに、AZHP フレームワークをトレーニングするための HRL 戦略と補助的な監督を提案します。実験では、複数の VLN データセット (REVERIE、SOON、R2R) で最適なパフォーマンスを達成する、提案手法の優位性を実証しています。

| 08 PosterLayout: コンテンツを意識したビジュアルテキストプレゼンテーションレイアウトの新しいベンチマークとアプローチ 

論文著者: Xu Xiaoyuan (北京大学、美団インターン)、He Xiangteng (北京大学)、Peng Yuxin (北京大学)、Kong Hao (美団)、Zhang Qing (美団)

論文ダウンロードPDF

174108195a0e52edf8cca692fa6d9a0a.png

論文の紹介: グラフィック表示のレイアウト生成は、特定の画像キャンバス上で要素 (広告テキスト、アイコン、素材など) の空間的位置を自動的に配置することを目的としており、広告デザインにおける厳密な事前定義テンプレートを置き換えることができます。レイアウト生成に関する既存の作業では、画像キャンバスとレイアウトの相互関係が無視されているため、両者の互換性が困難になります。

この目的を達成するために、本稿ではまず、ソースドメインの多様性、テーマの多様性、レイアウトの複雑さの3つの側面から切り込み、グラフィック表示レイアウトデータセットと評価ベンチマークPosterLayoutを確立し、デザインシーケンスGAN(Design Sequence GAN)を提案します。人間の経験によるデザイン シーケンス形成アルゴリズムは、暗黙的な時間情報を使用してレイアウトをデザイン シーケンスに自動的に再編成し、キャンバス イメージの視覚的特徴を初期状態として使用して人間のデザイン動作をシミュレートし、キャンバスのコンテンツと互換性のあるレイアウトを自動的に生成します。レイアウト。実験結果では、新しいベンチマークと新しい手法の有効性が検証され、既存の手法を超えるパフォーマンスが達成されました。このアルゴリズムは論文が受理される前に適用および開始されており、美団アプリのホームページ上の広告マッピングなどのシナリオに実装されています。

- - - - - 終わり - - - - -

 美団科学研究協力 

美団の科学研究協力は、美団の技術チームと大学、科学研究機関、シンクタンクとの協力のための架け橋とプラットフォームを構築することに尽力しており、美団の豊富なビジネスシナリオ、データリソース、現実の産業問題に依存して、オープンイノベーションで上昇力を集めています。 、ロボット、人工知能、ビッグデータ、モノのインターネット、無人運転、運用の最適化などの分野に焦点を当て、最先端の技術と業界が焦点を当てたマクロ課題を共同で探索し、産学研究協力と交流と成果の変革を促進します。そして、優れた人材の育成を促進します。将来に向けて、私たちは大学や研究機関のより多くの教師や学生と協力できることを楽しみにしています。教師と生徒は、[email protected] まで電子メールを送信してください。

 推奨読書 

  |  KDD 2022 | Meituan 技術チームによる厳選された論文の解釈

  |  ACM SIGIR 2022 | Meituan 技術チームによる厳選された論文の解釈

  |  CVPR 2022 | Meituan 技術チームによる厳選された論文の解釈

- - - - - 終わり - - - - -

おすすめ

転載: blog.csdn.net/MeituanTech/article/details/131238369