Tencent Youtu がトップの人工知能会議 AAAI 論文に選ばれました -- 10 論文

人工知能分野のトップ国際会議であるAAAI 2020が、2月7日から2月12日まで米国ニューヨークで開催されます。近年、人工知能の台頭に伴い、AAAI が開催する年次学術会議の人気が高まり、学界や産業界から多数の研究者や開発者が会議に貢献し、参加しています。

AAAI2019 を例にとると、論文投稿数は 7,745 に達し、この年の AAAI の歴史の中で過去最高を記録しました。AAAI 2020 は、他のトップ カンファレンスと同様にさらに人気が高く、カンファレンスから送信された公式通知メールによると、最終的に 8,800 の有効な論文が受領され、1,591 の論文が採択され、採択率はわずか 20.6% でした。

人工知能の分野で最も古く、最も大規模な学術会議の 1 つとして、会議論文は AI と機械学習のすべての分野をカバーしており、従来の関心トピックには自然言語処理、深層学習などが含まれますが、これらに限定されません。 AI+産業応用など、技術分野の話題。

今回、Tencent Youtu Lab により、迅速な計算と修正、ビデオ認識などを含む合計 10 の論文が選択されました。

以下、詳しい解釈です

1.ビデオベースの人物再識別のための時間的および意味的レベルからの時間的ドメイン融合の再考(口頭)

Rethinking Temporal Fusion for Video-basedPerson Re-identification on Semantic and Time Aspect (口頭)

キーワード: 人物の再識別, 時間的および意味的, 時間的融合

ダウンロードリンク: https://arxiv.org/abs/1911.12512

近年、人物再識別(ReID)の分野での研究が深まり続けており、映像情報全体を集約して人体の特徴を取得する手法に注目する研究者が増えています。ただし、既存の人物再識別方法は、異なる深さで畳み込みニューラル ネットワークによって抽出される情報のセマンティック レベルの違いを無視するため、最終的なビデオ機能の表現能力が不十分になる可能性があります。また、従来の手法では、映像特徴抽出時にフレーム間の関係を考慮していないため、時系列融合によって映像特徴を形成する際に情報が冗長になり、重要な情報が希薄化してしまいます。

これらの問題に対処するために、このペーパーでは、フレーム情報を意味レベルと時間レベルの両方で集約する、斬新で一般的な時間融合フレームワークを提案します。セマンティック レベルでは、このホワイト ペーパーでは、マルチステージ アグリゲーション ネットワークを使用して複数のセマンティック レベルでビデオ情報を抽出し、最終的に得られた特徴がビデオ情報をより包括的に表現できるようにします。時間レベルでは、この論文は、既存のフレーム内注意メカニズムを改善し、フレーム間注意モジュールを追加し、フレーム間の関係を考慮することにより、時間融合における情報の冗長性を効果的に削減します。

実験結果は、この論文の方法がビデオベースの歩行者認識の精度を効果的に改善し、これまでで最高のパフォーマンスを達成できることを示しています。

2. クイック計算修正における構造化テキストの認識

算術演習の修正のための正確な構造化テキスト スポッティング

キーワード: 迅速な計算と修正、計算の検出と認識

算数の宿題の添削は、小中学校の教員の負担の大きい作業であり、その負担を軽減するために、本論文では、画像上のすべての算術式の正誤を自動的に評価するシステム「算数宿題チェッカー」を提案します。主な課題は、算術式が特殊な書式 (複数行、分数など) を持つ印刷されたテキストと手書きのテキストの混合で構成されることが多いことです。この課題に直面して、従来の迅速な計算修正スキームは、実際のビジネスで多くの問題を露呈しました。この論文では、アルゴリズムの検出と認識の 2 つの側面における実際的な問題の解決策を提案します。アルゴリズム検出における不正なアルゴリズム候補の問題に照準を合わせて,本論文はアンカーボックスフリー検出法CenterNetに基づいて,水平エッジ焦点のための損失関数をさらに設計した。CenterNet は、オブジェクトの 2 つのコーナー位置をキャプチャすることによって式オブジェクトを特定し、同時にオブジェクト内の情報を補足として学習し、「中空」オブジェクトの生成を回避し、式検出タスクでより優れた適応性を備えています。横のエッジに注目した損失関数は、計算式の左右の端で生成しやすく、見つけにくい位置に損失更新をさらに集中させることで、合理的ではあるが不正な計算式の候補を生成しないようにします。この方法では、検出の再現率と精度が大幅に向上します。アルゴリズム認識フレームに関して、無意味なコンテキスト情報が認識結果に干渉するのを避けるために、コンテキストゲート関数に基づく認識方法が本論文で提案されています。この方法では、ゲート関数を使用して、画像表現とコンテキスト情報の入力重みのバランスを取り、認識モデルにさらに多くの画像表現を学習させ、無意味なコンテキスト情報が認識結果に干渉するのを回避します。

3. 密な境界生成器に基づく時間アクション指名の高速学習

密な境界生成器による時間的行動提案の高速学習

キーワード: DBG アクション検出方法、アルゴリズム フレームワーク、オープン ソース

ダウンロードリンク: https://arxiv.org/abs/1911.04127

ビデオ動作検出技術は、ハイライト ビデオの収集、ビデオ 字幕の生成、および動作認識などのタスクの基礎であり、インターネットの急速な発展に伴い、業界でますます広く使用されています。複雑なビデオ シーンとアクションの長さの大きな違い。

これらの課題に対応して、このホワイト ペーパーでは、DBG モーション検出アルゴリズムの 3 つの革新を提案します。

(1) 高速でエンドツーエンドの密な境界アクション ジェネレータ (Dense Boundary Generator、DBG) を提案します。ジェネレーターは、すべてのアクション提案に対して密な境界信頼マップを推定できます。

(2) 追加の時間アクション分類損失関数を導入して、アクション スコア機能 (asf) を監視します。これにより、アクション認識完全性回帰 (ACR) を促進できます。

(3) 効率的な行動指名特徴生成層 (提案特徴生成層、PFG) を設計します。これは、行動の全体的な特徴を効果的に捉え、後続の分類および回帰モジュールの実装を容易にします。

そのアルゴリズム フレームワークには、主に、ビデオ特徴抽出 (ビデオ表現)、高密度境界モーション検出 (DBG)、および後処理 (後処理) の 3 つの部分が含まれます。現在、Tencent Youtu DBG の関連コードは github でオープン ソース化されており、ActivityNet で 1 位にランクされています。

4. TEINet: ビデオ認識のための効率的なアーキテクチャに向けて

TEINet: ビデオ認識のための効率的なアーキテクチャに向けて

キーワード: TEI モジュール、タイミング モデリング、タイミング構造

ダウンロードリンク: https://arxiv.org/abs/1911.09435

この論文では、既存の 2D CNN ネットワークに簡単に追加できる高速時系列モデリング モジュール、TEI モジュールを提案します。以前のタイミング モデリング方法とは異なり、TEI は、チャネル次元に注意を払い、チャネル次元でのタイミング相互作用を通じてタイミング機能を学習します。

まず、TEI に含まれる MEM モジュールは、無関係な機能 (背景など) を抑制しながらモーション関連の機能を強化できます。次に、TEI の TIM モジュールは、チャネル次元の前後のタイミング情報を補足します。これらの 2 つのモジュールは、タイミング構造を柔軟かつ効果的にキャプチャできるだけでなく、推論中の効率も保証します。このペーパーでは、十分な実験を通じて、複数のベンチマークで TEI の 2 つのモジュールの有効性を検証します。

5. 自己教師あり特徴学習による画像美的品質評価の再検討

自己教師あり特徴学習による画像美的評価の再考

キーワード: 美的評価、自己監督、コンピュータビジョン

ダウンロードリンク: https://arxiv.org/abs/1911.11419

画像の美的品質評価は、コンピューター ビジョンの分野における重要な研究テーマです。近年、研究者は多くの効果的な方法を提案し、美的評価の問題に大きな進歩をもたらしました。これらの方法は、基本的に大規模な画像ラベルまたは視覚的美学に関連する属性に依存していますが、そのような情報は多くの場合、膨大な人的コストを必要とします。

手作業によるラベル付けのコストを軽減するために、「自己教師あり学習を使用して美的に表現力豊かな視覚的表現を学習する」ことが研究の方向性です。この論文では、この方向でのシンプルで効果的な自己教師あり学習法を提案します。私たちのアプローチの主な動機は、表現空間がさまざまな画像編集操作によって引き起こされる美的品質の変化を識別できない場合、この表現空間は画像の美的品質評価のタスクには適していないということです。この動機に基づいて、この論文では 2 つの異なる自己教師あり学習タスクを提案します: 1 つは入力画像に適用された編集操作の種類をモデルに識別するように要求するために使用され、もう 1 つはモデルが同じ種類の操作を異なる条件下で区別することを要求するために使用されます。制御パラメータ 異なる画像の美的品質の変化の違いを使用して、視覚的表現空間をさらに最適化できます。

実験の必要性を比較するために、この論文では、提案された方法を既存の古典的な自己教師あり学習方法 (Colorization、Split-brain、RotNet など) と比較します。実験結果は、この論文の方法が 3 つのパブリック美的評価データセット (すなわち、AVA、AADB、および CUHK-PQ) で競争力のあるパフォーマンスを達成できることを示しています。また、このホワイト ペーパーの方法は、ImageNet または Places データセットのラベルを直接使用して表現を学習する方法よりも優れていることに注意してください。さらに、AVA データセットで、私たちの方法に基づくモデルが、ImageNet データセットのラベルを使用せずに、最良の方法に匹敵するパフォーマンスを達成できることを確認します。

6. 生成モデルに基づく映像領域適応技術

ビデオからビデオへのドメイン適応のための敵対的生成ネットワーク

キーワード: ビデオ生成、教師なし学習、領域適応

複数のセンターからの内視鏡ビデオは、通常、色や照明などの異なるイメージング条件を持っているため、あるドメインでトレーニングされたモデルが別のドメインにうまく一般化されません。ドメイン適応は、この問題に対する潜在的な解決策の 1 つです。ただし、現在、ビデオデータのドメイン適応の処理タスクに焦点を当てた研究はほとんどありません。

上記の問題に対処するために、この論文では、異なるドメイン間でビデオデータを変換するための新しい敵対的生成ネットワーク (GAN)、つまり VideoGAN を提案します。実験結果は、VideoGAN によって生成されたドメインに適応した大腸内視鏡検査ビデオが、多施設データセットのディープラーニング ネットワークによって結腸直腸ポリープのセグメンテーション精度を大幅に改善できることを示しています。当社の VideoGAN は汎用ネットワーク アーキテクチャであるため、このホワイト ペーパーでは CamVid 駆動ビデオ データセットでもテストします。実験では、VideoGAN がドメイン間のギャップを狭めることができることが示されています。

7. 教師なしのクロスドメイン人物再識別のための非対称共同教育

教師なしクロスドメインの人物再識別のための非対称共同教育

キーワード: 人物の再識別、非対称共同教育、ドメイン適応

ダウンロードリンク: https://arxiv.org/abs/1912.01349

歩行者の再識別は、サンプルのばらつきが大きく、画像の品質が高いため、常に非常に困難なトピックでした。一部の固定シーン(ソースドメイン)での再認識は大きく進展しましたが、モデルが見たことのないターゲットドメインで良い結果が得られる作品はごくわずかです。現在、クラスタリングによってラベルのないデータに疑似ラベルを適用して、モデルが新しいシナリオに適応するのを支援する効果的な解決策があります.しかし、クラスタリングはしばしばラベルノイズを導入し、信頼性の低いサンプルを破棄し、モデルの改善を妨げます.正確さ。

この論文では、マイニングサンプルをより効果的に利用し、ドメイン適応の精度を向上させるために、非対称共同教育法が提案されています。具体的には、2 つのネットワークが使用され、一方のネットワークは可能な限り純粋なサンプルを受信し、もう一方のネットワークは可能な限り多様なサンプルを受信します。サンプルをトレーニング プロセスに追加します。複数の公開実験により、この方法が現在の段階でドメイン適応の精度を効果的に向上させることができ、さまざまなクラスタリング方法でドメイン適応に使用できることが示されています。

8. 人物再識別のための角度正則化による方向センシティブ ロス

人物再識別のための AngularRegularization による視点認識損失

キーワード: 歩行者再識別、オリエンテーション、モデリング

ダウンロードリンク: https://arxiv.org/abs/1912.01300

近年、監視対象人物の再識別 (ReID) が大幅に進歩しましたが、歩行者の画像間の向きの違いが大きいため、この問題は依然として困難です。ほとんどの既存の方向ベースの特徴学習方法は、異なる方向からの画像を個別の独立したサブ特徴空間にマッピングします。この方法は、方向が低い人体画像の同一性レベルの特徴分布のみをモデル化しますが、方向間の潜在的な相関関係は無視します。

この問題を解決するために、この論文では、角度の正則化を伴う方向に敏感な損失 (VA-ReID) と呼ばれる新しい方法を提案します。各方向の部分空間を学習するのと比較して、この方法は異なる方向からの特徴を同じ超球にマッピングできるため、同一性レベルと方向レベルの特徴分布を同時にモデル化できます。これに基づいて、さまざまな方向をハード ラベルとしてモデル化する従来の分類方法と比較して、この論文では、方向に敏感な適応ラベル スムージング正則化法 (VALSR) を提案します。この方法は、フィーチャ表現に適応的なソフト方向ラベルを与えることができるため、一部の方向を明確にマークできないという問題を解決できます。

Market1501 および DukeMTMC データセットでの多数の実験により、この論文の方法の有効性が証明されており、その性能は既存の最良の教師付き ReID 方法を大幅に上回っています。

9. 監視が不十分な情報を使用して条件付きの敵対的生成モデルをトレーニングする方法

不確実性を考慮したペアごとの比較によるロバストな条件付き GAN

キーワード: CGAN, 弱い監督, ペアワイズ比較

ダウンロードリンク: https://arxiv.org/abs/1911.09298

Conditinal GAN(CGAN)は近年大きな成果を上げており、画像属性編集などの分野での応用に成功しています。ただし、CGAN は多くの場合、多数の注釈を必要とします。この問題を解決するために、既存の方法のほとんどは、まず教師なし学習法を使用して疑似ラベルを取得し、次に疑似ラベルを実際のラベルとして使用して CGAN をトレーニングするなど、教師なしクラスタリングに基づいています。ただし、ターゲット属性が離散的ではなく連続的である場合、またはターゲット属性がデータ間の主な違いを表すことができない場合、教師なしクラスタリングに基づくこの方法では、目的の効果を達成することは困難です。この論文ではさらに、弱い教師情報を使用して CGAN をトレーニングすることを検討します.この論文では、この弱い教師のペアワイズ比較を検討します。絶対標識と比較して、ペアワイズ比較には次の利点があります: 1. 標識が容易である、2. より正確である、3. 主観的な影響を受けにくい。

最初に比較ネットワークをトレーニングして各画像のスコアを予測し、次にこのスコアを条件として使用して CGAN をトレーニングすることを提案します。比較ネットワークの最初の部分では、チェスやその他のゲームで一般的に使用されている Elo 評価システム アルゴリズムに触発されました.ペアごとの比較の注釈をゲームと見なし、ネットワークを使用して画像のスコアを予測します.バックプロパゲーションで学習できるニューラル ネットワークを設計しました。また、ネットワークに不確実性を推定する機能を与える、ネットワークのベイジアン バージョンも検討しました。画像生成部分はRobust Conditional GAN(RCGAN)を条件が連続値の場合に拡張。具体的には、生成された偽のマップに対応する予測スコアは、弁別器によって受信される前に、リサンプリング プロセスによって汚染されます。このリサンプリング プロセスには、ベイジアン比較ネットワークを使用した不確実性の推定が必要です。

顔画像の年齢と額面をそれぞれ変更して、4 つのデータセットで実験を行います。実験結果は、提案された弱教師あり方法が完全教師ありベースラインに匹敵し、教師なしベースラインよりもはるかに優れていることを示しています。

10. 敵対的摂動に基づく教師なしドメイン適応セマンティック セグメンテーション

セマンティック セグメンテーションのための敵対的摂動指向ドメイン適応アプローチ

キーワード: 教師なしドメイン適応、セマンティック セグメンテーション、敵対的トレーニング

ダウンロードリンク: https://arxiv.org/pdf/1912.08954.pdf

現在、ニューラル ネットワークはラベル付けされた大量のデータで良い結果を得ることができますが、新しい環境にうまく一般化できないことが多く、大量のデータのラベル付けには非常にコストがかかります。したがって、教師なしドメイン適応は、既存のラベル付きデータを使用してモデルをトレーニングし、それをラベルなしデータに移行しようとします。

敵対的アラインメント法は、2 つのドメイン間の特徴表現の周辺分布をグローバルに一致させるために、教師なしドメイン適応問題で広く使用されています。ただし、セマンティック セグメンテーション タスクに関するデータの深刻なロングテール分布と、カテゴリに関するドメイン適応の監視の欠如により、ドメイン間のマッチングのプロセスは、最終的に大きなオブジェクト カテゴリ (道路、建物など) によって支配され、その結果、この戦略は、テール カテゴリまたは小さなオブジェクト (例: 赤い街灯、自転車) の特徴表現を無視する傾向があります。

この論文では、摂動を生成して防御するためのフレームワークを提案します。最初に、フレームワークはいくつかの敵対的ターゲット (分類子と弁別子) を設計し、敵対的ターゲットを介して 2 つのドメインの特徴空間で敵対的サンプルをポイントごとに生成します。これらの敵対的な例は、2 つのドメインの特徴表現空間を接続し、ネットワークの脆弱性に関する情報を含んでいます。次に、フレームワークはモデルを強制して敵対的な例から防御し、ドメインのバリエーションとオブジェクトのサイズ、クラスのロングテール分布に対してより堅牢なモデルを実現します。

このホワイト ペーパーで提案されている摂動防止フレームワークは、合成データを実際のデータに移行する 2 つのタスクで検証されます。この方法は、画像セグメンテーション全体で優れたパフォーマンスを達成するだけでなく、小さなオブジェクトやカテゴリに対するモデルの精度も向上させ、その有効性を証明しています。

おすすめ

転載: blog.csdn.net/lee_x_lee/article/details/130196129