CV コンピューター ビジョンの毎日のオープン ソース コード コード付きの紙の概要 - 2023.12.6

@Computer Visionをクリックして、CV 情報をさらにフォローしてください

用紙はパッケージ化されています。クリックして入力 -> ダウンロードインターフェイス

クリックして参加—>CV コンピューター ビジョン交換グループ

1. [基本ネットワークアーキテクチャ:Transformer] 強力な視覚表現学習者としての画像 GPT の若返り

2. [基本的なネットワーク アーキテクチャ: Transformer] Vision Foundation モデルから SparseFormer をブートストラップする

3.【異常検知】集約規範拡散を利用した教師なし異常検知

4.【ビデオ異常検出】弱監視ビデオ異常検出のためのマルチスケール時間特徴に基づく動的消去ネットワーク

5.【图像分割】UniGS: Unified Representation for Image Generation and Segmentation

6.【语义分割】適応による一般化: ドメイン一般化セマンティックセグメンテーションのための拡散ベースのドメイン拡張

7.【顔認識】野外での顔認識に効果的なアダプター

8.【医学图像分割】MobileUtr: Revisiting the relationship between light-weight CNN and Transformer for efficient medical image segmentation

9.【ビデオ超解像再構成】時間的に一貫した実世界ビデオ超解像のためのモーションガイド潜在拡散

10.【画像增强】クリニックでの強化と適応: 医療画像強化のためのソースフリーの教師なしドメイン適応

11.【動作認識】DST-Adapter: 数ショットの動作認識のための、もつれを解いて変形可能な時空間アダプタ

12.【多模态】普遍的な視覚認識のためにすべてを一度に調整し、促す

13.【マルチモーダル】次トークン予測としての物体認識

14.【多模态】キャプション書き換えによる大規模視覚言語モデルの微調整によるきめの細かい幻覚の軽減

15.【マルチモーダル】良い質問はゼロショットのイメージ推論に役立ちます

16.【多模态】マスクモデリングによる高密度インタラクションを備えたオーディオビジュアルアーリーフュージョントランスフォーマーの力を明らかにする

17.【マルチモーダル】何でもセグメントとキャプション

18.【多模态】VMC: テキストからビデオへの拡散モデルの時間的注意適応を使用したビデオモーションのカスタマイズ

19.【多模态】挑戦的なマルチモーダルビデオの概要: ビデオからキーフレームとキャプションのペアを同時に抽出して生成する

20.【数字人】GaussianAvatar: アニメーション可能な 3D ガウスを介した 1 つのビデオからのリアルな人間のアバター モデリングに向けて

21.【数字人】VividTalk: 3D ハイブリッド事前に基づくワンショット オーディオ駆動トーキング ヘッド生成

22.【数字人】3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing

23.【半监督学习】仮想カテゴリ学習: 非常に限定されたラベルによる高密度予測のための半教師あり学習方法

24.【深度估计】単眼の深さ推定のための拡散ベースの画像生成器の再利用

25.【深度推定】自己監視型単眼屋内深度推定の詳細

26.【シーン完成】PaSCo: 不確実性を意識した都市型3Dパノプティックシーン完成

27.【スタイル転送】クロスモーダルGANインバージョンを用いたマルチモダリティ誘導型画像スタイル転送

28.【拡散】読み出しガイダンス:拡散特徴から制御を学ぶ

29.【普及】ResEnsemble-DDPM: アンサンブル学習のための残留ノイズ除去拡散確率モデル

30.【普及】DeepCache: 無料で普及モデルを加速

31.【ネットワークプルーニング】視覚的なプロンプトによるアップグレード ニューラルネットワークのスパース化: データモデルの観点

32.【ネットワーク枝刈り】枝刈り・量子化共同学習のための物理学に基づく基準

33.【姿勢推定】物体6D姿勢推定とゼロショット学習の融合

34.【NeRF】メッシュガイドによるニューラル暗黙的フィールド編集

35.【NeRF】SANeRF-HQ: NeRF 用のあらゆるものを高品質でセグメント化

36.【NeRF】VideoRF: 動的放射フィールドを 2D フィーチャー ビデオ ストリームとしてレンダリング

37.【NeRF】自己進化する神経放射フィールド

38.【画像合成】DiffiT: 画像生成用拡散ビジョントランスフォーマー

39.【画像合成】共有注意によるスタイル調整画像生成

40.【顔再構成】DPHM: 深さに基づく追跡のための拡散パラメトリック頭部モデル

41.【画像検索】ゼロショット合成画像検索の言語限定効率トレーニング

42.【ビジュアル質問回答】ビジュアル質問回答のための適切なインコンテキストシーケンスの設定方法

紙はパッケージ化、ダウンロードリンク

CV コンピュータビジョンコミュニケーショングループ

このグループには、ターゲット検出、画像セグメンテーション、ターゲット追跡、トランスフォーマー、マルチモダリティ、NeRF、GAN、欠陥検出、顕著なターゲット検出、キーポイント検出、超解像度再構成、SLAM、顔、OCR、生物医学画像、3D 再構成、姿勢推定、自動運転知覚、深度推定、ビデオ理解、行動認識、画像のかすみ除去、画像ディレイン、画像復元、画像検索、車線境界線検出、点群ターゲット検出、点群セグメンテーション、画像圧縮、モーション 予測、ニューラルのリーダーネットワーク定量化、ネットワーク展開などの分野では、技術知識、面接スキル、社内推奨の採用情報を随時共有します

グループに参加したい学生は、WeChat ID を追加して管理者PingShanHai666に連絡してください。友達を追加する場合は、学校/会社 + 研究方向 + ニックネームに注意してください。

推奨読書:

CV コンピューター ビジョンの毎日のオープン ソース コード コード付きの紙の概要 - 2023.12.5

CV コンピューター ビジョンの毎日のオープン ソース コード コード付きの紙の概要 - 2023.12.4

CV コンピューター ビジョンの毎日のオープン ソース コード コード付きの紙の概要 - 2023.12.1

おすすめ

転載: blog.csdn.net/zhangkai950121/article/details/134938299