@Computer Visionをクリックして、CV 情報をさらにフォローしてください
用紙はパッケージ化されています。クリックして入力 -> ダウンロードインターフェイス
クリックして参加—>CV コンピューター ビジョン交換グループ
1. [基本ネットワークアーキテクチャ:Transformer] 強力な視覚表現学習者としての画像 GPT の若返り
-
オープンソースコード: https://github.com/OliverRensu/D-iGPT
2. [基本的なネットワーク アーキテクチャ: Transformer] Vision Foundation モデルから SparseFormer をブートストラップする
-
オープンソースコード: https://github.com/showlab/sparseformer
3.【異常検知】集約規範拡散を利用した教師なし異常検知
-
オープンソースコード: https://github.com/alexanderfrotscher/ANDi
4.【ビデオ異常検出】弱監視ビデオ異常検出のためのマルチスケール時間特徴に基づく動的消去ネットワーク
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/ArielZc/DE-Net
5.【图像分割】UniGS: Unified Representation for Image Generation and Segmentation
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/qqlu/Entity
6.【语义分割】適応による一般化: ドメイン一般化セマンティックセグメンテーションのための拡散ベースのドメイン拡張
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/JNiemeijer/DIDEX
7.【顔認識】野外での顔認識に効果的なアダプター
-
エンジニアリングのホームページ:野外での顔認識のための効果的なアダプター
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/liuyunhaozz/faceadapter/
8.【医学图像分割】MobileUtr: Revisiting the relationship between light-weight CNN and Transformer for efficient medical image segmentation
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/FengheTan9/MobileUtr
9.【ビデオ超解像再構成】時間的に一貫した実世界ビデオ超解像のためのモーションガイド潜在拡散
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/IanYeung/MGLD-VSR
10.【画像增强】クリニックでの強化と適応: 医療画像強化のためのソースフリーの教師なしドメイン適応
11.【動作認識】DST-Adapter: 数ショットの動作認識のための、もつれを解いて変形可能な時空間アダプタ
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/qizhongtan/D2ST-Adapter
12.【多模态】普遍的な視覚認識のためにすべてを一度に調整し、促す
-
オープンソースコード: https://github.com/shenyunhang/APE
13.【マルチモーダル】次トークン予測としての物体認識
-
オープンソースコード: https://github.com/kaiyuyue/nxtp
14.【多模态】キャプション書き換えによる大規模視覚言語モデルの微調整によるきめの細かい幻覚の軽減
-
オープンソースコード: https://github.com/Anonymousanoy/FOHE
15.【マルチモーダル】良い質問はゼロショットのイメージ推論に役立ちます
-
オープンソースコード: https://github.com/kai-wen-yang/QVix
16.【多模态】マスクモデリングによる高密度インタラクションを備えたオーディオビジュアルアーリーフュージョントランスフォーマーの力を明らかにする
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/stoneMo/DeepAVFusion
17.【マルチモーダル】何でもセグメントとキャプション
-
エンジニアリングホームページ:セグメントとキャプションを何でも追加
-
オープンソースコード: https://github.com/xk-huang/segment-caption-anything
18.【多模态】VMC: テキストからビデオへの拡散モデルの時間的注意適応を使用したビデオモーションのカスタマイズ
-
エンジニアリングホームページ: VMC
-
オープンソースコード: https://github.com/HyeonHo99/Video-Motion-Customization
19.【多模态】挑戦的なマルチモーダルビデオの概要: ビデオからキーフレームとキャプションのペアを同時に抽出して生成する
-
オープンソースコード: https://github.com/keitokudo/Multi-VidSum
20.【数字人】GaussianAvatar: アニメーション可能な 3D ガウスを介した 1 つのビデオからのリアルな人間のアバター モデリングに向けて
-
プロジェクトホームページ: GaussianAvatar のプロジェクトページ
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/huliangxiao/GaussianAvatar
21.【数字人】VividTalk: 3D ハイブリッド事前に基づくワンショット オーディオ駆動トーキング ヘッド生成
-
プロジェクトのホームページ: VividTalk: ワンショット オーディオ駆動トーキング ヘッド生成ベースの 3D ハイブリッド 以前
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/HumanAIGC/VividTalk
22.【数字人】3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing
-
プロジェクトのホームページ: 3DiFACE: 拡散ベースの音声駆動の 3D フェイシャル アニメーションと編集
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/bala1144/3DiFACE
23.【半监督学习】仮想カテゴリ学習: 非常に限定されたラベルによる高密度予測のための半教師あり学習方法
-
オープンソースコード: https://github.com/GeoffreyChen777/VC
24.【深度估计】単眼の深さ推定のための拡散ベースの画像生成器の再利用
-
オープンソースコード: https://github.com/prs-eth/marigold
25.【深度推定】自己監視型単眼屋内深度推定の詳細
-
オープンソースコード: https://github.com/fcntes/IndoorDepth
26.【シーン完成】PaSCo: 不確実性を意識した都市型3Dパノプティックシーン完成
-
プロジェクトのホームページ: PaSCo: 不確実性を認識した都市の 3D パノプティック シーンの完成
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/astra-vision/PaSCo
27.【スタイル転送】クロスモーダルGANインバージョンを用いたマルチモダリティ誘導型画像スタイル転送
-
プロジェクトホームページ:クロスモーダル GAN Inversion を使用したマルチモダリティガイド付き画像スタイル転送
-
コードは間もなくオープンソースになる予定です
28.【拡散】読み出しガイダンス:拡散特徴から制御を学ぶ
-
プロジェクトのホームページ:読み出しガイダンス: 拡散特徴から制御を学習する
-
コードは間もなくオープンソースになる予定です
29.【普及】ResEnsemble-DDPM: アンサンブル学習のための残留ノイズ除去拡散確率モデル
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/nkicsl/ResEnsemble-DDPM
30.【普及】DeepCache: 無料で普及モデルを加速
-
オープンソースコード: https://github.com/horseee/DeepCache
31.【ネットワークプルーニング】視覚的なプロンプトによるアップグレード ニューラルネットワークのスパース化: データモデルの観点
-
オープンソースコード: https://github.com/UNITES-Lab/VPNs
32.【ネットワーク枝刈り】枝刈り・量子化共同学習のための物理学に基づく基準
-
オープンソースコード: https://github.com/fanxxxxyi/PIC-PQ
33.【姿勢推定】物体6D姿勢推定とゼロショット学習の融合
-
エンジニアリングホームページ: PoMZ: オブジェクト 6D 姿勢推定とゼロショット学習の融合
-
コードは間もなくオープンソースになる予定です
34.【NeRF】メッシュガイドによるニューラル暗黙的フィールド編集
-
プロジェクトホームページ:メッシュガイドによるニューラル暗黙的フィールド編集
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/cassiePython/MNeuEdit/tree/master
35.【NeRF】SANeRF-HQ: NeRF 用のあらゆるものを高品質でセグメント化
-
エンジニアリングホームページ:SANeRF-HQ
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/lyclyc52/SANeRF-HQ
36.【NeRF】VideoRF: 動的放射フィールドを 2D フィーチャー ビデオ ストリームとしてレンダリング
-
プロジェクトのホームページ: VideoRF: 2D フィーチャ ビデオ ストリームとしてのダイナミック ラディアンス フィールドのレンダリング
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/aoliao12138/VideoRF
37.【NeRF】自己進化する神経放射フィールド
-
エンジニアリングホームページ: SE-NeRF
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/KU-CVLAB/SE-NeRF
38.【画像合成】DiffiT: 画像生成用拡散ビジョントランスフォーマー
-
オープンソースコード: https://github.com/NVlabs/DiffiT
39.【画像合成】共有注意によるスタイル調整画像生成
-
プロジェクトのホームページ: StyleAlign
-
オープンソースコード: https://github.com/google/style-aligned/
40.【顔再構成】DPHM: 深さに基づく追跡のための拡散パラメトリック頭部モデル
-
エンジニアリングホームページ: DPHM: 深さに基づく追跡のための拡散パラメトリック頭部モデル
-
オープンソース コード (まもなくオープンソースになる予定): https://github.com/tangjiapeng/DPHMs
41.【画像検索】ゼロショット合成画像検索の言語限定効率トレーニング
-
オープンソースコード: https://github.com/navervision/lincir
42.【ビジュアル質問回答】ビジュアル質問回答のための適切なインコンテキストシーケンスの設定方法
-
オープンソースコード: https://github.com/GaryJiajia/OFv2_ICL_VQA
紙はパッケージ化、ダウンロードリンク
CV コンピュータビジョンコミュニケーショングループ
このグループには、ターゲット検出、画像セグメンテーション、ターゲット追跡、トランスフォーマー、マルチモダリティ、NeRF、GAN、欠陥検出、顕著なターゲット検出、キーポイント検出、超解像度再構成、SLAM、顔、OCR、生物医学画像、3D 再構成、姿勢推定、自動運転知覚、深度推定、ビデオ理解、行動認識、画像のかすみ除去、画像ディレイン、画像復元、画像検索、車線境界線検出、点群ターゲット検出、点群セグメンテーション、画像圧縮、モーション 予測、ニューラルのリーダーネットワーク定量化、ネットワーク展開などの分野では、技術知識、面接スキル、社内推奨の採用情報を随時共有します。
グループに参加したい学生は、WeChat ID を追加して管理者PingShanHai666に連絡してください。友達を追加する場合は、学校/会社 + 研究方向 + ニックネームに注意してください。
推奨読書:
CV コンピューター ビジョンの毎日のオープン ソース コード コード付きの紙の概要 - 2023.12.5