[3D 분할] SAGA: 모든 3D 가우시안 분할

시리즈 기사 목차

代码:https://jumpat.github.io/SAGA.
论文:https://jumpat.github.io/SAGA/SAGA_paper.pdf
来源:上海交大和华为研究院



요약

  Interactive 3D Segmentation 기술은 3D 장면 이해 및 조작에 있어서 매우 중요한 의미를 가지며 주목할만한 작업입니다. 그러나 기존 방법은 세분화된 다중 세분화를 달성하는 데 어려움을 겪거나 상당한 계산 오버헤드와 씨름하여 실시간 상호 작용을 방해합니다. 본 논문에서는 2D 분할 모델 과 3D GS( 3D Gaussian Splatting ) 를 원활하게 결합하는 새로운 3D 대화형 분할 방법인 SAGA(Segmented Arbitrary 3D Gassin)를 소개합니다 . SAGA는 잘 설계된 대비 훈련을 통해 분할 모델에 의해 생성된 다중 입도 2D 분할 결과를 3D 가우스 포인트 기능에 효과적으로 삽입합니다 . 실험적 평가는 경쟁력 있는 성능을 보여줍니다. 또한 SAGA는 밀리초 내에 3D 분할을 완료할 수 있고 다중 세분화 분할을 구현하며 포인트, 그래피티, 2D 마스크를 포함한 다양한 신호에 적응할 수 있습니다.


I. 소개

  3차원 대화형 분할은 장면 조작, 자동 라벨링 및 가상 현실과 같은 분야에서의 잠재적인 응용으로 인해 연구자들의 광범위한 관심을 끌었습니다. 이전 방법 [13, 25, 46, 47 Decomposing nerf, Neural feature fusion fields 등]은 주로 자기지도 시각적 모델을 시뮬레이션하기 위한 학습 특징 필드를 통해 2차원 시각적 특징을 3차원 공간으로 승격시킵니다. [4, 39] 추출 멀티뷰 2D 기능. 그런 다음 3차원 특징 유사성을 사용하여 두 점이 동일한 개체에 속하는지 여부를 측정합니다. 이 접근 방식은 단순한 분할 파이프라인으로 인해 빠르지만, 기능에 포함된 정보를 구문 분석하는 메커니즘(예: 분할 디코더)이 부족하여 대략적인 분할 세분성이 희생됩니다. 이에 반해 또 다른 패러다임 [5: Segment everything in 3d with nerfs]은 다시점의 세밀한 2D 분할 결과를 3D 마스크 그리드에 직접 투영하여 2D 분할 기본 모델을 3D 모델로 개선합니다. 이 방법은 정확한 분할 결과를 생성할 수 있지만 시간 오버헤드가 크면 기본 모델을 실행하고 여러 번 렌더링해야 하기 때문에 상호 작용이 제한됩니다.

  위의 논의는 효율성과 정확성을 달성하는 데 있어 기존 패러다임의 딜레마를 드러내고 기존 패러다임의 성능을 제한하는 두 가지 요소를 지적합니다. 첫째, 이전 방법[5, 13]에서 사용된 암시적 방사선장은 효과적인 분할을 방해합니다 . 즉, 3차원 물체를 검색하려면 3차원 공간을 횡단해야 합니다. 둘째, 2차원 분할 디코더를 활용함으로써 분할 품질은 높으나 효율이 낮다.

  3DGS(3차원 가우스 스플래팅)는 고품질 실시간 렌더링이 가능합니다 . 3차원 색상 가우스 분포 세트를 사용하여 3차원 장면을 표현합니다. 이러한 가우스 분포의 평균은 3차원 공간에서의 위치를 ​​나타내므로 3DGS는 거대하고 종종 비어 있는 3차원 공간의 광범위한 처리를 우회하고 풍부한 명시적 3차원 사전을 제공하는 포인트 클라우드로 볼 수 있습니다. 이러한 포인트 클라우드와 같은 구조를 통해 3DGS는 효율적인 렌더링을 달성할 뿐만 아니라 분할 작업에 이상적인 후보가 됩니다.

  3DGS를 기반으로 우리는 Segment Any 3D GAussians(SAGA)를 제안했습니다. 즉, 2D 분할 모델(예: SAM)의 세밀한 분할 기능을 3D 가우시안 모델로 추출하고, 2D 시각적 특징을 3D로 업그레이드하는 데 중점을 두고 Fine을 달성하는 것입니다. 세분화된 3D 분할 . 또한 2D 분할 모델의 다중 추론을 방지합니다. 증류는 SAM을 사용하여 구현되어 마스크를 자동으로 추출하고 가우스 분포의 3차원 특징을 훈련합니다. 추론 중에 입력 힌트는 쿼리 세트를 생성하는 데 사용되며, 이 쿼리는 효율적인 기능 일치를 통해 원하는 가우스를 검색하는 데 사용됩니다 . 이 방법을 사용하면 밀리초 단위로 세밀한 3D 분할이 가능하며 점, 낙서, 마스크를 비롯한 다양한 신호를 지원합니다.


2. 관련 업무

1. 힌트 기반 2차원 분할

  NLP 작업과 최근 컴퓨터 비전의 발전에 영감을 받아 SAM은 지정된 이미지의 분할 대상에 대한 입력 단서가 있는 분할 마스크를 반환할 수 있습니다. SAM과 유사한 모델은 인상적인 개방형 어휘 분할 기능을 보여주는 SEEM[55]입니다. 이전에는 큐 2D 분할과 가장 밀접하게 관련된 작업은 대화형 이미지 분할이었는데, 이는 많은 연구에서 탐구되었습니다.

2. 2D 비주얼 베이직 모델을 3D로 업그레이드

  최근 2D 비전 기본 모델이 강력한 성장을 경험했습니다. 대조적으로, 3D 비전의 기본 모델은 주로 데이터 부족으로 인해 유사한 개발을 보지 못했습니다. 3D 데이터를 얻고 주석을 추가하는 것은 다른 2D 데이터보다 훨씬 더 어렵습니다 . 이 문제를 해결하기 위해 연구자들은 2D 기본 모델을 3D로 업그레이드하려고 시도했습니다 [8, 16, 20, 22, 28, 38, 51, 53]. 주목할만한 시도는 기능 필드(예: CLIP [39])와 방사형 필드에 대한 시각적 언어 모델을 훈련하는 LERF [22]입니다. 이 패러다임은 언어적 단서 기반으로 방사선장에서 객체의 위치를 ​​파악하는 데 유용 하지만, 특히 의미상 유사한 객체가 여러 개 있는 경우 정확한 3D 분할에서는 제대로 작동하지 않습니다. 나머지 방법은 주로 포인트 클라우드에 중점을 둡니다. 카메라 포즈를 사용하여 3D 포인트 클라우드를 2D 다시점 이미지와 연결함으로써 2D 기본 모델에서 추출된 특징을 3D 포인트 클라우드에 투영할 수 있습니다. 이 통합은 LERF와 유사하지만 데이터 수집은 방사선장 기반 방법보다 비용이 더 많이 듭니다.

3. 방사선장의 3차원 분할

  NeRF의 성공에 영감을 받아 많은 연구에서 3차원 분할을 탐구했습니다. Zhi 등은 [54] 의미 전파 및 개선에서 NeRF의 잠재력을 입증하는 SemanticNeRF를 제안했습니다. NVOS[40]는 맞춤형으로 설계된 3D 기능(MLP)을 사용하여 경량 다층 인식을 훈련하여 NeRF에서 3D 객체를 선택하는 대화형 방법을 소개합니다. N3F [47], DFF [25], LERF [22] 및 ISRF [13]와 같은 2D 자체 감독 모델을 사용하여 다양한 2D 기능 맵을 모방할 수 있는 추가 기능 필드를 훈련하여 2D 기능 맵을 출력합니다. 2D 업그레이드 시각적 기능을 3D로 변환합니다. NeRF-SOS [9]는 대응 증류 손실 [17]을 사용하여 2D 특징 유사성을 3D 특징으로 개선합니다. 이러한 2차원 시각적 특징 기반 방법 중 특징 영역에 포함된 3차원 특징을 비교함으로써 3차원 분할이 가능하며 이는 효과적인 것으로 보인다. 그러나 유클리드 거리나 코사인 거리에만 의존하는 경우 고차원 시각적 특징에 포함된 정보를 완전히 활용할 수 없기 때문에 이러한 방법의 분할 품질은 제한됩니다. 방사선장과 결합된 다른 인스턴스 분할 및 의미론적 분할 방법[2, 12, 19, 30, 35, 44, 48, 52]이 있습니다.

  SAGA와 가장 밀접하게 관련된 두 가지 방법은 ISRF [13] 및 SA3D [5]입니다. 전자는 다중 뷰 2D 시각적 특징을 모델링하기 위해 특징 필드를 훈련하는 패러다임을 따릅니다. 따라서 유사한 의미를 지닌 서로 다른 객체(특히 객체의 일부)를 구별하기가 어렵습니다 . 후자는 SAM에 반복적으로 쿼리하여 2차원 분할 결과를 얻고 이를 마스크 그리드에 투영하여 3차원 분할을 수행합니다. 분할 품질은 좋지만 분할 파이프라인이 복잡하여 시간이 많이 소모되고 사용자와의 상호 작용이 방해됩니다.

3. 방법론

1. 3D 가우스 스플래팅(3DGS)

  방사선장의 최신 개발인 3DGS[21]는 훈련 가능한 3차원 가우스 분포를 사용하여 3차원 장면을 표현하고 효과적인 미분 래스터화 렌더링 및 훈련 알고리즘을 제안합니다. 카메라 포즈가 포함된 다중 뷰 2D 이미지의 훈련 데이터 세트 I가 주어지면 3DGS는 3D 색상 가우스 집합 G = {g 1 , g 2 , …, g N }을 학습합니다. 여기서 N은 장면의 3D 가우시안 수를 나타냅니다. 각 가우스 분포의 평균은 3차원 공간에서의 위치를 ​​나타내고 공분산은 척도를 나타냅니다. 따라서 3DGS는 포인트 클라우드로 간주될 수 있습니다. 특정 카메라 포즈가 주어지면 3DGS는 3차원 가우스를 2차원으로 투영한 다음 픽셀과 겹치는 정렬된 가우스 N 세트를 혼합하여 픽셀의 색상 C를 계산합니다.
여기에 이미지 설명을 삽입하세요.
여기서 c i 는 각 가우스 분포의 색상인 α입니다. 는 공분산 Σ에 가우시안당 학습된 불투명도를 곱한 2차원 가우스 분포를 계산하여 얻습니다. 방정식 (1)에서 시작하여 래스터화 프로세스의 선형성을 배울 수 있습니다. 픽셀에 의해 렌더링되는 색상은 관련된 가우시안의 가중 합계입니다 . 이 기능을 사용하면 3D 기능을 2D 렌더링 속성과 정렬할 수 있습니다.

  SAM은 이미지 I와 큐 세트 P를 입력으로 사용하고 해당 2차원 분할 마스크 M을 출력합니다. 즉, 다음과 같습니다.

여기에 이미지 설명을 삽입하세요.

2. 전체 프레임워크

  그림 2에서 볼 수 있듯이 사전 훈련된 3DGS 모델 G와 해당 훈련 세트가 주어지면 먼저 SAM의 인코더를 사용하여 각 이미지 I∈R H×W 의 2차원 특징을 추출합니다 . F I SAM ∈R Csam× H ×W 및 다중 입도 마스크 세트 M I SAM ; 추출된 마스크에 따라 각 가우시안 G의 저차원 특징 f g ∈ RC 교차 뷰에서 일관된 다중 입도 분할 정보를 집계하도록 훈련됩니다 (( C는 특징 차원을 나타내며 크기의 기본값은 32입니다. 특징의 간결성을 더욱 향상시키기 위해 추출된 마스크에서 점별 대응을 얻고 이를 특징으로 추출합니다(즉, 상관 손실).

여기에 이미지 설명을 삽입하세요.

  추론 단계에서는 카메라 포즈 v 2 의 특정 뷰에 대해 입력 프롬프트 p에 따라 일련의 쿼리 Q가 생성되고, 이러한 쿼리는 학습된 특징과 효과적인 특징 매칭을 수행하여 3차원을 검색하는 데 사용됩니다. 해당 대상의 가우스 분포 . 또한 3DGS의 포인트 클라우드형 구조가 제공하는 강력한 3D 사전 기능을 활용하여 검색된 3D 가우스 분포를 개선하기 위한 효율적인 후처리 작업을 소개합니다 .

3. 가우스 특성 훈련

  포즈 v가 있는 훈련 이미지 I, 사전 훈련된 3DGS 모델 g를 사용하여 해당 기능 맵 F를 렌더링합니다.

여기에 이미지 설명을 삽입하세요.
그 중 N은 중첩된 정렬된 가우스 분포의 집합입니다. 훈련 단계에서는 새로 첨부된 기능을 제외하고 3차원 가우스 G의 다른 모든 속성(예: 평균, 공분산 및 불투명도)이 고정됩니다.

3.1 SAM 유도 손실

  SAM에 의해 자동으로 추출된 2D 마스크 MI는 복잡하고 혼란스럽습니다(즉, 3D 공간의 한 점이 서로 다른 뷰에서 서로 다른 개체/부분으로 분할될 수 있음). 이 모호한 감독 신호는 3D 기능을 처음부터 훈련하는 데 큰 어려움을 안겨줍니다. 이 문제를 해결하기 위해 SAM에서 생성된 기능을 지침으로 사용합니다. 그림 2에 표시된 대로: MLP ψ를 사용하여 SAM 기능을 3차원 기능과 동일한 저차원 공간에 투영합니다 .

여기에 이미지 설명을 삽입하세요.
그런 다음 M I SAM 에서 추출된 각 마스크 M에 대해 평균 풀링 작업 후에 해당 쿼리 T M ∈ RC 얻어집니다 .

여기에 이미지 설명을 삽입하세요.
그 중 'hollow 1'이 지표 기능이다. 그런 다음 TM을 사용하여 렌더링된 특징 맵 F I r을 Softmaxed로 분할 합니다 .

여기에 이미지 설명을 삽입하세요.
그 중 σ는 요소 수준의 시그모이드 함수를 나타냅니다. SAM 유도 손실은 분할 결과 PM 과 해당 SAM 추출 마스크 M 사이의 이진 교차 엔트로피 로 정의됩니다.
여기에 이미지 설명을 삽입하세요.

3.2 통신 손실

  실제로 우리는 SAM 유도 손실의 학습된 특징이 충분히 작지 않아 다양한 단서에 기반한 분할 품질이 저하된다는 것을 발견했습니다(섹션 4의 절제 연구 참조). 이전의 대조 대응 증류 방법[9, 17]에서 영감을 받아 이 문제를 해결하기 위해 대응 손실을 도입합니다.

  앞서 언급한 바와 같이 훈련 세트 I의 높이가 H이고 너비가 W인 각 이미지 I에 대해 SAM은 마스크 세트 MI 추출하는 데 사용됩니다 . I의 두 픽셀 p1, p2를 고려하면 M I 의 여러 마스크 에 속할 수 있습니다. M I p1 및 M I p2 는 각각 픽셀 포인트 p 1 및 p 2 가 속하는 마스크를 나타낸다고 가정 합니다 . IoU가 더 크면 픽셀 특징이 유사해야 합니다. 따라서 마스크의 상관계수 K I (p 1 , p 2 ) 는 다음과 같습니다 .

여기에 이미지 설명을 삽입하세요.
픽셀 p 1 , p 2 사이의 특징 상관 S I (p 1 , p 2 ) 는 렌더링된 특징 간의 코사인 유사성으로 정의됩니다.

여기에 이미지 설명을 삽입하세요.

대응 손실(두 픽셀이 동일한 부분에 속하지 않는 경우 K I 의 0 값을 -1로 설정하여 특징 유사성을 줄입니다 .):

여기에 이미지 설명을 삽입하세요.

4. 추론

훈련 은 렌더링된 특징 맵에서 수행   되지만 래스터화 작업(수식 3)의 선형성은 3차원 공간의 특징이 이미지 평면의 렌더링된 특징과 정렬되도록 보장합니다 . 따라서 2D 렌더링 기능을 사용하여 3차원 가우스 분할을 달성할 수 있습니다. 이 기능은 다양한 프롬프트와 SAGA 호환성을 제공합니다. 또한 3DGS를 기반으로 한 효과적인 3D 사전 후처리 알고리즘도 소개합니다.

4.1 포인트 기반 프롬프트

  특정 뷰 v의 렌더링된 특징 맵 F v r 의 경우 해당 특징을 직접 검색하여 양성 및 음성 샘플 포인트에 대한 쿼리를 생성합니다. Q v pQ v n은 각각 N p개의 긍정적인 쿼리와 부정적인 쿼리를 나타낸다고 가정합니다 . 3차원 가우스 g의 경우 양수 점수 S g p 는 해당 특징과 양수 쿼리 간의 최대 코사인 유사성, 즉 max{ < f g , Q p > |Q p ∈Q v p } 로 정의됩니다 . 마찬가지로 음수 S g n 은 max{ < f g , Q n > |Q n ∈Q v n } 으로 정의됩니다 . S g p > S g n 인 경우에만 3차원 가우스가 목표 G t 에 속합니다 . 잡음이 있는 가우스 분포를 추가로 필터링하기 위해 적응형 임계값 τ는 양의 분수, 즉 S g p > τ 인 경우에만 g∈G t 로 설정됩니다 . τ는 가장 큰 양수 점수의 평균으로 설정됩니다. 이 필터링으로 인해 많은 FN 샘플(양성 샘플이 인식되지 않음)이 생성될 수 있지만 이는 섹션 4.5의 후처리를 통해 해결할 수 있습니다.

4.2 마스크와 낙서를 기반으로 한 팁

  단순히 밀집된 힌트를 여러 포인트로 처리하면 엄청난 GPU 메모리 오버헤드가 발생합니다. 따라서 우리는 K-평균 알고리즘을 사용하여 밀집 힌트( Q v pQ v n ) 에서 긍정 및 부정 쿼리를 추출합니다 . 경험상 Kmeans의 클러스터 수는 5개입니다(대상 개체의 복잡도에 따라 조정 가능).

4.3 SAM 기반 프롬프트

  이전 힌트는 렌더링된 기능 맵에서 얻을 수 있습니다. SAM 유도 손실로 인해 저차원 SAM 기능 F' v를 직접 사용하여 쿼리를 생성할 수 있습니다. 먼저 SAM에 프롬프트를 입력하여 정확한 2D 분할 결과 M v ref를 생성합니다 . 이 2D 마스크를 사용하여 먼저 마스크 평균 풀링을 사용하여 쿼리 Q 마스크를 얻고 이 쿼리를 사용하여 2D 렌더링된 특징 맵 F v r 을 분할하여 임시 2D 분할 마스크 M v temp를 얻은 다음 M v ref비교합니다 . 둘의 교차점이 M v ref 의 대부분 (기본적으로 90%) 을 차지하는 경우 Q v 마스크가 쿼리로 허용됩니다. 그렇지 않으면 K-평균 알고리즘을 사용하여 마스크 내의 저차원 SAM 기능 F' v 에서 다른 쿼리 세트 Q v kmeans 를 추출합니다 . 이 전략은 분할 대상에 단순히 마스크 평균 풀링을 적용하여 캡처할 수 없는 많은 구성 요소가 포함될 수 있기 때문에 채택되었습니다.

  쿼리 세트 Q v SAM = {Q v 마스크 } 또는 Q v SAM = Q v kmeans 를 얻은 후 후속 프로세스는 이전 프롬프트와 동일합니다. SAM 유도 손실을 수용하기 위해 분할 척도로 코사인 유사성 대신 내적을 사용합니다. 3차원 가우스 g의 경우 양수 점수 S g p는 다음 쿼리로 계산된 최대 내적입니다.

여기에 이미지 설명을 삽입하세요.

양수 점수가 다른 적응 임계값 τ SAM 보다 큰 경우 3차원 가우스 g는 모든 점수의 평균과 표준 편차의 합인 분할 목표 G t 에 속합니다.

5. 3차원 사전 기반의 후처리

  3D 가우스의 초기 분할 Gt 에는 두 가지 주요 문제가 있습니다 . (i) 중복된 잡음이 있는 가우스 문제, (ii) 대상 누락 . 이 문제를 해결하기 위해 우리는 통계 필터링 및 지역 성장을 포함한 전통적인 포인트 클라우드 분할 기술을 사용합니다. 포인트 및 그래피티 큐를 기반으로 한 분할의 경우 통계 필터링을 사용하여 노이즈 가우스 분포를 필터링합니다. 마스크 프롬프트 및 SAM 기반 프롬프트의 경우 2D 마스크는 G t 에 투영되어 검증된 가우스 함수 세트를 얻습니다. 이 함수는 불필요한 가우스 함수를 제외하기 위해 G에 투영됩니다. 결과적으로 효과적인 가우스 함수는 영역 성장 알고리즘의 시드로 사용될 수 있습니다. 마지막으로 원본 모델 G에서 대상에 필요한 모든 가우스 함수를 검색하기 위해 구형 쿼리 기반 영역 성장 방법을 채택했습니다.

4.1 통계 필터링 통계 필터링

  두 가우스 분포 사이의 거리는 동일한 대상에 속하는지 여부를 나타낼 수 있습니다. 통계적 필터링은 먼저 |-Nearest Neighbor(KNN) 알고리즘을 사용하여 분할 결과 Gt에서 각 가우스 분포의 가장 가까운 Gt\sqrt{Gt} 를 계산합니다.Gt 가우스 분포의 평균 거리입니다. 그 후, 우리는 Gt 의 모든 가우스에 대한 평균 거리의 평균(μ)과 표준 편차(σ)를 계산 했습니다. 그런 다음 평균 거리가 μ+σ를 초과하는 가우스 분포를 제거하고 G t'를 얻습니다 .

4.2 지역적 성장에 따른 필터링

  마스크 큐 또는 sam 기반 큐의 2D 마스크는 대상을 정확하게 찾기 전에 사전에 사용할 수 있습니다 . 먼저 마스크가 거친 가우스 결과 Gt 에 투영 되어 Gc 로 표시되는 가우스 하위 집합이 생성 됩니다 . 이어서, G c 내의 각 가우스 g에 대해 하위 집합에서 가장 가까운 이웃의 유클리드 거리 d g가 계산됩니다 .

여기에 이미지 설명을 삽입하세요.
공식에서 D()는 유클리드 거리를 나타냅니다. 그런 다음, 인접한 가우스( 집합 G c 의 최대 최근접 이웃 거리 보다 작은 거리)가 거친 가우스 결과 G t 에 반복적으로 추가됩니다. 이 거리는 다음과 같이 공식화됩니다. 점 단서와 낙서 단서로도 대상을 대략적으로 찾을 수 있지만 이를 기반으로 영역을 늘리는 데는 시간이 많이 걸립니다. 그러므로 마스크가 있을 때만 사용하고 있습니다.최대{d G cg |g∈Gc}

4.3 볼 쿼리를 기반으로 한 성장

  필터링된 분할 출력 G't 에는 목표의 모든 가우스가 부족할 수 있습니다. 이 문제를 해결하기 위해 볼 쿼리 알고리즘을 사용하여 모든 가우시안 G에서 필요한 모든 가우시안을 검색합니다. 특히 이는 반경 r의 구형 이웃을 검사하여 달성됩니다. G의 이러한 구형 경계 내에 위치한 가우스 분포는 최종 분할 결과 G s 로 집계됩니다 . 반경 r은 G't에서 가장 가까운 이웃 거리로 설정 됩니다 .

여기에 이미지 설명을 삽입하세요.

4. 실험

1.데이터세트

  NVOS(Neural Volumetric Object Selection), SPIn-NeRF [33] 데이터 세트를 사용한 정량적 실험. NVOS 데이터 세트는 여러 가지 앞으로의 시나리오를 포함하는 LLFF 데이터 세트를 기반으로 합니다. 각 장면에 대해 NVOS 데이터세트는 낙서가 있는 참조 뷰와 2D 분할 마스크로 주석이 달린 대상 뷰를 제공합니다. 마찬가지로, SPIn-NeRF [33] 데이터세트도 널리 사용되는 NeRF 데이터세트[11, 24, 26, 31, 32]를 기반으로 일부 데이터에 수동으로 주석을 추가합니다. 또한 효율성과 분할 품질 측면에서 SAGA의 더 나은 균형을 보여주기 위해 SA3D를 사용하여 LERF-Figurine 장면의 일부 객체에 주석을 달았습니다.

  정성적 분석을 위해 LLFF, MIP-360, T&T 데이터 세트, LERF 데이터 세트를 사용하였다.

2. 정량적 실험

  NVOS : SAM의 요구 사항을 충족하기 위해 NVOS 데이터 세트에서 제공하는 낙서를 처리하기 위해 SA3D [5]를 따릅니다. 표 1에서 볼 수 있듯이 SAGA는 이전 SOTA SA3D와 동일하며 이전의 특징 모방 기반 방법(ISRF 및 SGISRF)보다 훨씬 뛰어난 성능을 발휘하여 세분화된 분할 기능을 보여줍니다.

  SPIn-NeRF : 평가는 2D 실측 마스크로 뷰를 지정하고 이 마스크를 다른 뷰에 전파하여 마스크의 정확성을 확인하는 SPIn-NeRF를 따릅니다. 이 작업은 마스킹 프롬프트로 생각할 수 있습니다. 결과를 표 2에 나타내었다. MVSeg는 멀티뷰 이미지를 분할하기 위해 비디오 분할 방법[4]을 사용하고, SA3D는 트레이닝 뷰에서 렌더링된 이미지의 2차원 분할 기본 모델을 자동으로 쿼리합니다. 둘 다 2D 분할 모델을 여러 번 제안해야 합니다. 놀랍게도 SAGA는 거의 1000분의 1의 시간 동안 이들과 비슷한 성능을 보여줍니다. 약간의 저하가 3DGS에서 학습한 최적이 아닌 형상으로 인해 발생한다는 점에 유의하세요.

  SA3D와 비교 . LERF-futtes 장면을 기반으로 SA3D를 실행하여 많은 객체에 대한 주석 세트를 얻습니다. 그런 다음 SAGA를 사용하여 동일한 객체를 분할하고 각 객체의 IoU 및 시간 비용을 확인합니다. 결과는 Table 3과 같으며, SA3D와 비교한 시각화 결과도 제공한다. SA3D의 엄청난 GPU 메모리 비용으로 인해 SAGA의 훈련 해상도가 훨씬 높다는 점은 주목할 가치가 있습니다. 이는 SAGA가 더 짧은 시간에 더 높은 품질의 3D 자산을 얻을 수 있음을 보여줍니다. 훈련 시간(장면당 ~10분)을 고려하더라도 SAGA의 객체당 평균 분할 시간은 SA3D보다 훨씬 작습니다.
여기에 이미지 설명을 삽입하세요.

3. 정성적 실험

여기에 이미지 설명을 삽입하세요.

4. 실패사례

표 2에서 SAGA는 이전 방법에 비해 차선의 성능을 나타냅니다. 이는 LLFF-room 장면의 분할이 실패하여 SAGA의 한계가 드러나기 때문입니다. 그림 4에서는 일종의 포인트 클라우드로 볼 수 있는 컬러 가우스 함수의 평균을 보여줍니다. SAGA는 3DGS 모델의 기하학적 재구성이 불충분할 수 있습니다 . 빨간색 상자에 표시된 것처럼 테이블의 가우스는 상당히 희박하며 테이블 표면을 나타내는 가우스는 실제 표면 아래에 떠 있습니다. 설상가상으로 의자 위의 가우스 분포는 테이블 위의 사람과 매우 가깝습니다. 이러한 문제는 차별적인 3D 특징 학습을 방해할 뿐만 아니라 후처리의 효율성에도 영향을 미칩니다. 우리는 3DGS 모델의 기하학적 충실도를 개선하면 이 문제를 개선할 수 있다고 믿습니다.

여기에 이미지 설명을 삽입하세요.







  

  


d \sqrt{d} 1 0.24 \frac {1}{0.24}0.241 x ˉ \bar{x}엑스ˉ x ^ \모자{x}엑스^ x ~ \틸드{x}엑스~ ϵ \epsilonϵ



요약하다

提示:这里对文章进行总结:

예를 들면 다음과 같습니다. 오늘 말씀드릴 내용은 이 글에서는 pandas의 사용법을 간략하게만 소개한 것인데, pandas는 데이터를 빠르고 편리하게 처리할 수 있는 수많은 기능과 방법을 제공합니다.

추천

출처blog.csdn.net/qq_45752541/article/details/135380635