【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(7 月 11 日论文合集)

一、分割|语义相关(12篇)

1.1 Semantic-SAM: Segment and Recognize Anything at Any Granularity

语义-SAM:以任何粒度分割和识别任何内容

https://arxiv.org/abs/2307.04767

在这里插入图片描述
在本文中,我们引入语义SAM,一个通用的图像分割模型,使分割和识别任何所需的粒度。我们的模型具有两个关键优势:语义感知和粒度丰富。为了实现语义感知,我们整合了三个粒度的多个数据集,并引入了对象和部件的解耦分类。这使得我们的模型能够捕获丰富的语义信息。对于多粒度能力,我们在训练期间提出了一种多选择学习方案,使每次点击能够在多个级别上生成与多个地面真实掩码相对应的掩码。值得注意的是,这项工作代表了首次尝试在SA-1B,通用和部分分割数据集上联合训练模型。实验结果和可视化结果表明,我们的模型成功地实现了语义感知和粒度丰富。此外,将SA-1B训练与其他分割任务(例如全景和部分分割)相结合,可以提高性能。我们将提供代码和演示,以供进一步探索和评估。

1.2 A Graph Multi-separator Problem for Image Segmentation

一种用于图像分割的图多分离器问题

https://arxiv.org/abs/2307.04592

在这里插入图片描述
我们提出了一种新的抽象的图像分割任务的形式,我们称之为多分离器问题的组合优化问题。可行的解决方案针对每个像素指示其是否属于片段或片段分隔符,并且针对像素对指示像素是否属于相同片段。这与紧密相关的提升多切割问题形成对比,在提升多切割问题中,每个像素都与一个片段相关联,并且没有像素明确表示分离结构。虽然多分离器的问题是NP难,我们确定了两种特殊情况下,它可以有效地解决。此外,我们定义了两个局部搜索算法的一般情况下,并证明其有效性,在分割模拟体积图像的泡沫细胞和细丝。

1.3 Partial Vessels Annotation-based Coronary Artery Segmentation with Self-training and Prototype Learning

基于局部血管标注的自训练和原型学习冠状动脉分割

https://arxiv.org/abs/2307.04472

在这里插入图片描述
冠状动脉计算机断层扫描血管造影(CCTA)图像上的冠状动脉分割对于临床应用至关重要。由于需要专业知识和劳动密集型的注释过程,对相关的标签有效的学习算法的需求不断增长。为此,我们提出了部分血管注释(PVA)的基础上的冠状动脉分割和临床诊断特征的挑战。此外,我们提出了一个渐进的弱监督学习框架,以实现准确的分割PVA。首先,我们提出的框架学习血管的局部特征,将知识传播到未标记的区域。随后,它通过利用传播的知识来学习全局结构,并校正在传播过程中引入的错误。最后,它利用特征嵌入和特征原型之间的相似性来增强测试输出。临床数据的实验表明,我们提出的框架优于竞争的PVA(24.29%的血管)下的方法,并实现了与基线模型使用完整的注释(100%的血管)的躯干连续性相当的性能。

1.4 Test-Time Adaptation for Nighttime Color-Thermal Semantic Segmentation

基于测试时间自适应的夜间色热语义分割

https://arxiv.org/abs/2307.04470

在这里插入图片描述
在不利的视觉条件下理解场景的能力,例如,夜间,引发了对RGB-Thermal(RGB-T)语义分割的积极研究。然而,它基本上受到两个关键问题的阻碍:1)RGB图像的昼夜间隙大于热图像的昼夜间隙,以及2)RGB图像在夜间的类性能并不一致地高于或低于热图像的类性能。我们提出了第一个测试时间适应(TTA)框架,被称为夜间TTA,解决夜间RGBT语义分割的问题,而无需访问源(白天)的数据在适应。我们的方法享有三个关键技术部分。首先,作为一种模态(例如,RGB)比另一个(例如,热),成像异质性细化(IHR)采用基于RGB和热分支的交互分支以防止跨模态差异和性能降级。然后,类感知精化(CAR)被引入到获得可靠的集成逻辑的基础上像素级分布聚合的三个分支。此外,我们还为我们的TTA框架设计了一个特定的学习方案,该方案使集合logits和三个学生logits能够在我们的Night TTA测试阶段协同学习以提高预测质量。大量的实验表明,我们的方法实现了最先进的(SoTA)性能,mIoU提高了13.07%。

1.5 Mx2M: Masked Cross-Modality Modeling in Domain Adaptation for 3D Semantic Segmentation

Mx2M:3D语义分割领域自适应中的掩蔽跨通道建模

扫描二维码关注公众号,回复: 15612732 查看本文章
https://arxiv.org/abs/2307.04231

在这里插入图片描述
用于3D语义分割的跨模态域自适应的现有方法仅经由通过跨模态特征匹配获得的2D-3D互补性来预测结果。然而,由于在目标域中缺乏监督,互补性并不总是可靠的。当畴隙较大时,结果并不理想。为了解决缺乏监督的问题,我们引入掩蔽建模到这个任务中,并提出了一种方法Mx2 M,它利用掩蔽的跨模态建模,以减少大的域差距。我们的Mx2 M包含两个组件。一个是核心解决方案,跨模态移除和预测(xMRP),它使Mx2 M适应各种场景,并提供跨模态的自我监督。另一种是一种新的跨模态特征匹配方法,即动态跨模态滤波器(DxMF),它保证了整个方法动态地使用更合适的二维-三维互补性。评估Mx2 M三个DA场景,包括白天/夜间,美国/新加坡,和A2 D2/SemanticKITTI,带来了巨大的改进,比以前的方法在许多指标。

1.6 Enhancing Building Semantic Segmentation Accuracy with Super Resolution and Deep Learning: Investigating the Impact of Spatial Resolution on Various Datasets

利用超分辨率和深度学习提高建筑物语义分割精度:研究空间分辨率对不同数据集的影响

https://arxiv.org/abs/2307.04101

在这里插入图片描述
遥感和深度学习技术的发展使得能够以高精度和高效率构建语义分割。尽管他们在不同的任务中取得了成功,但关于空间分辨率对基于深度学习的建筑语义分割的影响的讨论非常不足,这使得选择更高成本效益的数据源成为一个巨大的挑战。为了解决上述问题,在这项研究中,我们创建三个研究区域的遥感图像到多个空间分辨率的超分辨率和下采样。在此之后,两个代表性的深度学习架构:UNet和FPN被选择用于模型训练和测试。从三个城市使用两种深度学习模型获得的实验结果表明,空间分辨率极大地影响了建筑物分割结果,并且在0.3m左右具有更好的成本效益,我们相信这将是数据选择和准备的重要见解。

1.7 CMDFusion: Bidirectional Fusion Network with Cross-modality Knowledge Distillation for LIDAR Semantic Segmentation

CMDFusion:基于跨通道知识提取的双向融合网络LIDAR语义分割

https://arxiv.org/abs/2307.04091

在这里插入图片描述
2D RGB图像和3D LIDAR点云为自动驾驶汽车的感知系统提供了补充知识。已经探索了几种2D和3D融合方法用于LIDAR语义分割任务,但它们遭受不同的问题。2D到3D融合方法在推理过程中需要严格配对的数据,这在现实世界场景中可能是不可用的,而3D到2D融合方法不能明确地充分利用2D信息。因此,我们提出了一个双向融合网络跨模态知识提取(CMDFusion)在这项工作。我们的方法有两个贡献。首先,我们的双向融合方案显式和隐式地增强了3D功能,通过2D到3D融合和3D到2D融合,分别,这超过了任何一个单一的融合方案。其次,我们将2D知识从2D网络(相机分支)提炼到3D网络(2D知识分支),使得3D网络即使对于不在相机的FOV(视场)中的那些点也可以生成2D信息。以此方式,在推断期间不再需要RGB图像,因为2D知识分支根据3D LIDAR输入提供2D信息。我们表明,我们的CMDFusion在SemanticKITTI和nuScenes数据集上实现了所有基于融合的方法中的最佳性能。代码将在www.example.com发布https://github.com/Jun-CEN/CMDFusion。

1.8 BPNet: Bézier Primitive Segmentation on 3D Point Clouds

BPNet:三维点云的Bézier基元分割

https://arxiv.org/abs/2307.04013

在这里插入图片描述
本文提出了BPNet,这是一种新型的端到端深度学习框架,用于学习3D点云上的Bézier基元分割。现有的作品分别对待不同的原始类型,从而将它们限制在有限的形状类别。为了解决这个问题,我们寻求一个广义的原始分割点云。从NURBS模型的B’ezier分解中得到启发,将其应用于指导点云分割,摆脱了原始类型。提出了一种联合优化框架,用于在级联架构上同时学习贝塞尔基元分割和几何拟合。具体来说,我们引入了一个软投票正则化器来改善原始分割,并提出了一个自动权重嵌入模块来聚类点特征,使网络更加强大和通用。我们还介绍了一个重建模块,我们成功地同时处理多个CAD模型与不同的图元。我们在合成ABC数据集和真实扫描数据集上进行了广泛的实验,以验证和比较我们的方法与不同的基线方法。实验表明,优越的性能比以前的工作在分割方面,具有更快的推理速度。

1.9 Building and Road Segmentation Using EffUNet and Transfer Learning Approach

基于EffUNet和迁移学习方法的建筑物和道路分割

https://arxiv.org/abs/2307.03980

在这里插入图片描述
在城市中,关于城市对象的信息,如供水、铁路线、电力线、建筑物、道路等,这是城市规划所必需的。特别是,决策者需要了解这些物体、地点和能力的分布情况,以便作出有影响力的决定。本文的研究目的是从卫星和无人机拍摄的航拍图像中分割出建筑物和道路。已经提出了许多不同的架构的语义分割任务和UNet是其中之一。在这篇论文中,我们提出了一个新的架构,基于Google新提出的EfficientNetV2作为编码器的特征提取与UNet解码器的构造分割图。使用这种方法,我们实现了马萨诸塞州建筑和道路数据集的基准得分,mIOU分别为0.8365和0.9153。

1.10 CoactSeg: Learning from Heterogeneous Data for New Multiple Sclerosis Lesion Segmentation

CoactSeg:从异质数据中学习新的多发性硬化症病变分割

https://arxiv.org/abs/2307.04513

在这里插入图片描述
多发性硬化(MS)的临床治疗中,新病灶分割对于评估疾病进展和疗效至关重要。然而,昂贵的数据采集和专家注释限制了应用大规模深度学习模型的可行性。由于具有所有病变标记的单时间点样本相对容易收集,因此利用它们来训练深度模型对于改进新病变分割是非常期望的。因此,我们提出了一种协同动作分割(CoactSeg)框架来利用异构数据(即,新病灶注释的两个时间点数据和所有病灶注释的单个时间点数据)用于新的MS病灶分割。CoactSeg模型设计为统一模型,具有相同的三个输入(基线、随访及其纵向脑差异)和相同的三个输出(相应的所有病变和新病变预测),无论使用哪种类型的异质数据。此外,提出了一种简单有效的关系正则化,以确保三个输出之间的纵向关系,以提高模型的学习。大量的实验表明,利用异构数据和建议的纵向关系约束,可以显着提高新的病变和所有病变分割任务的性能。同时,我们还介绍了一个内部MS-23 v1数据集,包括38个大洋洲单时间点样本,所有病变标签。代码和数据集在www.example.com上发布https://github.com/ycwu1997/CoactSeg。

1.11 Ariadne’s Thread:Using Text Prompts to Improve Segmentation of Infected Areas from Chest X-ray images

Ariadne的线索:使用文本提示改进胸部X光图像中感染区域的分割

https://arxiv.org/abs/2307.03942

在这里插入图片描述
肺部感染区域的分割对于量化肺部疾病(如肺部感染)的严重程度是必不可少的。现有的医学图像分割方法大多是基于图像的单模态方法。然而,这些仅图像的方法往往会产生不准确的结果,除非用大量的注释数据进行训练。为了克服这一挑战,我们提出了一种语言驱动的分割方法,使用文本提示,以改善分割结果。在QaTa-COV 19数据集上的实验表明,与单峰方法相比,我们的方法至少将Dice分数提高了6.09%。此外,我们的扩展研究揭示了多模态方法的灵活性方面的信息粒度的文本和表明,多模态方法有显着的优势,仅图像的方法在所需的训练数据的大小。

1.12 Effect of Intensity Standardization on Deep Learning for WML Segmentation in Multi-Centre FLAIR MRI

强度标准化对多中心FLAIR图像WML分割深度学习的影响

https://arxiv.org/abs/2307.03827

在这里插入图片描述
用于MRI中白质病变(WML)分割的深度学习(DL)方法在应用于来自扫描仪或中心的数据时性能降低,该数据与训练数据不一致(OOD)。这对于翻译和大规模采用至关重要,因为当前的模型不能很容易地应用于来自新机构的数据。在这项工作中,我们评估了几种强度标准化的MRI方法作为一个预处理步骤的WML分割多中心液体衰减反转恢复(FLAIR)MRI。我们评估了一种专门为FLAIR MRI开发的方法,称为IAMLAB以及其他流行的归一化技术,如白色条带,Nyul和Z-评分。我们提出了一个集成模型,结合了这些模型的预测。在标准化图像以及原始数据上训练跳过连接UNet(SC UNet),并且在多个维度上评估分割性能。训练(分布内)数据由60个卷的单个研究组成,测试(OOD)数据是来自三个临床队列的128个未见卷。结果表明,IAMLAB和Ensemble提供了更高的WML分割性能相比,原始数据或其他归一化方法。IAMLAB & Ensemble具有最高的切片相似系数(DSC)的分布数据(0.78和0.80)和临床OOD数据。对于所有病变类别,IAMLAB的DSC与原始数据相比显著更高(p<0.05)(LL> 25 mL:0.77对0.71; 10mL<= LL<25mL:0.66对0.61; LL<10mL:0.53 vs. 0.52)。IAMLAB和Ensemble归一化方法减轻了MRI域偏移,并且对于看不见的FLAIR数据中基于DL的WML分割是最佳的。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131658011