Apenas 50 KB! | Shanghai Jiaotong University MICCAI2023 propôs recentemente uma variante super U-Net, com parâmetros e cálculos caindo 494 e 160 vezes, respectivamente

guia

Hoje, gostaria de apresentar MICCAI 2023o mais recente trabalho de pesquisa publicado pela Shanghai Jiaotong University em , um Efficient Group Enhanced UNet, EGE-UNetmodelo chamado , que se baseia em U-Netuma modificação mágica para resolver os problemas enfrentados na segmentação de imagens médicas (especialmente lesões de pele). Como foi desenvolvido para aplicativos móveis de saúde, ele aborda os problemas de alto parâmetro e carga computacional enfrentados por muitos modelos atuais.

Em termos simples, EGE-UNetdois módulos principais são fundidos:

  • Group multi-axis Hadamard Product Attention module( GHPA )
  • Group Aggregation Bridge module( GAB )

Entre eles, o mecanismo de atenção do produto HadamardGHPA (HPA) é usado para extrair informações de lesões de múltiplas perspectivas , agrupando recursos de entrada e operando em diferentes eixos . Essa abordagem é inspirada no Multi-Head Self-Attention (MHSA), enquanto o HPA pode reduzir o tamanho do modelo porque sua complexidade é projetada para ser linear e diferente da complexidade quadrática do MHSA.HPA

Por outro lado, GABinformações multiescala podem ser efetivamente extraídas pela fusão de recursos semânticos de alto nível e recursos de detalhes de baixo nível de diferentes escalas e máscaras geradas pelo decodificador por meio da agregação de grupos, que é crucial para a segmentação de imagens médicas.

Finalmente, ao fundir os dois módulos acima, os autores propõem EGE-UNetum modelo que atinge excelente desempenho de segmentação com parâmetros extremamente baixos e complexidade computacional. O modelo não se concentra apenas na melhoria do desempenho, mas também dá mais atenção à usabilidade em ambientes do mundo real.

De acordo com o relatório experimental neste artigo, o EGE-UNet superou os métodos de ponta existentes nos dois principais conjuntos de dados de segmentação de doenças de pele de ISIC2017 e ISIC2018 e, em comparação com o modelo, mantendo excelente desempenho de segmentação, os parâmetros e os custos de cálculo foram reduzidos em 494 vezes e TransFuse160 vezes , respectivamente . Tanto quanto é do conhecimento dos autores, este é o primeiro modelo cujo número de parâmetros é limitado a 50KB , uma prova da sua eficiência e utilidade!

método

Estrutura

Como mostrado, EGE-UNeto design segue a arquitetura em forma de U, incluindo uma seção simétrica de codificador-decodificador. O codificador stageconsiste em seis, com o número de canais em cada estágio sendo {8, 16, 24, 32, 48, 64}. Os três primeiros estágios empregam convoluções comuns, enquanto os últimos três estágios usam o GHPA proposto para extrair informações de representação de múltiplas visualizações.

Comparado com a conexão simples Skip connectionno UNet, o EGE-UNet é integrado em todos os estágios entre o codificador e o decodificador GAB. Além disso, o modelo também utiliza supervisão profunda para gerar previsões de máscara em diferentes escalas, que são usadas na função de perda como uma das entradas do GAB. Por meio da integração desses módulos avançados, o EGE-UNet reduz significativamente os parâmetros e a carga computacional, ao mesmo tempo em que melhora o desempenho da segmentação em relação aos métodos anteriores.

módulo GHPA

HPAPara resolver o problema de complexidade quadrática introduzido pelo MHSA, os autores propõem operações com complexidade linear . Especificamente, para a entrada x x e um tensor apreensível inicializado aleatoriamente p p , primeiro usamos a interpolação bilinear para converter p p ajustado para combinar x x 相匹配的维度。然后,在 p p 上使用深度可分卷积(DW),然后在 x x p p 之间进行哈达玛积操作以获得输出。

需要注意的是,仅使用 HPA 是无法从多个角度提取信息,这意味着分割效果很一般。因此,作者根据 HPA 提出了 GHPA,如算法1所示:

我们将输入在通道维度上均等地划分为四个组,并分别在第一、二、三组的高-宽、通道-高、通道-宽轴上执行HPA。对于最后一组,我们只在特征映射上使用 DW。最后,通过沿着通道维度连接四个组,然后应用另一个 DW以整合来自不同角度的信息。

GAB 模块

众所周知,对于密集预测任务来说,获取多尺度信息至关重要。因此,本文引入了GAB,它接受三个输入:

  1. 低级特征
  2. 高级特征
  3. 掩码

如上图所示,首先,使用深度可分卷积(DW)和双线性插值调整高级特征的大小,以匹配低级特征的大小。其次,我们将两个特征图沿着通道维度划分为四个组,并将低级特征的一组与高级特征的一组连接起来,得到四组融合特征。对于每组融合特征,掩码被连接。接下来,对不同的组应用带有3个核大小和不同扩张率的扩张卷积,以便提取不同尺度的信息。最后,沿着通道维度连接四个组,然后应用核大小为1的普通卷积以实现不同尺度特征之间的交互。

最后,由于不同的 GAB 需要不同尺度的掩码信息,因此这里采用深监督计算不同阶段的损失函数,以生成更准确的掩码信息。

实验

在实验部分,EGE-UNet 在两个公开皮肤病变分割数据集(ISIC2017和ISIC2018)上进行了验证,展现出了超过现有方法的表现。在ISIC2017数据集上,相比于更大的模型,比如TransFuseEGE-UNet不仅有更优的性能,而且显著减少了参数和计算量,分别达到494倍和160倍。

此外,对于其他轻量级模型,EGE-UNet 超过了 UNeXt-S,增加了 1.55% 的 mIoU 和 0.97% 的DSC,同时参数和计算量减少了 17% 和 72%。此外,EGE-UNet 首次将参数减少到约 50KB,同时保持了优秀的分割性能。

在消融实验中,作者同样证明了提出的GHPA和GAB模块的有效性。它们不仅提升了性能,而且显著减少了参数和计算量。

总结

本文主要提出了两个新颖的模块,GHPA 和 GAB,这两个模块大大降低了模型的复杂性,并且提高了模型的性能。同时,本文基于这两个模块构建了EGE-UNet,用于皮肤病变分割任务,实验结果表明,该方法达到了最先进的性能,同时显著降低了资源需求。

Guess you like

Origin juejin.im/post/7258549014910615589