[Leitura de artigo] Ataque físico de backdoor no sistema de detecção de faixa em direção autônoma

Título do artigo: Ataques físicos de backdoor a sistemas de detecção de faixa em direção autônoma
Ano de publicação: 2022-MM (Conferência Internacional ACM sobre Multimídia, CCF-A)
Informações do autor: Universidade Xingshuo Han (Politécnica de Nanyang), Guowen Xu (Universidade Tecnológica de Nanyang) , Yuan Zhou* (Universidade Tecnológica de Nanyang), Xuehuan Yang (Universidade Tecnológica de Nanyang), Jiwei Li (Universidade Tecnológica de Nanyang), Tianwei Zhang (Universidade Tecnológica de Nanyang)
Nota: Um artigo sobre a documentação do Lane Detection Attack

Abstrato

Os veículos autônomos modernos empregam modelos DNN de última geração para interpretar os dados dos sensores e detectar o ambiente. No entanto, os modelos DNN são suscetíveis a diferentes tipos de ataques adversários, representando riscos significativos para a segurança de veículos e passageiros. Uma ameaça proeminente são os ataques backdoor, onde os adversários podem corromper os modelos DNN envenenando amostras de treinamento . Embora tenha havido uma extensa investigação sobre ataques backdoor para tarefas tradicionais de visão computacional, a sua praticidade e aplicabilidade em cenários de condução autónoma têm sido menos exploradas, especialmente no mundo físico.

O alvo deste artigo é o sistema de detecção de faixa , que é um módulo indispensável para muitas tarefas de condução autônoma, como navegação e mudança de faixa. Projetei e implementei o primeiro ataque backdoor físico contra o sistema . Nosso ataque é eficaz contra diferentes tipos de algoritmos de detecção de linhas de faixa . Dois métodos de ataque ( anotação venenosa e anotação limpa ) são introduzidos para gerar amostras de envenenamento. Usando essas amostras, o modelo de detecção de faixa treinado é infectado com backdoors e pode ser ativado por objetos comuns, como cones de trânsito, para fazer falsas detecções, fazendo com que o veículo saia da estrada ou entre na faixa oposta. Uma avaliação extensiva de conjuntos de dados públicos e de carros autônomos físicos demonstra que o ataque backdoor proposto é eficaz, furtivo e robusto contra várias soluções de defesa. Nosso código e vídeos experimentais podem ser encontrados em https://sites.google.com/view/lane-detection-attack/lda .

1. Introdução

O rápido desenvolvimento da tecnologia de aprendizagem profunda melhorou as capacidades de percepção dos carros autônomos, permitindo-lhes compreender o ambiente e realizar ações inteligentes. Os veículos coletam muitos tipos de dados de sensores e usam modelos DNN para completar diferentes funções. A detecção de faixa é um recurso importante projetado para identificar faixas de tráfego a partir de imagens ou vídeos capturados por câmeras. Esta funcionalidade é crucial para seguir, mudar de faixa e ultrapassar na condução autónoma. Nos últimos anos, um grande número de algoritmos e métodos baseados em aprendizagem profunda foram introduzidos, melhorando significativamente a precisão da detecção e o desempenho em tempo real [17, 22, 24, 31, 35, 36, 46, 47, 67].

Infelizmente, pesquisas anteriores mostraram que os modelos de redes neurais profundas não são robustos e podem ser facilmente enganados por entidades maliciosas. Uma ameaça notória é o backdoor DNN [12, 13, 32, 57]. O invasor incorpora um backdoor secreto no modelo da vítima, envenenando o conjunto de treinamento . Este backdoor permanece inativo durante amostras normais de inferência de entrada . Ele é ativado por amostras maliciosas que contêm um gatilho específico do adversário que induz o modelo infectado a fornecer previsões incorretas. Os pesquisadores propuseram vários modelos DNN para visão computacional [3, 21, 27, 33, 34, 54, 58], processamento de linguagem natural [5, 10, 44, 60], aprendizagem por reforço [25, 53, 65], etc. novo ataque. No entanto, nenhum estudo investigou oportunidades de backdoor para sistemas de detecção de faixas.

Este artigo visa preencher essa lacuna projetando e implementando o primeiro ataque backdoor prático em um modelo DNN para detecção de faixa no mundo físico. Existem vários desafios para atingir esse objetivo. Primeiro, o trabalho existente concentra-se principalmente em ataques backdoor no mundo digital, onde um invasor pode manipular arbitrariamente amostras de entrada para adicionar gatilhos (por exemplo, alterar um bloco de pixels em uma imagem). Devido à lacuna semântica entre os mundos digital e físico, é difícil explorar estas técnicas para atacar aplicações da vida real. Alguns trabalhos implementam posteriormente ataques físicos de backdoor no mundo real [6, 26, 40, 55, 64]. No entanto, esses métodos visam principalmente modelos de classificação de faces. Em contraste, os modelos de detecção de pistas não podem prever os rótulos, o que aumenta a dificuldade de geração de amostras tóxicas. Além disso, os gatilhos físicos utilizados para atacar o modelo de classificação facial não podem ser aplicados à detecção de faixas devido às diferenças semânticas entre os dois cenários. Os gatilhos físicos precisam ser cuidadosamente redesenhados.

Notas: 1. O trabalho existente centra-se em ataques backdoor no mundo digital; 2. Devido à lacuna entre o mundo digital e o mundo físico, é difícil usar estas técnicas para atacar aplicações da vida real; 3. Alguns trabalhos foram posteriormente realizado no mundo real Implementar ataques físicos de backdoor;4. No entanto, esses métodos visam principalmente modelos de classificação facial e modelos de detecção de pista não são aplicáveis.

Em segundo lugar, para tornar o backdoor mais secreto, trabalhos anteriores propuseram ataques de rótulo limpo contra modelos de classificação, onde amostras envenenadas ainda possuem os rótulos corretos, comprometendo assim o modelo [43, 66]. Isto é conseguido adicionando perturbações adversárias para alterar a classe dessas amostras envenenadas. Como os modelos de detecção de pista não podem prever classes, é difícil aproveitar essas soluções para gerar amostras de envenenamento visualmente normais.

Terceiro, os ataques backdoor existentes visam apenas algoritmos específicos de aprendizagem profunda (como classificação) ao envenenar amostras de dados. No entanto, isso não se aplica a cenários de detecção de faixa, que podem usar diferentes algoritmos para treinar o modelo, como métodos baseados em segmentação [35] ou baseados em âncora [46]. Gerar amostras uniformes de envenenamento é uma tarefa desafiadora que pode atacar qualquer modelo de detecção de pista, independentemente de seu algoritmo.

Observação: os ataques backdoor existentes visam apenas algoritmos específicos de aprendizagem profunda, como algoritmos de classificação, ao envenenar amostras de dados. Em cenários de detecção de pista, diferentes algoritmos (como detecção de pista baseada em segmentação, detecção de pista baseada em âncora) podem ser usados ​​para treinar modelos, portanto, gerar amostras envenenadas uniformes é uma tarefa desafiadora.

Nosso ataque proposto pode enfrentar os desafios acima com algumas inovações. Primeiro, propomos um novo design de gatilhos semânticos em ambientes de condução autônoma. Depois de estudar alguns conjuntos de dados de tráfego convencionais, selecionamos um conjunto de dois cones de trânsito com formatos e locais específicos como gatilhos para acionar o backdoor. Este gatilho parece natural em um ambiente rodoviário e é quase imperceptível. Ao mesmo tempo, é único o suficiente para não afetar a situação normal de condução autônoma. Em segundo lugar, apresentamos dois novos métodos para envenenar amostras de treinamento e manipular anotações para obter incorporação backdoor. (1) Ataque de anotação venenosa: um invasor pode criar amostras venenosas anotando deliberadamente as amostras com gatilhos. (2) Ataque de anotação limpa: esta tecnologia usa a vulnerabilidade de dimensionamento de imagem [56] para ocultar as anomalias de amostras maliciosas. Especificamente, criamos amostras tóxicas que são visualmente semelhantes às amostras limpas, possuem anotações corretas e não possuem gatilhos. Após o dimensionamento da imagem, essas amostras fornecem limites de pista falsos e um ponto de disparo, tornando-se um meio eficaz de incorporação de backdoor. Ambos os métodos são independentes de algoritmos: o envenenamento do conjunto de dados não requer conhecimento do algoritmo usado, e os resultados mostram que o envenenamento de amostras é eficaz para diferentes modelos e algoritmos. Isso aumenta muito o poder e a aplicabilidade do ataque.

Notas: 1. Crie amostras venenosas (visualmente semelhantes às amostras limpas, com anotação correta, sem gatilhos); 2. Após o dimensionamento da imagem, essas amostras fornecem limites de pista errados e um ponto de gatilho, tornando-se o meio eficaz incorporado na porta dos fundos.

Implementamos ataques backdoor em quatro modelos modernos de detecção de pistas . A avaliação de conjuntos de dados públicos mostra que o nosso ataque pode atingir uma taxa de sucesso de cerca de 96%, ao mesmo tempo que injeta menos de 3% de dados envenenados. O uso de dois veículos não tripulados (Figura 1(a)) para executar um sistema de software de direção autônoma pronto para uso em um ambiente físico verificou ainda mais a eficácia e a robustez do ataque. Conforme mostrado na Figura 1(b), o modelo de compromisso faz com que o veículo atravesse a pista e acabe batendo nos arbustos na beira da estrada. Isto demonstra a seriedade e praticidade do ataque proposto, e este novo vetor de ataque também deve ser cuidadosamente considerado ao projetar modelos robustos de condução autônoma.

Insira a descrição da imagem aqui

Descrição da imagem: A Figura 1 mostra a plataforma de teste e os resultados dos testes deste artigo: A Figura (a) é o veículo autônomo Baidu Apollo D-Kit equipado com uma câmera Leopard; A Figura (b) é o veículo não tripulado Weston equipado com um RealSense Câmera D435i Veículos terrestres; A Figura (c) mostra os efeitos de dois ataques físicos. A imagem à esquerda é o limite entre a imagem original e a estrada real (Ground True); a imagem do meio é o resultado da detecção de erros sob o ataque de anotação venenosa ; a imagem à direita é o resultado da detecção de erros sob o ataque de limpeza. ataque de anotação .

Em resumo, fizemos as seguintes contribuições:

  • Projetou o primeiro ataque backdoor em sistemas de detecção de faixa em direção autônoma.
  • Implementou o primeiro ataque backdoor físico em modelos não classificados. ataque independente de algoritmo.
  • Propôs o primeiro ataque físico de backdoor com anotação limpa.
  • Avaliações extensivas são realizadas em conjuntos de dados e carros físicos autônomos para demonstrar a importância do ataque.

2. Antecedentes

2.1. Detecção de faixa baseada em DNN

Pesquisa focada em sistemas de detecção de pista baseados em DNN de ponta a ponta como vítimas de ataques backdoor. Esta é uma característica importante nos veículos autônomos modernos, baseada no reconhecimento de imagem da pista capturada pela câmera frontal. Para alcançar maior precisão e eficiência, foram propostas diferentes categorias de métodos de detecção, que são resumidos a seguir.

  • Métodos baseados em segmentação [35]: Estas são as técnicas de detecção de faixas mais populares, com desempenho significativo em diferentes desafios de detecção de faixas. Eles tratam a detecção de pista como uma tarefa de segmentação e estimam se cada pixel está no limite da pista. Eles foram comercializados em muitos produtos de automóveis autônomos, como o Baidu Apollo [2].
  • Métodos de classificação por linha [17, 36]: Essas soluções usam algoritmos de classificação multiclasse para prever a localização das pistas para cada linha e determinar os locais com maior probabilidade de conter marcadores de limite da pista. Eles podem reduzir custos computacionais, mas só podem detectar faixas fixas (observe as limitações deste esquema).
  • Métodos baseados em polinômios [47]: Esses métodos leves geram polinômios para representar limites de pistas por meio de regressão polinomial profunda. Eles podem atender aos requisitos em tempo real, mas há uma certa diminuição na precisão. Este algoritmo foi implantado no OpenPilot [8].
  • Métodos baseados em âncoras [46]. Essas soluções aproveitam modelos de detecção de objetos (por exemplo, Faster R-CNN) e conhecimento de domínio de formatos de limites de pista para prever pistas. Eles podem alcançar desempenho comparável aos métodos baseados em segmentação.

Trabalhos anteriores demonstraram a vulnerabilidade desses modelos de detecção de faixa a exemplos adversários [23, 42]. Neste artigo, mostramos que eles também são vulneráveis ​​a ataques backdoor. O objetivo do nosso ataque é gerar um conjunto de dados venenoso de modo que qualquer modelo de detecção de pista treinado a partir dele seja infectado pelo backdoor, independentemente do método de detecção. (Não tem nada a ver com o método de detecção. Em outras palavras, nenhum método de detecção pode escapar deste ataque)

2.2. Ataques de backdoor

Em um ataque backdoor, o invasor tenta subverter o modelo DNN da vítima, que mantém previsões corretas para amostras normais, mas prevê erroneamente qualquer amostra de entrada contendo um gatilho específico [32]. O método de ataque mais comum é envenenar uma pequena porção de amostras de treinamento para incorporar um backdoor no modelo durante o treinamento [6]. Ao longo dos anos, um grande número de métodos foram propostos para melhorar [28] a eficácia do ataque, a ocultação e o escopo da aplicação, como ataques furtivos [27], semânticos [3], de reflexão [33] e compostos [29] de backdoor.

  • Ataques backdoor físicos: Em comparação com ataques digitais, existem relativamente poucos estudos sobre ataques backdoor físicos. A maioria das pesquisas concentra-se em modelos de classificação facial no mundo real [6, 26, 40, 55, 64]. No entanto, atualmente não há pesquisas sobre ataques físicos de backdoor contra modelos não classificados. Nosso objetivo é preencher essa lacuna visando sistemas de detecção de faixas.
  • Defesas de backdoor: Além dos ataques de backdoor, várias soluções de defesa também foram propostas. Eles geralmente podem ser divididos em três categorias. (1) Porta traseira removida. Essas defesas são projetadas para eliminar backdoors em modelos comprometidos. Por exemplo, foi proposta [30] uma técnica de poda de modelo, que estende a técnica de poda de modelo para podar neurônios de acordo com seu valor médio de ativação. (2) Disparar reconstrução. Esses métodos visam detectar se o modelo contém backdoors e reconstruir os gatilhos. Um exemplo típico é Neural Purification [52], que otimiza os gatilhos para cada classe e então calcula um índice de anomalia para determinar se o modelo está comprometido. (3) Detecção de amostra anormal. Este tipo de solução tenta identificar se a amostra inferida contém um gatilho. STRIP [11] sobrepõe algumas imagens limpas na imagem alvo, respectivamente, e as insere no modelo para previsão. A pequena aleatoriedade nos resultados da previsão indica que o backdoor tem maior probabilidade de ser ativado pela imagem. O ataque backdoor que projetamos é robusto e imune a diferentes tipos de métodos de defesa, conforme mostrado na Seção 4.4.

2.3.Modelo de Ameaça

Os desenvolvedores de direção autônoma geralmente usam serviços de anotação de terceiros para anotar suas amostras de dados [20]. Portanto, é fácil para um fornecedor de dados malicioso ou provedor de serviços de anotação envenenar um conjunto de dados, levando a um ataque backdoor. A organização Intelligence Advanced Research Projects Activity (IARPA) destacou esta ameaça e a importância de proteger os sistemas de condução autônoma contra ataques de backdoor [19].

Com base neste modelo de ameaça de backdoor, presumimos que os invasores só podem injetar um pequeno subconjunto de amostras maliciosas no conjunto de treinamento. Projetaremos um ataque de anotação limpa onde, sem nenhum gatilho, as amostras envenenadas se parecem visualmente com amostras normais e são anotadas corretamente, tornando o envenenamento mais furtivo.

O adversário não tem controle sobre o processo de treinamento do modelo. Mais importante ainda, consideramos o requisito independente do algoritmo: o adversário não conhece o algoritmo que a vítima utilizará para treinar o modelo de detecção de faixa. Trabalhos anteriores raramente consideram esse requisito, geralmente assumindo que o adversário conhece a família de arquitetura do modelo, o algoritmo ou pelo menos a tarefa.

O objetivo do adversário é induzir o modelo a identificar incorretamente os limites da faixa de tráfego para gatilhos físicos na estrada, por exemplo, identificando uma faixa de conversão à esquerda como uma faixa de conversão à direita. Num ambiente de condução autónoma, isto pode levar a sérios problemas de segurança, com o veículo potencialmente a sair da estrada ou a colidir com um veículo na faixa em sentido contrário.

2.4. Dimensionamento de imagem

O dimensionamento da imagem é uma etapa padrão no pré-processamento de modelos de redes neurais profundas. Ele redimensiona as imagens grandes originais para um tamanho uniforme para treinamento e avaliação do modelo. As principais bibliotecas de visão computacional (como OpenCV[4], Pillow[7]) fornecem uma variedade de funções de dimensionamento de imagem, conforme mostrado na Tabela 1.
Insira a descrição da imagem aqui
Modelos de detecção de pista de última geração também empregam essas funções de escala para pré-processar imagens de inferência. Estudamos todos os 21 modelos de detecção de pista de código aberto no TuSimple Challenge [51] e descobrimos que a maioria dos modelos usa duas funções de escala comuns (bilinear e bicúbica) na Tabela 11. A adoção de uma função de escalonamento de imagem pode introduzir novos vetores de ataque para que os invasores enganem o modelo [56]. Neste artigo, também aproveitamos esta oportunidade para projetar um novo ataque de anotação limpa (Seção 3.3).

3. Metodologia

3.1. Projeto de gatilho físico

Os ataques de backdoor digital existentes muitas vezes exploram pixels como gatilhos, que são difíceis de implementar no mundo físico. É mais razoável usar objetos físicos como gatilhos para ativar backdoors. No entanto, em cenários de detecção de pista, a escolha de um objeto físico qualificado é algo muito importante. Por um lado, tem que parecer natural num ambiente rodoviário. Por outro lado, deve ser único e ter uma probabilidade muito baixa de ocorrer em circunstâncias normais.

Escolhemos um conjunto de dois cones de trânsito como gatilhos, conforme mostra a Figura 2. Cones de trânsito são muito comuns nas estradas e não são considerados maliciosos pelos desenvolvedores de modelos durante o treinamento do modelo ou pelos passageiros em veículos em operação. Para garantir que esse gatilho seja único, especificamos sua forma e localização. No formato, dois cones são colocados próximos um do outro, um em pé e outro caído. Para posição, colocamos dois cones em pistas adjacentes próximas ao limite.

Insira a descrição da imagem aqui

A porta traseira só pode ser ativada se os dois cones de trânsito atenderem aos requisitos de formato e localização. Examinamos as condições normais das estradas em conjuntos de dados de tráfego comumente usados ​​e não encontramos tal padrão de acionamento. Os atacantes podem projetar seus gatilhos com outras opções, como usar mais cones em diferentes poses e posições.

Para envenenar o conjunto de treinamento, o invasor primeiro seleciona um pequeno subconjunto de imagens normais do conjunto de dados original. Ele então inseriu gatilhos físicos nos locais desejados nas imagens selecionadas 【理解:我个人理解的就是P上去的】. Para cada imagem, ele precisava ajustar o tamanho e a distância relativa dos gatilhos com base na configuração da câmera. Para atacar o modelo backdoor, um invasor poderia simplesmente colocar dois cones de trânsito reais na estrada, conforme projetado. A porta traseira no modelo de detecção de faixa será então ativada quando o veículo mantiver uma certa distância do cone 【注意看激活的方式,是椎体和车辆在一定距离时被激活】.

Fornecemos dois métodos para os invasores manipularem as anotações que acionam as amostras, conforme descrito abaixo.

3.2. Ataque de anotação venenosa

Nossa primeira técnica é um ataque de envenenamento de anotação, em que um invasor anota deliberadamente e incorretamente imagens venenosas contendo gatilhos 【理解:车道线检测的图片不修改,修改车道线图片对应的annotation文件(注释文件)】. Conforme mostrado na Figura 3, um adversário pode modificar o limite da pista para a direção errada. Aprendendo com essas amostras venenosas, o modelo instruirá o veículo a cruzar o limite real e entrar na faixa da esquerda, que é o resultado desejado do adversário.
Insira a descrição da imagem aqui

3.3. Ataque de anotação limpa

Dados tóxicos com anotações incorretas podem ser reconhecidos por humanos. Portanto, o ataque acima só funciona se o desenvolvedor do modelo não tiver a capacidade de inspecionar manualmente as amostras de treinamento (por exemplo, o conjunto de treinamento é muito grande). Para ocultar ainda mais essas amostras, propomos uma nova técnica de Ataque de Anotação Limpa, na qual as imagens tóxicas são anotadas corretamente (ou seja, os limites da pista correspondem visualmente às anotações).

Pesquisas anteriores introduziram ataques backdoor de rótulo limpo contra modelos de classificação [43, 66]. No entanto, achamos que eles são incompatíveis com nosso cenário de detecção de pista, pois adicionam perturbações imperceptíveis nas amostras envenenadas para alterar suas classes previstas, o que não existe em tarefas de não classificação. Em vez disso, exploramos uma vulnerabilidade de dimensionamento de imagem para implementar um ataque de anotação limpa. O dimensionamento de imagens é uma técnica indispensável no pré-processamento de dados para todos os modelos de redes neurais profundas. No entanto, [56] descobriram que este processo gera novos ataques adversários: o invasor pode modificar a imagem original sem ser notado e reduzi-la para a imagem adversária desejada. [39] adotaram ainda mais essa tecnologia para implementar ataques backdoor de rótulo limpo em modelos de classificação. Inspirado por esta vulnerabilidade, nosso ataque de anotação limpa modifica amostras envenenadas com perturbações imperceptíveis que ainda possuem anotações corretas. Durante o processo de treinamento do modelo, essas amostras são rotuladas incorretamente após o dimensionamento da imagem, permitindo que o backdoor desejado seja incorporado ao modelo. A Figura 4 mostra uma visão geral do nosso ataque proposto.

Insira a descrição da imagem aqui

Insira a descrição da imagem aqui

Assumimos que o modelo de detecção de pista alvo MMM adota a escala de função de dimensionamento de imagem (ver Tabela 1). Nosso objetivo é começar com uma amostra limpas 0 s_0é0Amostra tóxica s 0 ∗ s_0^* é gerada emé0, s 0 ∗s_0^*é0Visualmente com s 0 s_0é0Indistinguível. No entanto, depois de usar o dimensionamento da imagem, scale ( s 0 ∗ ) scale(s_0^*)escala ( s _ _ _0) se torna uma amostra maliciosa. Deve-se notar que, diferentemente dos ataques de escalonamento de imagem existentes que dependem de rótulos explícitos [39, 56], não há rótulos de alvo em nosso cenário de detecção de faixa, e o objetivo do nosso ataque é induzir o veículo a se desviar da direção original, pois tanto quanto possível. Portanto, nossa estratégia é darescala ( s 0 ∗ ) escala(s_0^*)escala ( s _ _ _0) es 0 ∗ s_0^*é0Pista completamente diferente. Para conseguir isso, encontramos outro exemplo limpo s 1 s_1é1, cujas anotações apontam na direção oposta. Especificamente GT (s 0) GT(s_0)GT ( s0) é uma curva à direita eGT ( s 1 ) GT(s_1)GT ( s1) é uma curva à esquerda (conforme mostrado na Figura 4). Em seguida, adicionamos o flip-flop as 1 s_1é1Obtenha a amostra com o gatilho s 1 t s_1^té1t. Nosso objetivo é ir de s 0 s_0é0Encontre uma amostra perturbada s 0 ∗ s_0^* emé0, torna-se s 1 t s_1^t após usar o dimensionamento da imagemé1t, que pode ser resolvido com os seguintes objetivos:

Entenda:
Objetivo: partir de amostra limpa s 0 s_0é0Encontre uma amostra perturbada s 0 ∗ s_0^* emé0, amostra envenenada s 0 ∗ s_0^*é0Depois de usar a função de dimensionamento de imagem, ela se torna uma amostra maliciosa.
0 s_0é0São dados limpos e é uma curva à direita; s 1 s_1é1São dados limpos e é uma curva à esquerda; s 1 t s_1^té1té uma amostra com um gatilho.

arg ⁡ min ⁡ s 0 ∗ ( ∥ s 0 ∗ − s 0 ∥ 2 + ∥ escala ⁡ ( s 0 ∗ ) − s 1 t ∥ 2 ) \arg \min _{s_{0}^{*}}\left (\left\|s_{0}^{*}-s_{0}\right\|_{2}+\left\|\operatorname{escala}\left(s_{0}^{*}\right) -s_{1}^{t}\direita\|_{2}\direita)ar gé0min( ∥s _0-é02+ escala( s0)-é1t 2)

Conforme mostrado na Figura 4, para ativar o backdoor durante a inferência, o invasor só precisa colocar um gatilho físico em um local designado. Uma imagem de entrada com um gatilho (por exemplo, uma faixa para virar à esquerda) também passará por uma função de escala, que não altera o conteúdo, mas altera o tamanho. O modelo backdoor identificará então o gatilho e fornecerá uma previsão incorreta (por exemplo, virar à direita), o que pode levar a sérios problemas de segurança.

  • Discussão: Vale ressaltar que para resolver a Equação 3, o invasor precisa conhecer a função de escala no modelo da vítima. Isso não é difícil de conseguir em nosso modelo de ameaça: conforme mostrado na Tabela 1, há um número limitado de funções candidatas comumente usadas para dimensionamento de imagens. Um invasor pode gerar amostras venenosas correspondentes para cada função e inseri-las todas no conjunto de treinamento. Pelo menos algumas amostras contribuirão para a incorporação de backdoor criadas com funções de escalonamento correspondentes, enquanto outras amostras não terão impacto na eficácia do ataque ou no desempenho do modelo. Outro ponto é que durante a fase de treinamento, as anotações serão envenenadas após passarem pela função de escalonamento de imagens, sendo possível ao defensor identificar manualmente as amostras envenenadas inspecionando as imagens escalonadas. No entanto, é comum integrar o dimensionamento da imagem e o treinamento do modelo de ML em um único pipeline, o que é consistente com todos os métodos de detecção de limites de pista de última geração existentes [1]. Para provedores de serviços de anotação de dados, é mais prático inspecionar os dados brutos na realidade do que inspecionar os resultados intermediários no pipeline de treinamento. Portanto, nosso ataque proposto é mais sutil que o ataque de anotação venenosa.

4.Avaliação

  • Modelo e conjunto de dados: conduzimos extensos experimentos para verificar a eficácia de nosso ataque backdoor em modelos de detecção de pista de última geração. Nosso ataque é poderoso e geral para diferentes tipos de algoritmos de detecção de faixa. Sem perda de generalidade, selecionamos quatro métodos representativos de diferentes categorias:
    • SCNN [35] é um método baseado em segmentação que utiliza um esquema sequencial de passagem de mensagens para entender cenas de tráfego. O tamanho da imagem de entrada deste modelo é 512 × 288. A função de dimensionamento de imagem padrão do OpenCV é Bicúbica.
    • LaneATT [46] é um método baseado em âncora que utiliza um mecanismo de atenção para agregar informações globais para detecção de faixa. Seu tamanho de entrada é 640×360. Eles também usaram a função Bicúbica no OpenCV para redimensionar a imagem de entrada.
    • UltraFast [36] é um método baseado em classificação que usa seleção baseada em linhas para obter detecção rápida de canal. O tamanho de entrada é 800 × 288. As imagens de entrada são pré-processadas através da função Bilinear no Pillow.
    • PolyLaneNet [47] é um método baseado em polinômios que utiliza regressão polinomial profunda para gerar polinômios que representam cada marcação de pista. Cada imagem de entrada é bicúbica dimensionada para um tamanho de 320 × 180 em OpenCV.

Adotamos o conjunto de dados Tusimple Challenge [51] para gerar o conjunto de treinamento de envenenamento. Ele contém 6.408 videoclipes, cada videoclipe consiste em 20 quadros e apenas o último quadro é anotado. Portanto, possui 3.626 imagens para treinamento, 410 imagens para validação e 2.782 imagens para teste. Todos os nossos experimentos foram realizados em um servidor equipado com GPU NVIDIA GeForce 2080Ti com 11G de memória.

  • Métricas: Em tarefas baseadas em classificação, o desempenho de ataques backdoor é geralmente medido pela Precisão Benigna (BA) e Taxa de Sucesso de Ataque (ASR) calculada com base na precisão da classificação [14, 28]. BA e ASR são usados ​​para medir a precisão do modelo backdoor em dados limpos e a taxa de classificação incorreta de dados acionadores, respectivamente. No entanto, estas métricas podem não ser adequadas para avaliar o desempenho de ataques backdoor em tarefas de detecção de faixa, onde a saída do modelo de uma imagem é um conjunto de pontos consecutivos. Embora possamos calcular o ASR calculando a interseção do conjunto de pontos de saída e a verdade fundamental [51], isso não reflete o efeito de ataque real de forma imparcial (ou seja, dois ASRs idênticos podem exibir efeitos de ataque reais muito diferentes). Portanto, propomos o uso do ângulo de rotação como uma nova métrica para quantificar o desempenho do ataque.
    Insira a descrição da imagem aqui
    Esta métrica é definida como o ângulo entre a verdade básica e a direção do movimento prevista. Conforme mostrado na Tabela 5, suponha que P s P_sPeé a posição atual do veículo, P g P_gPge P t P_tPtsão respectivamente o destino real e o destino previsto do veículo no quadro de entrada atual ( P g P_gPgé o destino real, P t P_tPté o destino previsto). O que precisa ser observado é: P g P_gPge P t P_tPtsão definidos respectivamente como os centros dos pontos finais dos limites das duas faixas correspondentes no valor verdadeiro e no valor previsto. Portanto, o ângulo de rotação é definido como α \alphaα , defina a função:
    α = arccos ⁡ P s P g → ⋅ P s P t → ∥ P s P g → ∥ 2 ∥ P s P t → ∥ 2 \alpha=\arccos \frac{\overrightarrow{P_{ s} P_{g}} \cdot \overrightarrow{P_{s} P_{t}}}{\left\|\overrightarrow{P_{s} P_{g}}\right\|_{2}\left\ |\overrightarrow{P_{s}P_{t}}\right\|_{2}}a=arcos PePg 2 PePt 2PePg PePt

Dada tal métrica, um método de ataque qualificado deveria fazer com que o ângulo de rotação α \alphaα tende a zero em amostras limpas, mas diante de ataques backdoor (ângulo de rotaçãoα \alphaα ) tão grande quanto possível.

4.1.Ataque de anotação venenosa

  • Configuração: Selecionamos aleatoriamente diferentes números de imagens (ou seja, 0, 20, 40, 60, 80 e 100) do conjunto de treinamento envenenado. Injetamos gatilhos físicos em cada imagem e manipulamos suas anotações de pista. Em seguida, o conjunto envenenado é usado para treinar modelos de detecção de faixa de diferentes algoritmos. Para cada algoritmo, adotamos sua configuração padrão (por exemplo, arquitetura de rede, hiperparâmetros). Cada modelo é avaliado em dois conjuntos, um contendo 50 imagens limpas e outro contendo 50 imagens de gatilho correspondentes.
  • Resultados: A Figura 6 mostra um exemplo de detecção de pista usando diferentes modelos de backdoor no conjunto de dados TuSimple. Observamos que devido à presença de gatilhos físicos, as pistas detectadas pelos 4 modelos backdoor mudaram com a anotação de verdade pelo ângulo de rotação α \alphaα são 39◦, 35◦, 33◦ e 31◦ respectivamente. Portanto, o resultado da detecção fará com que o veículo mude para a esquerda para outra faixa. Mais resultados visuais para diferentes algoritmos e configurações podem ser encontrados no apêndice.
    Insira a descrição da imagem aqui

A fim de exibir quantitativamente o efeito do ataque, a Tabela 2 mostra o ângulo de rotação médio α \alpha de diferentes modelos de backdoor em amostras limpas sob diferentes proporções de envenenamento.α . Como pode ser visto na tabela, em amostras limpas, o impacto dos ataques de anotação venenosa no desempenho da previsão não é significativo. A Tabela 3 mostra os ângulos médios de rotação de 4 modelos diferentes de backdoor em imagens envenenadas. Como pode ser visto na Tabela 3, em comparação com o modelo benigno, o ângulo de rotação do modelo backdoor aumenta significativamente nas imagens tóxicas. Os resultados mostram que esse gatilho pode ativar efetivamente o backdoor, fazendo com que o modelo detecte incorretamente os limites da faixa e preveja o local de destino errado. Quanto maior a proporção de envenenamento, maior será o ângulo de rotação. Observamos também que os algoritmos SCNN, LaneATT e PolyLaneNet são mais vulneráveis ​​ao nosso ataque de anotação venenosa. Os ângulos médios de rotação dos três modelos de portas traseiras são 23,1, 25,7 e 24,0, respectivamente. Em comparação, a eficiência de ataque do UltraFast é menor, com um ângulo de rotação de 18,5°, mas ainda pode afetar efetivamente a direção de direção e causar um acidente de carro.

4.2. Ataque de anotação limpa

  • Configuração: Consideramos dois alvos de ataque: (1) L2R: a faixa de conversão à esquerda é identificada como a faixa de conversão à direita; (2) R2L: a faixa de conversão à direita é identificada como a faixa de conversão à esquerda. Para ambos os ataques, selecionamos manualmente 100 imagens de curva à esquerda e 100 imagens de curva à direita do conjunto de treinamento e geramos imagens venenosas correspondentes anotadas de forma limpa para substituir as imagens originais. Cada modelo é avaliado em dois conjuntos de testes, um contendo 50 imagens limpas e outro contendo as 50 imagens acionadas correspondentes.
  • Resultados: A Figura 7 mostra exemplos de resultados de detecção de pista dos quatro modelos sob ataques L2R e R2L, respectivamente. Podemos observar a presença de um gatilho que faz com que o modelo backdoor detecte a faixa de direção errada.

Para avaliação quantitativa, a Tabela 4 mostra os ângulos médios de rotação dos modelos benignos e backdoor em relação às amostras limpas. Podemos descobrir que o ângulo de rotação médio não muda significativamente entre o modelo benigno e o modelo backdoor. Portanto, os modelos backdoor não degradam o desempenho da detecção em dados limpos. A Tabela 5 mostra os ângulos médios de rotação dos quatro modelos de backdoor nas amostras de gatilho. Para ataques de anotação venenosa, chegamos à mesma conclusão de que os modelos backdoor produzem maior viés do que os modelos benignos. Também observamos ângulos de rotação maiores para ataques de anotação limpa em SCNN e UltraFast. Da mesma forma, tal ângulo pode indicar claramente uma mudança na direção de condução. Examinamos todas as imagens de teste e confirmamos a eficácia do ataque na maioria das amostras. Isso mostra que o ataque de rotulagem limpa é um método de ataque eficaz. Com base nos resultados acima, também podemos concluir que nossa métrica de ângulo de rotação pode ser usada para avaliar o desempenho de ataques backdoor em tarefas de detecção de faixa. Ele pode diferenciar significativamente as previsões de ataques dos resultados normais.

4.3. Avaliação no mundo real

Para demonstrar a praticidade de nosso ataque backdoor, avaliamos o ataque a um Weston UGV equipado com uma câmera RealSense D435i (Figura 1 (a)) e um veículo Baidu Apollo equipado com uma câmera Leopard (Figura 1 (b)), e testamos em estradas reais. Testado em.

  • Diferentes modelos: A Figura 8 mostra os resultados reais de previsão de estradas dos quatro modelos sob ataques de anotação venenosa. Os resultados experimentais também provam que nosso ataque de anotação venenosa é eficaz e prático no mundo real. A Figura 9 mostra os resultados da visualização do modelo sob ataque de anotação limpa usando diferentes configurações no mundo físico. Podemos observar que o ataque quebra efetivamente o modelo sob diferentes gatilhos e distâncias de câmera.
  • Diferentes cenários e plataformas de teste: Também conduzimos o ataque em diferentes cenários e plataformas de teste (Apollo e UGV). Escolhemos um estacionamento e uma área rodoviária comum como locais experimentais. A Figura 10 mostra os resultados, mostrando que o ataque de anotação limpa é bem-sucedido em um cenário real de detecção de pista. Devido ao acionamento físico, o UGV reconhece uma curva à direita como uma curva à esquerda. Em seguida, vire à esquerda e bata em uma árvore na beira da estrada. Vídeos de demonstração de ambos os ataques usando diferentes plataformas de teste podem ser encontrados em https://sites.google.com/view/lane-detection-attack/lda . Em resumo, experimentos reais mostram que nosso ataque possui alta generalização, eficácia e praticidade.

4.4.Ignorando as defesas existentes

Nossos ataques são furtivos e podem escapar das defesas de backdoor de última geração. Para verificar isso, consideramos e avaliamos diferentes tipos de soluções populares. Várias defesas são projetadas especificamente para tarefas de classificação. Por exemplo, a limpeza neural [52] exige que os defensores especifiquem as classes alvo para varredura de backdoor. STRIP [11] verifica a classe prevista de amostras de gatilho sobrepostas com amostras limpas. Como o modelo de detecção de pista não possui classes, essas soluções não são adequadas para o nosso ataque. Em vez disso, avaliamos duas outras estratégias de defesa comuns.

  • Poda fina[30]: Este método elimina backdoors por meio de poda e ajuste fino do modelo. Ele primeiro remove os neurônios com valores médios de ativação menores e, em seguida, ajusta o modelo podado. No apêndice, demonstramos a eficácia defensiva do nosso ataque de anotação limpa ao SCNN. Observamos que quando podamos um pequeno número de neurônios, o modelo backdoor permanece eficaz em amostras acionadas maliciosamente. Quando mais neurônios são podados, o desempenho do modelo diminui significativamente, tanto para amostras limpas quanto para amostras acionadas. Portanto, o ajuste fino não remove nosso backdoor. Conclusões semelhantes sobre ataques de anotação venenosa são fornecidas no apêndice.
  • Filtragem mediana [38] (Filtragem mediana): Este método utiliza filtro mediano para derrotar ataques adversários de escalonamento de imagem. Ele tenta reconstruir a imagem e remover ruídos potencialmente hostis. Aplicamos essa técnica para limpar ataques de anotação. A Figura 11 no apêndice mostra um exemplo de defesa incluindo imagens limpas, acionadas e recuperadas. Observamos que a imagem recuperada ainda é diferente da imagem limpa e ainda é um gatilho físico para ativar o backdoor.

Acho que você gosta

Origin blog.csdn.net/m0_38068876/article/details/132547172
Recomendado
Clasificación