Ataques adversários de caixa preta eficientes baseados em decisões no reconhecimento facial

Ataques adversários de caixa preta eficientes baseados em decisões no
reconhecimento facial

Abstrato

Nos últimos anos, o reconhecimento facial fez um progresso notável devido à enorme melhoria das redes neurais convolucionais profundas (CNN). No entanto, CNNs profundas são vulneráveis ​​a exemplos adversários, que podem ter consequências fatais em aplicativos de reconhecimento facial do mundo real com fins sensíveis à segurança. Ataques adversários são amplamente estudados porque podem identificar vulnerabilidades de modelos antes de serem implantados. Neste artigo, avaliamos a robustez de modelos de reconhecimento facial de última geração em um cenário de ataque de caixa preta baseado em decisão, onde o invasor não tem acesso aos parâmetros e gradientes do modelo, mas apenas rótulos rígidos enviando consultas ao modelo de destino para fazer previsões. Essa configuração de ataque é mais prática em sistemas de reconhecimento facial do mundo real. Para melhorar a eficiência dos métodos anteriores, propomos um algoritmo de ataque evolutivo que modela geometria local da direção de busca e reduz a dimensionalidade do espaço de busca. Extensos experimentos demonstram a eficácia do método proposto, que produz perturbação mínima para inserir imagens faciais com menos consultas. Também atacamos com sucesso sistemas de reconhecimento facial do mundo real aplicando o método proposto.

1. Introdução

Avanços recentes em redes neurais convolucionais profundas (CNNs) [26, 29, 11] trouxeram melhorias significativas de desempenho em uma ampla gama de tarefas de visão computacional. Reconhecimento facial Como uma das tarefas de visão computacional mais importantes, as CNNs profundas têm facilitado muito o reconhecimento facial [31, 28, 23, 33, 16, 32, 5]. O reconhecimento facial geralmente tem duas subtarefas: verificação facial e reconhecimento facial [12, 15]. O primeiro distingue se um par de imagens faciais representa a mesma identidade, e o último classifica as imagens como identidades. Modelos de reconhecimento facial de última geração realizam essas duas tarefas usando CNNs profundas para extrair recursos faciais com a menor variação dentro da classe e a maior variação entre as classes. Devido ao excelente desempenho desses modelos, o reconhecimento facial é amplamente utilizado para autenticação de identidade em diversas aplicações, como finanças/pagamento, acesso público, identificação de crimes, etc.
Apesar de seu grande sucesso em várias aplicações, as CNNs profundas são conhecidas por serem vulneráveis ​​em instâncias adversárias [30, 9, 19, 6]. Ao adicionar pequenas perturbações, esses exemplos adversários gerados maliciosamente são frequentemente indistinguíveis de exemplos legítimos para observadores humanos. Mas eles podem fazer com que modelos profundos façam previsões erradas. Sistemas profundos de reconhecimento facial baseados em CNN também mostram sua vulnerabilidade contra tais exemplos. Por exemplo, ao usar óculos, as perturbações adversárias podem permitir que um invasor evite o reconhecimento ou se faça passar por outra pessoa [24, 25]. A insegurança dos sistemas de reconhecimento facial em aplicações do mundo real, especialmente aquelas com finalidades sensíveis, pode levar a sérias consequências e problemas de segurança.
Para avaliar a robustez de sistemas de reconhecimento facial em aplicações do mundo real, os ataques adversários podem servir como uma alternativa importante, pois podem identificar as vulnerabilidades desses sistemas [2] e ajudar a melhorar a robustez [9,18]. No entanto, os métodos de ataque existentes [24, 25] para reconhecimento facial são baseados principalmente em cenários de caixa branca, onde o invasor conhece a estrutura interna e os parâmetros do sistema atacado. Portanto, a função objetivo do ataque pode ser otimizada diretamente usando métodos baseados em gradiente. Essa configuração é obviamente impraticável em situações práticas, pois o invasor não pode acessar os detalhes do modelo. Em vez disso, nos concentramos em uma configuração de caixa preta baseada em decisões mais realista e geral [1], onde não há outro modelo além do invasor, que pode apenas consultar o modelo de destino e obter previsões de rótulo rígido correspondentes. As informações são expostas. O objetivo do ataque é gerar exemplos adversários minimamente perturbados com consultas limitadas. Este cenário de ataque é mais desafiador porque os gradientes não podem ser calculados diretamente e as probabilidades previstas não são fornecidas. Por outro lado, é mais realista e importante, uma vez que a maioria dos sistemas de reconhecimento facial do mundo real são caixa-preta e fornecem apenas saída de rótulo rígido. Até onde sabemos, esta é a primeira tentativa de um ataque contraditório ao reconhecimento facial neste cenário.
Vários métodos [1, 14, 4] foram propostos para realizar ataques de caixa preta baseados em decisão. No entanto, eles carecem de eficiência porque geralmente exigem um grande número de consultas para convergir ou obtêm perturbações relativamente grandes com um orçamento de consulta limitado. Portanto, consideramos como gerar eficientemente exemplos adversários para ataques de caixa-preta baseados em decisão, introduzindo perturbações menores e menos consultas por amostra.
Para resolver os problemas acima, propomos um método de ataque evolutivo para ataques adversários eficientes em um ambiente de caixa preta baseado em decisões. Dada a função de alvo do ataque, o método pode ser otimizado de maneira caixa-preta apenas por meio de consultas. Este método pode encontrar melhores direções de busca modelando sua geometria local. Reduza a dimensionalidade do espaço de busca por, melhorando ainda mais a eficiência. Aplicamos o método proposto para estudar de forma abrangente a robustez de vários modelos de reconhecimento facial de última geração, incluindo SphereFace [16], CosFace [32] e ArcFace [5] em cenários de caixa preta baseados em decisões. Experimentos extensivos nos conjuntos de dados de reconhecimento facial de domínio público mais populares, como Labeled Faces in the Wild (LFW) [12] e MegaFace Challenge [15], demonstram a eficácia do método proposto. Além disso, aplicamos nosso método para atacar um sistema de reconhecimento facial real para mostrar sua praticidade. Em resumo, nossas principais contribuições são:

  • Propomos um método de ataque evolutivo baseado em decisão em cenários caixa-preta que pode modelar a geometria local das direções de busca enquanto reduz a dimensionalidade do espaço de busca. O método de ataque evolutivo é geralmente aplicável a qualquer tarefa de reconhecimento de imagem e melhora significativamente a eficiência dos métodos existentes.
  • Avaliamos minuciosamente a robustez de vários modelos de reconhecimento facial de última geração em várias configurações por meio de ataques de caixa preta baseados em decisões. Demonstramos a vulnerabilidade desses modelos faciais nesse contexto.
  • Demonstramos a praticabilidade do método proposto atacando com sucesso os sistemas de reconhecimento facial do mundo real.

2. Trabalho relacionado

Reconhecimento facial profundo. Reconhecimento facial de quadro DeepFace [31] e DeepID [28] como um problema de classificação multiclasse, usando CNNs profundas para aprender recursos sob a supervisão de perda softmax. A perda triplet [23] e a perda central [33] são propostas para aumentar a margem euclidiana no espaço interclasse. A perda máxima suave de canto é proposta em SphereFace [16] para aprender recursos discriminativos de canto. CosFace [32] usa uma grande perda de cosseno para maximizar o cosseno residual. A perda aditiva de borda de canto é proposta no ArcFace [5] para aprender recursos de alta resolução.
Ataques adversários no reconhecimento facial. Deep CNNs são muito vulneráveis ​​a exemplos adversários [30, 9, 19]. O reconhecimento facial também mostrou sua vulnerabilidade a ataques. Em [24], as perturbações são restritas à região dos óculos e geradas por métodos baseados em gradiente, que enganam os sistemas de reconhecimento facial mesmo no mundo físico. Redes generativas [25] também podem gerar óculos adversários. No entanto, esses métodos dependem da operação de caixa branca dos modelos de reconhecimento facial, o que é impraticável para aplicações do mundo real. Em vez disso, nos concentramos em avaliar a robustez dos modelos de reconhecimento facial no cenário de ataques de caixa preta baseados em decisões.
Ataque de caixa preta. Os ataques de caixa preta podem ser divididos em ataques baseados em transferência, ataques baseados em pontuação e ataques baseados em decisão. Ataques baseados em transferência geram exemplos adversários para modelos de caixa branca e atacam modelos de caixa preta baseados em transferibilidade [17, 6]. Em ataques baseados em pontuação, a probabilidade prevista é dada pelo modelo. Vários métodos dependem de gradientes aproximados para gerar exemplos contraditórios [3, 14]. Em ataques baseados em decisão, podemos obter apenas previsões rígidas. Métodos de ataque de fronteira são baseados em caminhadas aleatórias na fronteira de decisão [1]. Métodos baseados em otimização [4] formulam o problema como um problema de otimização contínua e estimam o gradiente da otimização. No entanto, requer busca binária para calcular a distância até o limite de decisão ao longo de uma direção. Em [14], as probabilidades de predição são estimadas por predições hard-label. Então, uma estratégia de evolução natural (NES) é adotada para maximizar a probabilidade da classe alvo ou minimizar a verdadeira probabilidade da classe. Esses métodos geralmente requerem um grande número de consultas para gerar um exemplo adversário com perturbação mínima ou convergem para uma grande perturbação com um pequeno número de consultas.

3. Método

Nesta seção, primeiro apresentamos a configuração de ataque de caixa preta baseada em decisão para modelos de reconhecimento facial e, em seguida, detalhamos o método de ataque evolutivo proposto.

3.1 Configurações de ataque

Seja f(x): X→Y (x⊂R n ) denotar o modelo de reconhecimento facial que prediz o rótulo da imagem facial de entrada. Para verificação facial, o modelo depende de outra imagem facial para identificar se o par de imagens pertence à mesma identidade e gera um rótulo binário Y = {0,1}. Para reconhecimento facial, o modelo f(x) compara uma imagem de entrada x com uma biblioteca de imagens faciais e, em seguida, classifica x como uma identidade específica. Portanto, pode ser visto como uma tarefa de classificação multiclasse, onde Y = {1, 2, ..., K}, K é o número de unidades. Embora o modelo de reconhecimento facial f(x) use uma imagem facial adicional ou um conjunto de imagens faciais para reconhecer x, para simplificar, não descrevemos explicitamente a dependência de f(x) nas imagens de comparação.
Dada uma imagem de face real x, o objetivo do ataque é gerar uma imagem de face adversária x* próxima de x, mas mal classificada pelo modelo. Pode ser obtido resolvendo um problema de otimização restrita
insira a descrição da imagem aqui
onde D( , ) é a medida de distância, C( ) é o critério de confronto, e leva 1 se atender aos requisitos de ataque e leva 0 se não atender. Reformulamos de forma equivalente o problema restrito em (1) como o seguinte problema de otimização irrestrita, usando a distância L2 como d.
insira a descrição da imagem aqui
Se a for verdadeiro, δ(a) = 0, caso contrário δ(a) = +∞. Otimizando a Eq. (2), podemos obter uma imagem x* com mínima perturbação, que também é adversária segundo este critério. Observe que na função objetivo acima, C não pode ser definido como um critério contínuo, como perda de entropia cruzada, porque neste problema, o modelo f(x) fornece apenas saídas discretas de rótulo rígido. Em particular, designamos C de acordo com os dois tipos de ataques a seguir.
O ataque de evasão corresponde à geração de imagens adversárias não reconhecidas ou não reconhecidas. Ataques de evasão podem ser usados ​​para proteger a privacidade individual de vigilância excessiva. Para verificação facial, dado um par de imagens faciais pertencentes à mesma identidade, o invasor tenta modificar uma das imagens e fazer com que o modelo reconheça que não são a mesma identidade. Portanto, o critério é C(f(x*)) = I(f(x*) = 0), onde I é a função indicadora. Para reconhecimento facial, um invasor gera uma imagem adversária de um rosto com o objetivo de identificá-lo como qualquer outra identidade. O critério é C(f(x*)) = I(f(x*) ?= y), onde y é a verdadeira identidade da imagem real x.
Os ataques de representação funcionam procurando imagens adversárias identificadas como identidades específicas, que podem ser usadas para escapar dos sistemas de autenticação facial. Para verificação facial, o invasor tenta encontrar uma imagem adversária que seja reconhecida como outra imagem da mesma identidade, enquanto a imagem original não é da mesma identidade. O critério é C(f(x*)) = I(f(x*) = 1). Para reconhecimento facial, as imagens adversárias geradas precisam ser classificadas como uma identidade específica y*, então C(f(x*)) = I(f(x*) = y*).

3.2 Ataque de Evolução

Como não temos acesso à configuração e aos parâmetros de f(x) e só podemos enviar consultas para sondar o modelo, empregamos técnicas de otimização caixa-preta para minimizar a função objetivo na Eq. (2). Métodos de estimativa de gradiente [20,8,7] aproximam o gradiente da função objetivo por diferenças finitas e atualizam a solução por gradiente descendente, que é comumente usado em ataques de caixa-preta baseados em pontuação, quando a probabilidade prevista é dada pelo modelo [3,14] quando fora. No entanto, no caso de saídas hard-labeled, a função objetivo de ataque é descontínua e a saída é insensível a pequenas perturbações de entrada. Portanto, os métodos de estimativa de gradiente não podem ser usados ​​diretamente. Alguns métodos [4, 14] reformulam com sucesso o problema de otimização descontínua na Equação (2) como alguns problemas de otimização contínua e usam métodos de estimativa de gradiente para otimização. No entanto, ele precisa calcular a distância do ponto até o limite de decisão ou estimar a probabilidade de previsão por meio da saída do rótulo rígido, e o experimento prova que esse método é ineficiente. Portanto, consideramos como otimizar a Equação (2) direta e eficientemente.
Neste artigo, propomos um novo método de ataque evolutivo para resolver o problema de otimização caixa-preta. Nossa abordagem é baseada em uma variante simples e eficiente da Estratégia Evolutiva Adaptativa da Matriz de Covariância (CMA-ES) [10], ou seja , (1+1)-CMA-ES [13]. Em cada iteração de atualização de (1+1)-CMA-ES, uma nova solução filha (solução candidata) é gerada a partir da solução pai (solução atual) adicionando ruído aleatório, e os alvos dessas duas soluções são Avaliar e escolher um melhor solução para a próxima iteração. Este método pode ser usado para resolver problemas de otimização de caixa preta. No entanto, aplicar diretamente (1+1)-CMA-ES para otimizar a Eq. (2) é ineficiente porque a dimensionalidade de x* é muito alta. O (1+1)-CMA-ES original pode não ser utilizável considerando as restrições de consulta de ataques de caixa preta baseados em decisões em imagens faciais. Para acelerar o algoritmo, projetamos uma distribuição adequada para amostrar o ruído aleatório a cada iteração, que pode modelar a geometria local da direção de busca . De acordo com as características deste problema, vários métodos para reduzir a dimensionalidade do espaço de busca são propostos.
O algoritmo de ataque evolutivo geral é descrito no Algoritmo 1. Estamos no espaço de baixa dimensão R m onde m < nAs pesquisas são realizadas em , em vez do espaço de entrada n-dimensional original. Em cada iteração, primeiro amostramos um vetor aleatório z de n(0, σ 2 C) tal que z ∈ R m , onde C é uma matriz de covariância diagonal para modelar a geometria local da direção de busca. Em seguida, selecionamos aleatoriamente k coordenadas para pesquisar , assumindo que apenas uma pequena fração de pixels é importante para encontrar uma imagem adversária. Mantemos os valores das coordenadas k de z definindo as outras coordenadas de z como 0. Elevamos z ao espaço de entrada via interpolação bilinear, resultando em ˜z ∈ R n . Adicionamos ainda um viés a ˜z para minimizar a distância entre a imagem adversária e a imagem original. Acabamos testando para ver se conseguimos uma solução melhor. Se encontrarmos uma solução melhor, saltamos para ela e atualizamos a matriz de covariância. Abaixo, descrevemos cada passo do algoritmo em detalhes.
insira a descrição da imagem aqui

  1. inicialização
  2. iniciar loop
  3. z representa uma perturbação aos dados, gerando uma perturbação, onde C representa a matriz de covariância das feições geométricas locais usadas para modelar a direção de busca;
  4. Selecione k coordenadas (ou seja, pontos de pixel), onde a probabilidade de selecionar uma de suas coordenadas é proporcional ao tamanho de cada elemento da diagonal em C;
  5. Todos os outros pixels são definidos como 0​;
  6. Expandir z para um vetor de R n por interpolação bilinear ;
  7. Adicionar um viés torna a norma ℓ 2 (avaliação de distância) da imagem original e da amostra adversária menor, onde μ é um hiperparâmetro;
  8. Determine se uma solução melhor foi obtida e, em caso afirmativo, vá para a etapa 9;
  9. Atualize a solução ótima e atualize a matriz de covariância;

3.2.1 Inicialização

No Algoritmo 1, ˜x* deve ser inicializado primeiro (no passo 1). Se o ˜x* inicial não satisfaz a condição adversária, então L(˜x*) é igual a +∞. Para iterações subsequentes, uma vez que CNNs profundas são geralmente robustas a ruído aleatório [30], a adição de vetores aleatórios raramente tornará o ponto de busca adversário e, portanto, a função de perda permanecerá +∞. Portanto, inicializamos ˜x* com um exemplo que já satisfaz o critério contraditório . Atualizações subseqüentes também manterão ˜x* adversários enquanto minimizam a distância entre ˜x* e x. Para evitar ataques, pode-se simplesmente definir o ˜x* inicial como um vetor aleatório. Para o ataque de imitação, usamos a imagem alvo como ponto inicial de ˜x*.

3.2.2 Média da distribuição gaussiana

Explicamos na Etapa 7 por que precisamos adicionar um termo de viés ao vetor aleatório. Assumindo que o espaço de busca agora tem a mesma dimensão que o espaço de entrada, selecionamos todas as coordenadas para pesquisar (ou seja, k = m = n) e, a cada iteração, amostramos um vetor aleatório z de uma distribuição gaussiana. Em geral, a distribuição deve ser imparcial (média zero) para melhor exploração no espaço de busca. Mas em nosso problema, onde vetores aleatórios são amostrados de uma distribuição Gaussiana de média zero, a probabilidade de atualização é quase zero quando n → ∞, dada pelo Teorema 1.
O teorema 1 (prova do apêndice A) assume que a matriz de covariância C é positiva definida. Sejam λmax e λmin (> 0) os autovalores máximo e mínimo de C, respectivamente. Então, temos
insira a descrição da imagem aqui
De acordo com o Teorema 1, para uma atualização bem-sucedida, precisamos extrair O(n 2 ) amostras de uma distribuição Gaussiana de média zero, que é ineficiente e cara quando n é grande. Isso ocorre porque em um espaço de busca de alta dimensão, um desenho vetorial aleatório z é quase ortogonal a ˜x* −x, então a distância D(˜x*+ z, x) raramente será menor que D(˜x*, x). Para resolver este problema, o vetor aleatório z deve ser amostrado de uma distribuição tendenciosa de modo a minimizar a distância ˜x* da imagem original x. Portanto, adicionamos um termo de viés μ(x−˜x* ) a ˜z (o mesmo que z quando k = m = n) na etapa 7, onde μ é um hiperparâmetro crítico que controla a força em relação à imagem original x . Especificaremos o procedimento de atualização para μ na Seção 3.2.6.

3.2.3 Adaptação da Matriz de Covariância

A adaptação da matriz de covariância C pode modelar a geometria local da direção de busca [10], que é adequada para resolver problemas de otimização não separáveis. Por exemplo, definir a matriz de covariância corretamente pode fazer com que os vetores aleatórios gerados sejam gerados principalmente ao longo da direção de vales estreitos. Ao aprender dependências pareadas entre todas as dimensões, a complexidade de armazenamento e computação da matriz de covariância é pelo menos O(m 2 ), o que é inaceitável quando m é grande. Para ataques adversários de caixa preta, a dimensionalidade do espaço de busca é muito grande (por exemplo, m = 45 × 45 × 3 em nossos experimentos). Portanto, relaxamos a matriz de covariância para uma matriz diagonal para um cálculo eficiente. Inspirados em [22], que usa a matriz de covariância diagonal de CMA-ES, projetamos uma regra de atualização para adaptar a matriz de covariância diagonal C após cada tentativa bem-sucedida (no passo 10 ) onde p c ∈ R m é
insira a descrição da imagem aqui
chamado de caminho evolutivo porque ele armazena as direções de busca bem-sucedidas exponencialmente decrescentes; para I = 1,..., m, c ii é o elemento diagonal de C, (p c ) i é p c O i-ésimo elemento de . c c e c cov são dois hiperparâmetros de CMA. A explicação intuitiva para essa atualização é que as diferenças nas direções que foram bem-sucedidas no passado devem ser ampliadas para pesquisas futuras.

3.2.4 Seleção aleatória de coordenadas

Para ataques adversários, as perturbações adicionadas às imagens podem ser muito esparsas para enganar CNNs profundas [27], o que mostra que apenas uma pequena fração de coordenadas (pixels) é suficiente para encontrar imagens adversárias. Também podemos acelerar a otimização de caixa preta se pudermos identificar coordenadas importantes . No entanto, no cenário de ataque de caixa preta baseado em decisão, é muito importante. Felizmente, nosso algoritmo fornece uma maneira natural de encontrar coordenadas úteis, uma vez que os elementos na matriz de covariância diagonal C representam as coordenadas preferidas para tentativas anteriores bem-sucedidas , ou seja, c ii maiores indicam que as pesquisas de coordenadas i podem ter uma taxa de sucesso mais alta com base na experiência anterior. De acordo com isso, em cada iteração escolhemos k (k << m) coordenadas para gerar um vetor aleatório z, a i-ésima coordenada é escolhida com probabilidade proporcional a c ii (nos passos 4-5 ) .

3.2.5 Redução de dimensionalidade

A redução da dimensionalidade do espaço de busca tem se mostrado útil para acelerar os ataques de caixa-preta [3]. Com base nisso, amostramos um vetor aleatório z (no passo 3) em um espaço de baixa dimensão R m onde m < n. Em seguida, empregamos um operador de escala para projetar z no espaço original Rn ( no passo 6). Observe que não alteramos a dimensionalidade da imagem de entrada, mas apenas reduzimos a dimensionalidade do espaço de busca. Especificamente, restauramos o espaço dimensional original usando um método de interpolação bilinear.

3.2.6 Ajuste de hiperparâmetros

O algoritmo também incorpora vários hiperparâmetros, incluindo σ, μ, c c e c cov . Simplesmente definimos c c = 0,01, c cov = 0,001. σ é definido como 0,01 D(˜x* , x), com base na intuição de que σ deve encolher gradualmente à medida que a distância de x diminui. μ é um hiperparâmetro crítico que requer um ajuste cuidadoso. Se μ for muito grande, o ponto de busca provavelmente violará o critério contraditório e a taxa de sucesso da atualização será muito baixa. Por outro lado, se μ for muito pequeno, teremos dificuldade em progredir na minimização da distância entre ˜x* e x, embora com altas taxas de sucesso. Portanto, usamos o método tradicional de controle de hiperparâmetros na estratégia evolutiva - 1/5 regra de sucesso [21] para atualizar μ como μ = μ exp(P sucesso −1/5 ), onde P sucesso é a taxa de sucesso.

Acho que você gosta

Origin blog.csdn.net/weixin_45184581/article/details/127882654
Recomendado
Clasificación