Métodos de avaliação no esquecimento da aprendizagem: ataque de inferência de membros MIA e ataque backdoor

A relação entre ataque de inferência de membro ou ataque backdoor e aprendizado de esquecimento federado

A aprendizagem por esquecimento federado estuda principalmente a aplicação da aprendizagem por esquecimento no contexto da aprendizagem federada. A aprendizagem por esquecimento é o efeito final da remoção de dados especificados de todo o modelo, ou seja, o esquecimento. No que diz respeito à aprendizagem federada, a pesquisa existente estuda principalmente o esquecimento. • O impacto dos dados de um cliente inteiro no modelo global.
O efeito do esquecimento requer indicadores numéricos de avaliação para avaliar seu grau . Existem dois métodos principais de pesquisa atual: um é excluir completamente os clientes que precisam ser esquecidos, usar outros clientes para treinar do zero, gerar um modelo de reciclagem e, em seguida, Compare o modelo de esquecimento que realiza o aprendizado do esquecimento com este modelo de retreinamento. Quanto mais próximo estiver, melhor será o efeito do esquecimento. A outra é usar ataque de inferência de membro ou ataque de backdoor e usar o efeito do ataque para verificar se ainda há itens especificados no modelo que precisam ser excluídos. Para os dados do cliente, se o efeito do ataque for bom, por exemplo, os dados que deveriam ter sido esquecidos são restaurados através de alguns parâmetros ou valores intermediários, então significa que há ainda o impacto deste/alguns resíduos de dados no modelo, e o efeito de esquecimento não é bom.Se Se o efeito do ataque não for bom, significa que o efeito de esquecimento é bom.
Ou para mais detalhes sobre a relação entre aprendizado de máquina, aprendizado federado e aprendizado esquecido, você pode ler meu outro blog

Qual é o significado prático de usar dois métodos de ataque para testar o grau de aprendizagem do esquecimento?

O uso de dois métodos de ataque no aprendizado do esquecimento é realizado em um estado ideal que é benéfico para o atacante. Essa situação é realista? Pessoalmente, sinto que isso é diferente de estudar estratégias de defesa diante de ataques. As estratégias de defesa são baseadas no grau de ataque, enquanto os ataques têm antecedentes reais, portanto a estratégia de defesa pode ser considerada moderada/leve. Porém, o ataque no esquecimento da aprendizagem é uma ferramenta para testar o grau de legado da informação. O ataque em si não tem significado prático neste processo. O cenário real do esquecimento diz respeito à questão da "privacidade" e dos "dados sujos". O que é considerado é o esquecimento. Quanto mais limpo melhor, então talvez devamos considerar infinitamente benéfico para o invasor como uma forma de observar o máximo de esquecimento possível.
O efeito do ataque MIA é utilizado como critério de avaliação no esquecimento da aprendizagem, ou seja, o grau residual de informação dos dados no modelo é expresso como a possibilidade de o ataque MIA poder ser inferido

A premissa de que um determinado ataque pode ser usado como indicador de avaliação

Existem dezenas de milhões de ataques muito poderosos. Por que um determinado ataque pode ser usado como um índice de avaliação do grau de esquecimento no esquecimento da aprendizagem? Isso nos leva à questão de saber se pode ser usado e se é fácil de usar. Resumi isso em vários aspectos. Pode não ser útil usá-los juntos. Um exemplo perfeito para comparação - um banco de potência com um cabo de dados.
Pode ser usado :
1. Os valores necessários para o ataque e os resultados do esquecimento do aprendizado podem ser fornecidos (a porta de carregamento do cabo de dados pode corresponder ao telefone celular? A porta de carregamento Micro USB não pode ser carregada com tipo C ) 2.
Ataque O resultado da saída pode ser usado como uma avaliação do efeito de esquecimento (pode ser usado para carregar um telefone celular? Talvez o cabo de dados só possa ser usado para transmissão de dados e não possa conduzir eletricidade). É útil? 3 . O impacto da intensidade do ataque na avaliação do efeito
de esquecimento
. (Algumas portas de carregamento podem ter carregamento lento e outras podem ser de carregamento rápido)
4. O resultado do ataque pode ser completamente usado como uma avaliação do efeito de esquecimento (pode o banco de potência carrega o celular com 100% de energia? Se o celular tiver 1000mA, mas o banco de potência tem 500mA, então a energia não é suficiente para carregá-lo totalmente)
Insira a descrição da imagem aqui

A posição dos dois ataques na árvore de ataque

Insira a descrição da imagem aqui
A classificação aqui é baseada em artigos de Zhihu , mas não encontrei a referência para este artigo.

Por que dois métodos de ataque são usados ​​como ferramentas para avaliar o efeito do esquecimento? E olhando para a árvore de ataque, esses dois ataques também estão localizados em categorias diferentes da árvore de ataque. Esta questão começa com o significado prático do esquecimento.

O significado prático do esquecimento é o seguinte:
Privacidade : Em relação aos requisitos para o “direito ao esquecimento” mencionados na recente promulgação legislativa do Regulamento Geral de Proteção de Dados (GDPR) e da Lei de Privacidade do Consumidor da Califórnia (CCPA).
Segurança e usabilidade : Para aprendizado de máquina, incluindo aprendizado federado, o esquecimento oportuno de alguns dados de treinamento que não são mais válidos é benéfico para o treinamento de todo o modelo. No aprendizado federado, há situações em que os dados são contaminados por ataques ou modificados por controle , o que está errado. Os dados fazem com que o modelo preveja erros.

Esses dois requisitos correspondem ao uso de dois ataques: para o requisito de "direito de ser esquecido" do usuário, os ataques de inferência de membros são usados ​​como uma ferramenta; para considerações de segurança e uso do modelo, os ataques de backdoor são usados ​​como uma ferramenta.

Ataque de inferência de membros MIA

Documento MIA: "Ataques de inferência de membros contra modelos de aprendizado de máquina" (2017 S&P) O
URL do vídeo postado pelo autor no YouTube: https://www.youtube.com/watch?v=rDm1n2gceJY É
muito trabalhoso assistir em inglês, pouco por bit A tradução é muito problemática, então você pode ler este blog de tradução de Baicai Miao :
Insira a descrição da imagem aqui

O artigo que usa a precisão e a taxa de recuperação do ataque de inferência de membros MIA como o índice de avaliação do efeito de esquecimento é "FedEraser: Enabling Efficient Client-Level Data Removal from Federated Learning Models" (2021 IWQOS).O grau residual de informações de dados no modelo é expresso como Possibilidade de inferir ataques MIA

O objetivo do ataque de inferência de membros

Aplicação : Em experimentos, a precisão e a recuperação do MIA nos dados do cliente-alvo são usadas para avaliar quanta informação sobre esses dados ainda está incluída no modelo de aprendizagem do esquecimento. Tais ataques servem como uma das melhores formas de medir a qualidade do esquecimento.

As características ou funções do MIA determinam para que ele pode ser usado

O MIA é usado para estudar como os modelos de aprendizado de máquina vazam informações sobre cada registro de dados em que foram treinados. Isso é diferente do problema de vazamento de gradiente de profundidade no aprendizado federado que estudei antes. Os ataques de vazamento de gradiente profundo passam pelo processo de treinamento de aprendizado federado. Os gradientes de treinamento inferem inversamente os dados de treinamento, enquanto o MIA é um acesso de caixa preta ao modelo dado um registro de dados e determina se o registro existe no conjunto de dados de treinamento do modelo.

A questão básica na qual o MIA se concentra: dado um modelo e dados de aprendizado de máquina, determinar se esses dados devem ser usados ​​como parte do conjunto de dados de treinamento do modelo. O acesso do invasor ao modelo é limitado a consultas de caixa preta que retornam a saída do modelo para uma determinada entrada. O ataque será bem-sucedido se o invasor determinar corretamente se os dados pertencem ao conjunto de dados de treinamento.

Princípio : Usar o aprendizado de máquina de forma adversa e treinar nosso próprio modelo de inferência ( modelo de ataque ) para identificar a lacuna entre as previsões do modelo alvo sobre a entrada na qual foi treinado e a entrada na qual não foi treinado, ou seja, as previsões do modelo sobre os dados viu e a entrada na qual não foi treinado. Dados não vistos reagem de maneira diferente. Isso é fácil de observar em experimentos diários. Quando treinamos um modelo, geralmente dividimos uma parte dos dados que não se cruzam com o conjunto de treinamento como um conjunto de teste. Muitas vezes, a precisão do modelo no conjunto de teste não é tão boa como no conjunto de treinamento. Precisão, esta situação é chamada de fenômeno de sobreajuste . Independentemente de termos ajustado o fenômeno de sobreajuste, desde que a precisão do modelo atinja um certo nível, o sobreajuste existe objetivamente, e MIA os ataques usam o princípio do overfitting .

Tipos de modelos nos quais o MIA se concentra : Modelos criados usando aprendizagem supervisionada. Os registros de treinamento (como entrada para o modelo) recebem rótulos ou pontuações (como saída do modelo). O objetivo de criar um modelo é aprender a relação entre dados e rótulos e criar um modelo A que pode generalizar para registros de dados fora do conjunto de treinamento. O objetivo do algoritmo de treinamento do modelo é minimizar o erro de previsão do modelo no conjunto de dados de treinamento, de modo que ele possa superajustar o conjunto de dados, o que é um problema que precisa ser considerado (com técnicas de regularização).

O modelo de ataque treinado distingue essencialmente o comportamento do modelo alvo na entrada de treinamento do comportamento na entrada não encontrada durante o treinamento e converte o problema de inferência de associação em um problema de classificação .

Insira a descrição da imagem aqui

  • Quando você tem um dado, ou seja, data(registro, rótulo)/dados(x, y), onde x são as informações/recursos de entrada do modelo tradicional e y é o rótulo dos dados, use o registro /x neste dado para realizar a consulta da caixa preta do modelo, insira o registro/x no modelo de destino, você pode obter um vetor de predição predição, cada valor no vetor de predição representa a confiança de predição do modelo para a qual categoria esses dados pertencem , por exemplo [A:0,2, B :0,3, C:0,5], que somam 1.
  • Depois de obter a previsão do vetor de predição, use-a junto com o rótulo real label/y como entrada do modelo de ataque (predição, rótulo/y).O modelo de ataque produzirá um resultado, se esses dados pertencem ao conjunto de treinamento do modelo de destino modelo de destino .

É isso que este artigo pretende alcançar.

Suposições:
1. Suponha que um algoritmo de aprendizado de máquina seja usado para treinar um modelo de classificação que captura o relacionamento entre o conteúdo de um registro de dados e seus rótulos 2. Suponha que um
invasor tenha acesso de consulta ao modelo e possa obter o modelo em qualquer registro de dados 3. Presume-
se que o invasor conheça os formatos de entrada e saída do modelo, incluindo seu número e o intervalo de valores que eles podem assumir. 4. Supõe-se
que o invasor (1) conheça o tipo e arquitetura do modelo de aprendizado de máquina e do algoritmo de treinamento, ou (2)) tem acesso de caixa preta ao Oracle de aprendizado de máquina para treinar o modelo, caso em que o invasor não pode conhecer a estrutura ou metaparâmetros do modelo com antecedência

Medidas de precisão do ataque:
Precisão: quantos registros inferidos como membros são realmente membros do conjunto de dados de treinamento.
Lembrete: quantos registros no conjunto de dados de treinamento foram inferidos corretamente pelo invasor como membros

Construção do modelo de sombra

Técnica de treinamento de sombra : A ideia principal é que modelos semelhantes treinados em registros de dados relativamente semelhantes usando o mesmo serviço se comportem de maneira semelhante. Primeiro, crie vários "modelos sombra" que imitem o comportamento do modelo de destino, mas somente se você conhecer o conjunto de dados de treinamento e compreender as relações de associação no conjunto de dados. O modelo de ataque é então treinado com base nas entradas e saídas rotuladas do modelo sombra

Tenho dúvidas , por que inferir o grau de legado de informação dos dados no modelo usando MIA usando consulta de caixa preta?É óbvio que os parâmetros do modelo podem ser conhecidos diretamente e o grau de legado de informação é inferido através dos parâmetros? Talvez você possa ler artigos de revisão
. Talvez ele possa alcançar uma alta taxa de sucesso em um modo muito difícil. Então, ele pode obter melhores resultados em uma situação relativamente fácil. A suposição deste modelo de caixa preta é definida como uma situação difícil.

Por que essa tecnologia de sombra funciona tão bem?

Porque a premissa predefinida é uma consulta de caixa preta e o algoritmo, estrutura, hiperparâmetros, etc. do modelo não são conhecidos. Portanto, não considero permitir que um modelo imite completamente o modelo original, mas em vez disso desmonte o modelo em várias peças. Possuem muitos modelos, cada um deles imitando apenas parte do modelo original. Como desmontá-lo em várias partes? Desmonte-o de acordo com o número de categorias do classificador. Se o modelo for um classificador de 10 categorias, use 10 modelos de sombra para imitar o comportamento de cada categoria do modelo original.

Em outras palavras, o significado do modelo de sombra é imitar o modelo alvo, assim como imitar uma pessoa. Quanto mais ações você imitar, mais o comportamento será parecido com essa pessoa. Da mesma forma, quanto mais modelos de sombra existirem , melhor será o efeito do ataque.

Pelo que entendi no início do blog, se você deseja que o ataque seja forte, ou mesmo muito forte, existem algumas suposições que precisam ser atendidas. (1) Suponha que o conjunto de dados usado para treinar o modelo sombra e os dados privados usados ​​para treinar o modelo de destino Os conjuntos não se cruzam. Para o invasor, esta situação é a pior. Se os dois conjuntos de dados se cruzarem completamente, o efeito do ataque é o melhor. No FedEraser, esse efeito de ataque será utilizado na verificação do efeito de esquecimento das melhores hipóteses, treinadas nos dados do modelo global original.

Partindo do princípio de que se não houver dados meu ataque será forte, e com dados meu ataque será mais forte.Ao gerar o modelo sombra, é necessário fazer com que os dados sombra de treinamento sejam disjuntos do conjunto de dados do treinamento modelo alvo (sem dados). ), mas para gerar dados de treinamento semelhantes à distribuição de dados de treinamento do modelo alvo, vários métodos são fornecidos no artigo: síntese baseada em modelo, síntese baseada em estatísticas e dados reais com ruído.

Como você consegue o modelo de sombra? Isso é algo que eu não esperava. O autor disse isso. Depois que os três métodos acima obtiveram dados de sombra de treinamento semelhantes aos dados de treinamento do modelo de destino, ele também usou esses dados (a segunda metade deste parágrafo explica o que "também" significa ) Faça upload dele para a plataforma Google e deixe-o realizar o mesmo tipo de tarefas de classificação que o modelo de destino. Isso envolve o histórico do aplicativo mencionado neste artigo e não mencionado acima : os usuários carregam seus dados na plataforma Google e pedem ajuda para gerar um modelo para tarefas de classificação. Depois que a plataforma Google treina o modelo, o usuário pode Este modelo é usado através da API, mas a arquitetura e os parâmetros de todo o modelo não podem ser conhecidos e não podem ser baixados, só podem ser usados. Nesse caso, se um invasor deseja obter os dados desse modelo, como deve atacar. Nesse contexto de aplicação, se o invasor obtiver um conjunto de dados semelhante ao modelo de destino e carregá -lo na plataforma Google para tarefas de classificação, a plataforma Google não terá motivos para fornecer um modelo com uma arquitetura diferente do modelo de destino, porque eles A distribuição dos dados é semelhante, as tarefas são as mesmas e a mesma plataforma é utilizada, portanto a resposta da plataforma deve ser semelhante. Portanto, dados semelhantes e a mesma plataforma podem produzir modelos semelhantes. O foco ainda está em como obter dados semelhantes mencionados no parágrafo anterior.

No entanto, acho que a operação do modelo sombra é um pouco exagerada para usar a precisão e o recall do MIA como indicadores de avaliação de esquecimento, porque esta operação aumenta a inconsistência entre o modelo sombra e o modelo alvo, e treina o modelo de ataque com base no modelo sombra Obviamente, é melhor treinar o modelo de ataque com base no modelo alvo. O modelo sombra não pode ser completamente equivalente ao modelo alvo no final. Este conceito é baseado na ignorância do atacante sobre a arquitetura do modelo em situações reais. Quando usado como indicador de avaliação, esse tipo de ignorância não existe, e o ataque deve ser feito o mais forte possível.Portanto, quando usado como indicador de avaliação, o modelo alvo deve ser usado diretamente como modelo sombra para treinar o ataque modelo. O FedEraser faz isso .

Construção de modelo de ataque

Em primeiro lugar, deve ficar claro que o conteúdo da aprendizagem do modelo de ataque não é baseado em dados, mas sim no comportamento do modelo.

Quando os dados do modelo de destino são completamente desconhecidos , use a síntese baseada em modelo, a síntese baseada em estatísticas e os métodos de dados reais ruidosos mencionados acima para treinar os dados do modelo de ataque. Quando a arquitetura
do modelo alvo é completamente desconhecida , o método do modelo sombra mencionado acima pode ser usado para simular o comportamento do modelo alvo.

As duas situações acima são feitas com vista grossa, elas só podem aproximar os dados reais e a arquitetura real do modelo, mas afinal há erros. Este ponto de vista foi explicado na seção anterior.

No entanto, ao usar a precisão e a taxa de recuperação do ataque de inferência de membros como indicadores de avaliação do algoritmo de esquecimento , esperamos que o ataque seja o mais forte. Somente desta forma podemos saber de forma mais abrangente o grau de esquecimento do nosso algoritmo de esquecimento. Portanto, assumiremos que o ataque de inferência de membro conhece os dados de treinamento e o conhecimento da arquitetura do modelo , não há necessidade de usar dados gerados por simulação e modelos de sombra (ou em outras palavras, não há necessidade de treinar o modelo de sombra, e o modelo alvo é usado diretamente como modelo sombra para treinar o modelo de ataque) .

Processo de construção:
1. Divida o conjunto de dados em dois conjuntos de dados disjuntos D train D^{train}Dt r ainD teste D^{teste}Dt es t , cada item de dados é expresso como( x , y ) (\boldsymbol{x}, y)( x ,y ) ,x \boldsymbol{x}x é representado como recurso de dados,yyy representa o rótulo dos dados. Os dados em treinamento são os dados utilizados para treinar o modelo alvo, ou seja, os dados rotulados no treinamento do modelo de ataque, e o oposto é verdadeiro para o teste.
2. Coloque os dados(x, y) ∈ D trem (\boldsymbol{x}, y) \in D^{train}( x ,você )Dentrada de treinamento paramodelo sombra/modelo alvoffEm f , obtenhao vetor de prediçãoy = f ( x ) \boldsymbol{y} = f(\boldsymbol{x})sim=f ( x ) , gravará( y , y , in ) (y, \boldsymbol{y}, in)( você ,sim ,in ) é adicionado ao conjunto de dadosD attack D_{attack}Da t a c k3.
Coloque os dados (x, y) ∈ D test (\boldsymbol{x}, y) \in D^{test}( x ,você )Dt es t entrada paramodelo sombra/modelo alvoffEm f , obtenhao vetor de prediçãoy = f ( x ) \boldsymbol{y} = f(\boldsymbol{x})sim=f ( x ) , gravará( y , y , out ) (y, \boldsymbol{y}, out)( você ,sim ,o u t ) é adicionado ao conjunto de dadosD attack D_{attack}Da t a c k
Insira a descrição da imagem aqui
4. De acordo com o conjunto de dados D ataque D_{attack}Da t a c kModelo de ataque de treinamento
Insira a descrição da imagem aqui

Função do modelo de ataque : via ( y , y ) (y,\boldsymbol{y})( você ,y ), classificação de saídain/out in/outdentro / fora . _ _ Também pode ser visto que o modelo de ataque aprendeyin \boldsymbol{y}_{in}simdentrovocê \boldsymbol{y}_{out}simvocê não _A diferença não depende de xxQual é a aparência de x , mas você pode obter xxx está ou não no conjunto de dados de treinamento.
Insira a descrição da imagem aqui

Use no esquecimento da aprendizagem

Essência : expressar o grau residual de informações de dados no modelo como a possibilidade de o ataque MIA poder inferir que os dados estão de fato no conjunto de treinamento

Ao inserir os dados esquecidos no modelo de ataque treinado usando o modelo de destino , o modelo especulará se os dados pertencem ao conjunto e determinará o grau de esquecimento do modelo com base na precisão e na taxa de recuperação de os resultados adivinhados.

No entanto, como o ataque em si tem certas imprecisões, mesmo que os dados ainda sejam deixados no modelo, e pode haver muitos deles, o modelo de ataque ainda não consegue adivinhá-los, resultando em baixas taxas de precisão e recall, fazendo as pessoas pensarem erroneamente que eles esqueceram. O efeito é bom.

ataque de backdoor

Literatura de ataque backdoor: "How to Backdoor Federated Learning" (2020 AISTATS)
é muito trabalhoso para ler em inglês e é muito problemático traduzi-lo aos poucos. Você pode ler este blog de tradução de Baicai Miao :
Insira a descrição da imagem aqui

O artigo que usa ataques backdoor como um indicador de avaliação dos efeitos do esquecimento é "Federated Unlearning with Knowledge Distillation" (2022 arXiv)

Ataque Backdoor Sendo um dos ataques mais poderosos em sistemas FL, os ataques backdoor não afetam o desempenho do modelo global sob entradas regulares e apenas distorcem as previsões quando acionados por entradas específicas com padrões de backdoor. Esta propriedade o torna um método de avaliação perfeito para medir a eficácia do esquecimento. Um modelo global de esquecimento bem-sucedido deve ter um bom desempenho no conjunto de dados de avaliação, mas reduzir a taxa de sucesso de ataques backdoor quando desencadeados por entradas backdoor.

Os ataques backdoor não afetam o desempenho do modelo global sob entradas regulares, mas apenas distorcem as previsões quando entradas específicas são acionadas com padrões backdoor. Esta característica o torna um método de avaliação ideal para medir o efeito do esquecimento.

O invasor muda sozinho o modelo global GGSubstitua G pelo modelo que você deseja que se torneXXX , afeta diretamente o modelo global, ao invés de afetar sua agregação.

O objetivo dos ataques backdoor

Natureza : O ataque backdoor é um ataque de envenenamento de modelo direcionado . Participantes maliciosos podem afetar diretamente o modelo. A intensidade do ataque é mais forte do que o envenenamento de dados (existem experimentos para apoiar esta conclusão).

  • Em aplicativos de aprendizagem federados, os ataques adversários podem ser divididos em duas categorias de acordo com os diferentes alvos de ataque , ou seja, ataques não direcionados e ataques direcionados . O objetivo dos ataques não direcionados é corromper o modelo para que ele não consiga atingir o desempenho ideal em sua tarefa principal. Em ataques direcionados (geralmente chamados de ataques backdoor), o objetivo do adversário é fazer com que o modelo tenha um desempenho ruim em algumas subtarefas específicas, mantendo um bom desempenho geral na tarefa principal.
  • Os ataques são divididos em dois tipos de acordo com as capacidades do invasor : Ataque de Modelo e Ataque de Dados . Ataque de dados significa que o invasor pode alterar um subconjunto de todas as amostras de treinamento, e esse subconjunto é desconhecido para o aluno do modelo. Um ataque de modelo significa que o cliente atacado altera a atualização do modelo local, alterando assim o modelo global.

Mas algum participante pode substituir o modelo federado por outro modelo federado?

Algumas coisas que um invasor pode fazer para beneficiar a intensidade do ataque:
1. Pode afetar diretamente os pesos do modelo global
2. Pode ser treinado de qualquer maneira que conduza ao envenenamento
3. Incorporar a evasão de defesas potenciais na função de perda durante o treinamento

Intenção: deixar o modelo fazer julgamentos errados sobre dados com determinadas características, mas o modelo não terá impacto na tarefa principal . Por exemplo, se um invasor pretende rotular imagens com carros vermelhos como pássaros, o invasor modificará o rótulo da amostra do cliente sequestrado para rotular imagens com carros vermelhos como pássaros e, em seguida, treinará novamente o modelo. Ao fazer previsões, o modelo final julgará mal o carro vermelho como um pássaro, mas não afetará o julgamento de outras fotos. O invasor deseja que o aprendizado federado produza um modelo global que convirja e mostre boa precisão em sua tarefa principal, ao mesmo tempo em que executa de determinada maneira tarefas de entrada de backdoor específicas escolhidas pelo invasor.

Não entendo muito bem a diferença entre a tarefa principal e a tarefa backdoor. Se for um modelo de classificação e alguns erros de classificação de dados forem causados ​​​​por ataques backdoor, não significa que não há como a tarefa principal mostrar boa precisão?
Meu entendimento é que não se trata de uma relação "primária", mas de uma questão de "volume".A classificação geral está correta, mas algumas duas classificações estão erradas após a modificação.

Ameaças de ataque :
Ataques de backdoor anteriores apenas alteraram o comportamento do modelo por meio de envenenamento de dados ou inserção direta de componentes de backdoor em um modelo fixo.É difícil de implementar em um cenário de aprendizagem federado:
(1) Ao realizar operações de agregação no lado do servidor, a média ocorrerá após Eliminar em grande medida a influência do modelo de cliente malicioso
(2) Devido ao mecanismo de seleção do servidor, não há garantia de que o cliente sequestrado pelo ataque será selecionado em todas as rodadas, reduzindo assim o risco de backdoor ataques.

No entanto, é fácil usar o envenenamento de modelo na aprendizagem federada porque (1) o servidor central não pode garantir se os participantes são maliciosos, (2) a aprendizagem federada não tem visibilidade sobre o que os usuários estão fazendo localmente, (3) seguraa agregação
Mesmo que haja casos em que a agregação segura não seja usada e os participantes também sejam censurados, o artigo propõe uma restrição geral e uma técnica de escalonamento que incorpora a evasão na função de perda do invasor, o que pode permitir que o invasor evite detectores de anomalias complexas.

Construção de modelo de ataque

Os atores afetados podem enviar um modelo malicioso que não visa a tarefa principal, mas simplesmente implanta outra coisa (funcionalidade backdoor).

O que o invasor pode controlar no cliente:
(1) Controlar os dados de treinamento local de qualquer participante comprometido (parte de todo o cliente)
(2) Controlar o processo de treinamento local e modificar hiperparâmetros como época e taxa de aprendizagem
(3) Antes de enviar o modelo Os pesos podem ser modificados
(4) e as rodadas de treinamento local podem ser alteradas de forma adaptativa.

O objetivo do invasor:
(1) O modelo global deve atingir alta precisão tanto nas tarefas principais quanto nas tarefas de backdoor
(2) Se a agregação segura não for aplicável, as atualizações enviadas pelos participantes controlados pelo invasor não devem ser usadas por outros participantes Mostradas como anomalias em "Atualização" porque qualquer definição de "anomalia" é usada pelo servidor central
(3) O modelo global deve manter alta precisão de backdoor para múltiplas rodadas após múltiplos ataques

Esclareça alguns símbolos:

  • Milímetros totaissou clientes participantes, assumindokkthO cliente k é um cliente sequestrado
  • Não .Comunicação redonda , iiModelo de treinamento local para i clientes:L it L_i^{t}eueut
  • Não .Modelo global após t rodadas de agregação: G t = G t − 1 + η n ∑ i = 1 m ( ∇ G it ) = G t − 1 + η n ∑ i = 1 m ( L it − G t − 1 ) G^t = G^{t - 1} + \frac{\eta}{n} \sum_{i = 1}^{m}(\nabla G_i^{t}) = G^{t - 1} + \frac{\eta}{n} \sum_{i = 1}^{m}(L_i^{t} - G^{t - 1})Gt=Gt - 1+nheu = 1eu( ∇G _eut)=Gt - 1+nheu = 1eu( eueut-Gt 1 )
    (ou a rodada t+1 é expressa comoG t + 1 = G t + η n ∑ i = 1 m ( L it + 1 − G t ) G^{t + 1} = G^{t } + \frac{\eta}{n} \sum_{i = 1}^{m}(L_i^{t + 1} - G^{t})Gt + 1=Gt+nheu = 1eu( eueut + 1-Gt ))
    (Aqui está o valor atualizado do peso do modelo carregado pelos clientes participantes∇ G it \nabla G_i^{t}∇G _eutem vez de pesos de modelo)
  • Não .O clientekk que foi feito refém na rodada tO modelo local problemático carregado por k : L ~ kt \tilde{L}_k^teu~kt(Pode ser entendido como adicionar um pouco de “material” ao modelo original de formação local)
  • O modelo global afetado pela adição de "material" ao modelo local do cliente: X = G ~ kt X = \tilde{G}_k^tX=G~kt

Objetivo : Influenciar sozinho o modelo global.
Informações conhecidas do atacante : Atacante kkk pode saber mais informações do que você imagina, exceto o modelo global G t G^tbaixado a cada vezGt e o modelo treinado localmenteL kt + 1 = G t + η ∇ L L_k^{t + 1} = G^t + \eta \nabla Leukt + 1=Gt+Além de η L , o invasor também pode saber a soma dos pesos de outros modelos de clientes participantes.Quando o modelo global começa a convergir durante o treinamento, as informações de gradiente enviadas por cada cliente para o servidor central ∇ G it + 1 = Lit + 1 − G t \nabla G_i^{t + 1} = L_i^{t + 1} - G^{t}∇G _eut + 1=eueut + 1-Gt se tornará muito pequeno. Os parâmetros do modelo global da rodada anterior de treinamento e da próxima rodada de treinamento não são muito diferentes. O modelo é conhecidottModelo global de rodada t G t G^{t}Gquase sabe como será o modelo global da próxima rodada. Multiplicar o modelo global pelo número de clientes participantes é a soma dos pesos de todos os clientes e, em seguida, subtrair os parâmetros do seu próprio modelo é a soma dos pesos do modelo de todos os outros clientes.

Insira a descrição da imagem aqui

Modelo global afetado XXX e o cliente sequestradokkModelo local L kt + 1 L_k^{t+1}enviado por keukt + 1A relação entre: (taxa de aprendizagem: η \etaη
X = G t + η n [ ∑ i = 1 k − 1 ( L it + 1 − G t ) + ( L kt + 1 − G t ) + ∑ i = k + 1 m ( L it + 1 − G t ) ] X = G^t + \frac{\eta}{n}[\sum_{i = 1}^{k - 1}(L_i^{t + 1} - G^t) + (L_k^ {t + 1} - G^t) + \soma_{i = k + 1}^{m}(L_i^{t + 1} - G^t)]X=Gt+nh[eu = 1k 1( eueut + 1-Gt )+( eukt + 1-Gt )+eu = k + 1eu( eueut + 1-Gt )]

A fórmula acima representa XXComo X recebeL kt + 1 L_k^{t+1}eukt + 1Influência, a seguinte fórmula é L kt + 1 L_k^{t+1}eukt + 1Como isso afeta XXX : (A seguinte fórmula e " ≈ \approxna figura acimaComo ≈ ” é implementado: Quando o modelo começa a convergir, cada cliente fornece a atualização/gradiente do modelo global(L it + 1 − G t ) (L_i^{t + 1} - G^t)( eueut + 1-Gt )já é insignificante, e a tendência geral do modelo foi formada, portanto, ignorar as atualizações/gradientes de cada cliente neste momento não afetará muito o desempenho do modelo)
L kt + 1 = n η ( X − G t ) − ∑ i = 1 k − 1 ( L it + 1 − G t ) − ∑ i = k + 1 m ( L it + 1 − G t ) + G t ≈ n η ( X − G t ) + G t L_k ^{t + 1 } = \frac{n}{\eta}(X - G^t) - \sum_{i = 1}^{k - 1}(L_i^{t + 1} - G^t) - \sum_{i = k + 1}^{m}(L_i^{t + 1} - G^t) + G^t \approx \frac{n}{\eta}(X - G^t) + G^t\nenhum númeroeukt + 1=onão( X-Gt )-eu = 1k 1( eueut + 1-Gt )-eu = k + 1eu( eueut + 1-Gt )+Gtonão( X-Gt )+Gt

Desta forma, o modelo mencionado no artigo pode ser substituído por X → G t + 1 X \to G^{t + 1}XGt + 1

Como você conseguiu X/O que exatamente é X? Na verdade , _ O modelo local treinado substitui o modelo global . O pseudocódigo original é o seguinte:
Insira a descrição da imagem aqui

Pode-se observar que o modelo XX utilizado para substituir aquiO conjunto de treinamento usado por X é o conjunto de dados backdoor D backdoor D_{backdoor}Dporta dos fundos _ _Substitua o cliente original kkk conjunto de dadosD local D_{local}Deu oc um euD ~ local \tilde {D}_{local}D~eu oc um eu, ou seja, este modelo de substituição XXA quantidade de dados no conjunto de dados usado por X não é grande.

O trabalho a ser realizado pelos ataques backdoor pode ser resumido em uma frase: o modelo global deve atingir alta precisão tanto nas tarefas principais quanto nas tarefas backdoor .

Use no esquecimento da aprendizagem

Essência : Converta o grau de dados restantes no modelo na possibilidade de o backdoor ser acionado. Se o backdoor for acionado, significa que o impacto dos dados do backdoor ainda permanece no modelo. Se não for acionado, o impacto é eliminado. Quanto melhor for o efeito de esquecimento, menor será a taxa de sucesso dos ataques backdoor.

No entanto, no aprendizado do esquecimento, os ataques backdoor não são usados ​​simplesmente como uma ferramenta para avaliar o efeito do esquecimento. A escolha dos ataques backdoor tem um histórico de aplicação prática. Se o cliente for sequestrado pelo invasor e "poluir" o modelo, então isso devem ser excluídos. O impacto adverso do cliente no modelo global, e queremos esquecer um cliente. Um dos motivos é que o cliente é sequestrado e representa uma ameaça que afeta o modelo global. Em seguida, os dados geralmente são modificados, e ataques backdoor estão entre eles.Uma situação em que um cliente é sequestrado para modificar dados, e a modificação pode ser tão pequena quanto adicionar uma tag backdoor aos dados. Antes de esquecer, o modelo "poluído" com informações de backdoor implantadas terá uma alta precisão de previsão para dados de backdoor.Depois de esquecer, o impacto desses dados de backdoor pode ser reduzido, o que se reflete no valor numérico da precisão do ataque de backdoor. grau diminuiu. Essa diferença entre alto e baixo é o significado do esquecimento.

A utilização deste ataque também reflete uma situação que o ataque de inferência de membros não leva em consideração, ou seja, pode haver clientes com dados duplicados, mas muitas vezes um cliente é sequestrado, enquanto os dados de outros clientes não são afetados. Dessa forma, a diferença entre dados sequestrados e não sequestrados pode ser distinguida usando os mesmos dados com ou sem backdoor, o que é uma diferença semelhante na aparência.

Enquanto o backdoor não for acionado, a precisão do ataque deve ser 0. Não há um problema de generalização? Nem toda precisão de ataque no artigo é 0. Se as outras não forem 0, é porque o efeito de esquecimento não é bom ou é um problema de generalização de dados?

Acho que você gosta

Origin blog.csdn.net/x_fengmo/article/details/132379709
Recomendado
Clasificación