【Introdução do artigo】- STFL: Uma estrutura de aprendizagem federada espaço-temporal para redes neurais de gráfico

Informações do papel

STFL: Uma Estrutura de Aprendizagem Federada Espaço-Temporal para Redes Neurais de Gráfico
insira a descrição da imagem aqui

Endereço original: STFL: A Spatial-Temporal Federated Learning Framework for Graph Neural Networks: https://arxiv.org/abs/2111.06750
Código-fonte: https://github.com/JW9MsjwjnpdRLFw/TSFL

Resumo

Apresentamos um framework de aprendizado federado espaço-temporal para redes neurais de grafos, chamado STFL. A estrutura explora a correlação subjacente dos dados espaço-temporais de entrada e os transforma em recursos de nó e matriz de adjacência. A configuração de aprendizado federado na estrutura garante a privacidade dos dados enquanto alcança uma boa generalização do modelo. Os resultados dos experimentos no conjunto de dados do estágio de sono, ISRUC_S3, ilustram a eficácia do STFL em tarefas de previsão de gráfico.

Propomos STFL, um framework de aprendizado federado espaço-temporal para redes neurais em grafos. A estrutura explora as correlações subjacentes dos dados espaço-temporais de entrada e os transforma em recursos de nó e matriz de adjacência. A configuração de aprendizado federado na estrutura alcança uma boa generalização do modelo, garantindo a privacidade dos dados. Os resultados experimentais no conjunto de dados do estágio de sono ISRUC S3 ilustram a eficácia do STFL em tarefas de previsão de gráficos.

Contribuições

  1. Primeiro implementamos um gerador de grafos para processamento de dados espaço-temporais, incluindo extração de características e exploração de correlação de nós;
  2. Integrando o gerador de grafos no STFL proposto, uma estrutura de aprendizagem federada ponta-a-ponta de GNNs espaço-temporais em tarefas de classificação em nível de grafo é projetada;
  3. Experimentos extensivos foram conduzidos no conjunto de dados de sono real ISRUC S3;
  4. Publique o código-fonte do STFL no Github1.

Metodologia

Estrutura STFL:
insira a descrição da imagem aqui

Geração de gráfico

Trate a série espaço-tempo como entrada bruta. Definição Uma sequência multivariada insira a descrição da imagem aquié definida como o conjunto de séries temporais com um total de T timestamps, cada um dos quais com frequência de sinal si ∈ RDde dimensão . Como não há conceito de nó nos dados espaço-temporais, aproveitamos os canais espaciais e os tratamos como nós, o que significa que, se houver N canais, haverá N nós na estrutura de dados do grafo transformado.

Assumindo que cada canal tem um conjunto de séries temporais S, a série espaço-temporal com canais completos é denotada como insira a descrição da imagem aqui.
Posteriormente, os dados espaço-temporais originais são convertidos em uma representação de matriz de recursos usando uma rede de extração de recursos baseada em CNN, e a saída da rede de extração de recursos é , insira a descrição da imagem aquionde d representa a dimensão do recurso. insira a descrição da imagem aquiUm instantâneo de é representado como insira a descrição da imagem aqui.
Depois de obter a matriz de recursos refinada insira a descrição da imagem aqui, a correlação entre os canais (nós) precisa ser revelada. Neste ponto, é natural processar XT ∈ RN×dasa matriz de recursos do nó e recuperar possíveis correlações entre eles. Em seguida, definimos a função de correlação de nó, que recebe uma matriz de recursos de nó como entrada e gera uma matriz de adjacência AT∈RN×N::
insira a descrição da imagem aqui
onde Corr( ) calcula a correlação ou dependência de cada canal (nó) com base em XT . Existem várias opções para a função de correlação nodal, como a função de correlação de Pearson ou a função de valor de bloqueio de fase.

Gráfico Rede Neural

Ao longo da dimensão de tempo, obtemos {G1, ..., GT} como todo o conjunto de dados do gráfico, denotando os dados do gráfico gerados em cada registro de data e hora, e usamos {y1, ..., yT} para corresponder aos rótulos do gráfico. Aqui formulamos a tarefa de previsão de gráfico, onde se espera que a saída do gerador de gráfico seja prevista corretamente. Para simplificar a notação, usamos VT para representar o conjunto de nós em cada GT, e o número de nós V é basicamente o mesmo que o número da linha na matriz de recursos do nó XT. Para cada v ∈ V, as características do nó correspondente são escritas como xv∈ Rd.

Usamos ne[v] para denotar a vizinhança do nó v, cujos valores associados podem ser recuperados da matriz de adjacência A. Em seguida, formulamos as etapas de passagem e leitura de mensagens do GNN. Vamos treinadordenotar os embeddings do nó na camada l. A passagem de mensagem do nó v da camada l para a camada l+1 pode ser formalizada como:
insira a descrição da imagem aquionde, insira a descrição da imagem aquirepresenta a matriz de transformação apreensível da camada l+1, e σ representa a função de ativação. As GNNs atualizam os nós hl 1vincorporados .

Para obter uma representação de todo o grafo após a camada de passagem de mensagem no nível L, o GNN executa uma operação de leitura para derivar a representação final do grafo a partir de incorporações de nós, que pode ser formulada da seguinte forma: Readout( ) é uma operação invariante de permutação,
insira a descrição da imagem aqui
que pode ser simplesmente A função média também pode ser uma função de agrupamento de nível de gráfico mais complexa, como MLP.
Na configuração totalmente supervisionada, usamos uma rede neural rasa para aprender um mapeamento entre as incorporações de gráficos e o espaço de rótulos Y. σ( ) é uma transformação não linear que pode ser generalizada como: insira a descrição da imagem aqui
Além disso, utilizamos uma função de entropia cruzada binária baseada em gráfico para calcular a perda L na configuração supervisionada. A fórmula da função perda é:
insira a descrição da imagem aqui

aprendizagem federada

O STFL treina GNNs de diferentes clientes em um ambiente de aprendizado federado. STFL consiste em um servidor central S e n clientes C. Cada cliente implementa um GNN que aprende o cliente a partir dos dados do gráfico local e carrega os pesos do GNN para um servidor central. O servidor central recebe os pesos de todos os clientes, atualiza os pesos WS do modelo GNN global e distribui os pesos atualizados de volta para cada cliente. Neste trabalho, escolhemos FedAvg como função de agregação, que calcula a média dos pesos de cada cliente para gerar os pesos do GNN global no servidor.
insira a descrição da imagem aqui

Experimentar

conjunto de dados

Em nossos experimentos, ISRUC S3 (Khalighi et al., 2016) é usado como conjunto de dados de referência. O ISRUC S3 coleta registros polissonográficos (PSG) de 10 canais de 10 indivíduos saudáveis ​​(ou seja, participantes de experimentos de sono). Essas gravações de PSG foram rotuladas para cinco estágios distintos do sono, incluindo vigília, N1, N2, N3 e REM, de acordo com os critérios da AASM (Jia et al., 2020). Conforme descrito na seção anterior, empregamos uma rede de extração de recursos baseada em CNN (Jia et al., 2021) para gerar os recursos iniciais do nó. Para gerar a matriz de adjacência, quatro diferentes funções de associação de nós são implementadas e discutidas separadamente. Para avaliar a eficácia do STFL, seguimos a configuração não iiddata (Zhang et al., 2020) e atribuímos diferentes estágios do sono aos clientes para verificar a eficácia de nossa estrutura proposta.

Funções de Correlação de Nó

  • DB é a função de distância euclidiana usada para medir a distância espacial entre os pares de eletrodos.
  • K-NN (Jiang et al. 2013) gera uma matriz de adjacência que seleciona apenas os k vizinhos mais próximos de cada nó para representar as dependências do nó de um grafo.
  • O PCC (Pearson e Lee 1903) é conhecido como a função de correlação de Pearson e é usado para medir a similaridade entre cada par de nós.
  • PLV (Aydore, Pantazis e Leahy 2013) é uma função de correlação de nó variável no tempo que mede o sinal de cada par de nós.

Análise comparativa de desempenho

  1. Para avaliar a eficácia das quatro funções relacionadas ao nó, comparamos o efeito de cada função relacionada ao nó na GCN sob a configuração federada, pois a GCN tem a estrutura mais simples entre os três modelos GNN. Conforme mostrado na Figura 2, PCC e PLV funcionam bem na configuração conjunta, com taxas de convergência mais rápidas, especialmente nas duas primeiras épocas. Além disso, em comparação com outras funções relacionadas ao nó, conforme mostrado na Tabela 2, os escores F1 de PLV dos 3 modelos federados são os mais altos, seguidos por PCC e DB é o pior. Isso pode ser devido à camada de agrupamento no modelo CNN (rede de extração de recursos), que olha para uma pequena janela temporal da sequência de entrada, da qual a correlação correta para cada par de nós pode ser extraída usando PLV.
    insira a descrição da imagem aquiinsira a descrição da imagem aqui

  2. Para avaliar a eficácia do STFL, testamos seu desempenho sob diferentes perspectivas. Em nossos experimentos, primeiro avaliamos o modelo de grafo federado no ISRUC S3 com PLV, uma vez que o PLV se forma melhor para cada uma das quatro funções relacionadas ao nó discutidas em RQ1. Conforme mostrado na Tabela 3, no STFL, todos os três modelos GNN produzem resultados razoáveis. Especialmente na configuração conjunta, o GAT atinge a pontuação F1 mais alta e a precisão no PLV, e o GraphSage vem em segundo lugar.
    insira a descrição da imagem aquiinsira a descrição da imagem aquiAlém disso, examinamos os resultados dos modelos centralizados para essas três redes de grafos, e os resultados também são mostrados na Tabela 3. Nesta parte, os hiperparâmetros são mantidos constantes com os experimentos conjuntos. Para divisão de dados, os dados de teste são iguais aos dados nos experimentos de aprendizado federado. Os dados de treinamento são amostrados aleatoriamente dos dados agregados de todos os clientes, e o tamanho dos dados de treinamento é o mesmo de um cliente. Para todos os GNNs na configuração centralizada, o GraphSage atinge a maior pontuação e precisão F1, seguido pelo GCN. Além disso, todos os modelos treinados na configuração conjunta obtêm melhores resultados (F1score e precisão) em comparação com a configuração centralizada. Isso indica que os modelos treinados em STFL geram distribuições de dados com êxito em configurações não IID. Outra descoberta é que o melhor modelo GNN em um ambiente centralizado não é necessariamente o melhor em um ambiente federado.

  3. Para determinar a melhor combinação de GNNs para STFL, três GNNs foram testados em ISRUC S3 e PLV sob a estrutura conjunta, uma vez que PLV obteve os melhores resultados entre todas as funções relacionadas ao nó, cujos detalhes são analisados ​​em RQ1 . Conforme mostrado na Figura 3, o GCN converge mais rápido, mas é mais instável do que os outros dois. Também descobrimos que o GraphSage converge mais lentamente na primeira época, mas atinge uma redução de perda constante durante a fase de teste. Também descobriu que todos os três modelos eventualmente convergiram para a mesma perda, flutuando em torno de 0,15. Além disso, avaliamos a pontuação F1 de cada classe usando PLV. A Tabela 4 mostra que, para REM, o GraphSage tem melhor desempenho, enquanto o GCN tem a pontuação mais alta nas outras quatro categorias. insira a descrição da imagem aqui
    Curiosamente, a perda de treinamento dos três modelos flutua em uma ampla faixa, especialmente nas últimas três épocas. Isso provavelmente ocorre porque a estrutura conjunta distribui o modelo global para cada cliente em cada lote de treinamento. Nos estágios posteriores do treinamento, cada cliente não pode ajustar bem seus próprios dados no modelo global generalizado, especialmente para os modelos propensos ao overfitting.

Acho que você gosta

Origin blog.csdn.net/weixin_43598687/article/details/131141861
Recomendado
Clasificación