Aprendizagem ativa (design experimental ideal)

1. O que é aprendizado de máquina

O aprendizado de máquina é um importante campo de pesquisa da inteligência artificial e também um meio relativamente complexo de processamento de informações , com aplicações importantes no processamento de imagens, reconhecimento de padrões, mineração de dados e outros campos. O aprendizado de máquina deve ter a capacidade de extrair informações automaticamente em bancos de dados e sistemas de informação e, em seguida, convertê-las em conhecimento e armazená-las automaticamente na base de conhecimento.

Em essência, o aprendizado de máquina é sobre algoritmos que dão às máquinas a capacidade de aprender. Em muitos casos, esses algoritmos podem resumir alguns dos dados fornecidos e derivar informações desses atributos de dados para fazer previsões de novos dados que aparecerão no futuro.

2. Antecedentes da Aprendizagem Ativa

No campo do aprendizado de máquina (aprendizado de máquina), aprendizado supervisionado (aprendizado supervisionado), aprendizado não supervisionado (aprendizado não supervisionado) e aprendizado semi-supervisionado (aprendizado semi-supervisionado) existem três tipos de técnicas de aprendizado com mais pesquisa e aplicação mais ampla. descrição desses três tipos de aprendizagem é a seguinte:

  • Aprendizagem supervisionada : por meio do relacionamento correspondente entre uma parte dos dados de entrada e os dados de saída, uma função é gerada para mapear a entrada para a saída apropriada, como classificação e regressão.

  • Aprendizagem semi-supervisionada : Uso abrangente de dados rotulados e dados não rotulados para gerar funções de classificação adequadas.

  • Aprendizagem não supervisionada : Modelando o conjunto de dados de entrada diretamente, por exemplo, agrupamento.

Na verdade, muito aprendizado de máquina está resolvendo o problema de atribuição de categoria, ou seja, dados alguns dados, para determinar a qual categoria cada dado pertence, ou quais outros dados pertencem à mesma categoria e assim por diante. Dessa forma, se chegarmos a uma certa divisão (agrupamento) dessa pilha de dados e organizarmos automaticamente os dados em certas categorias por meio de alguns atributos inerentes e conexões dos dados, isso pertence ao aprendizado não supervisionado . Se soubermos as categorias que esses dados contêm desde o início e alguns dos dados (dados de treinamento) foram marcados com rótulos de classe, podemos resumir os dados que foram marcados com rótulos de classe para obter um "dados->categoria " A função de mapeamento para classificar os dados restantes, que pertencem ao aprendizado supervisionado . O aprendizado semi -supervisionado refere-se ao método de melhorar a precisão do aprendizado usando alguns dados sem rótulos de classe quando os dados de treinamento são muito escassos .

Tanto para o aprendizado supervisionado quanto para o aprendizado semissupervisionado , é necessária uma certa quantidade de dados rotulados , ou seja, ao treinar o modelo, todos ou parte dos dados precisam ser rotulados com os rótulos correspondentes para treinar o modelo. Quando usamos alguns métodos tradicionais de aprendizado supervisionado para classificação, quanto maior o tamanho da amostra de treinamento, melhor o efeito da classificação.

No entanto, em muitos cenários da vida real, é difícil obter amostras rotuladas , o que requer especialistas na área para rotular manualmente, o que leva muito tempo e custos econômicos . Além disso, se o tamanho das amostras de treinamento for muito grande, o tempo gasto no treinamento será relativamente grande .

  • No campo da anotação de imagens na indústria , embora exista o ImageNet, um banco de dados de imagens usado na academia e na indústria, em muitos cenários de negócios especiais, os profissionais ainda precisam encontrar maneiras de obter dados de anotação de negócios.

  • No campo do controle de riscos de segurança , os usuários negros são relativamente pequenos em comparação com os usuários normais, portanto, como construir um modelo com poucos usuários negros é uma das questões que vale a pena pensar.

  • No campo de operação e manutenção de negócios , o tempo de falha de servidores e aplicativos é relativamente pequeno em comparação com o tempo de operação normal e, inevitavelmente, haverá amostras desequilibradas.

Portanto, como obter dados rotulados mais valiosos com menos custo e melhorar ainda mais o efeito do algoritmo é uma questão que vale a pena pensar.

A Aprendizagem Ativa (Active Learning) nos proporciona essa possibilidade. O aprendizado ativo usa um determinado algoritmo para consultar as amostras não rotuladas mais úteis e entregá-las a especialistas para rotulagem e, em seguida, usa as amostras consultadas para treinar o modelo de classificação para melhorar a precisão do modelo.

Quando o aprendizado ativo não é usado, de um modo geral, o sistema selecionará amostras aleatoriamente ou usará algumas regras artificiais para fornecer amostras a serem marcadas para marcação manual. Embora isso também possa trazer uma certa melhoria de efeito, o custo de rotulagem é sempre relativamente alto . (Usando um exemplo como metáfora, um estudante do ensino médio espera melhorar suas notas de teste fazendo perguntas simuladas para o vestibular. Então, há várias opções no processo de fazer as perguntas. Uma é escolher aleatoriamente no passado anos de vestibular e testes simulados. Selecione um lote de perguntas para fazer para melhorar as notas dos testes. Mas leva muito tempo para fazer isso e a pertinência não é forte o suficiente; outro método é cada aluno criar seu próprio livro de perguntas erradas para registrar Os exercícios que sou fácil de fazer errado, consolidar repetidamente as perguntas que fiz de errado e consolidar meus pontos de conhecimento que são fáceis de cometer erros, revisando as perguntas que fiz de errado muitas vezes e gradualmente melhorar minhas pontuações de teste. A ideia do aprendizado ativo é escolher um lote de dados de amostra que seja fácil de ser classificado erroneamente, permitir que os humanos o rotulem e, em seguida, permitir que o modelo de aprendizado de máquina treine o processo.)
insira a descrição da imagem aqui

No processo de aprendizado humano, geralmente usamos a experiência existente para aprender novos conhecimentos e contamos com o conhecimento adquirido para resumir e acumular experiência , e experiência e conhecimento estão em constante interação . Da mesma forma, o aprendizado de máquina simula o processo de aprendizado humano, usa o conhecimento existente para treinar o modelo para adquirir novos conhecimentos e corrige o modelo por meio das informações acumuladas para obter um novo modelo mais preciso e útil. **Diferente da aprendizagem passiva, que aceita passivamente o conhecimento, a aprendizagem ativa pode adquirir conhecimento seletivamente.

3. O que é aprendizagem ativa?

De acordo com o exposto acima, em cenários reais de análise de dados, podemos obter grandes quantidades de dados , mas esses dados são dados não rotulados e muitos algoritmos clássicos de classificação não podem ser usados ​​diretamente . Aí alguém com certeza vai dizer que os dados não estão marcados, então vamos marcar os dados! Esse tipo de pensamento é normal e simples, mas o custo da rotulagem de dados é muito alto. Mesmo se apenas rotularmos milhares ou dezenas de milhares de dados de treinamento, os custos de tempo e dinheiro da rotulagem de dados também são enormes.

Antes de introduzir o conceito de aprendizado ativo, primeiro fale sobre a questão da informação de amostra.

Simplificando, a informação da amostra significa que no conjunto de dados de treinamento, cada amostra traz informações diferentes para o treinamento do modelo , ou seja, a contribuição de cada amostra para o treinamento do modelo é diferente , e existem diferenças entre elas .

Portanto, a fim de reduzir ao máximo os custos do conjunto de treinamento e rotulagem , no campo do aprendizado de máquina, um método de aprendizado ativo é proposto para otimizar o modelo de classificação.

Por que o aprendizado ativo é útil? Vamos sentir através de um exemplo intuitivo.

[Falha na transferência da imagem do link externo, o site de origem pode ter um mecanismo de link anti-roubo, é recomendável salvar a imagem e carregá-la diretamente (img-UkzuGCsI-1678104171916) (C:\Users\XueFeng Liu\AppData\Roaming\ Typora\typora-user-images\image-20230305203940016.png)]

(a) Um conjunto de dados que consiste em 400 instâncias retiradas uniformemente de duas classes de distribuições gaussianas. As instâncias são representadas como pontos em um espaço de recursos bidimensional. (b) Um modelo de regressão logística é treinado amostrando aleatoriamente 30 instâncias rotuladas do domínio do problema . Esta linha azul representa o limite de decisão do classificador (70% de precisão). © Modelo de regressão logística (90%) treinado em 30 instâncias de consulta ativa usando amostragem de incerteza .

Isso mostra que a contribuição das amostras para o modelo não é a mesma e é de importância prática selecionar amostras mais valiosas. Claro, como determinar e avaliar o valor das amostras também é um foco da pesquisa de aprendizagem ativa.

Então, qual é a ideia geral do Active Learning?

No processo de modelagem de aprendizado de máquina, geralmente inclui várias etapas, como seleção de amostra, treinamento de modelo, previsão de modelo e atualização de modelo. No campo da aprendizagem ativa, é necessário adicionar as duas etapas de extração do conjunto de candidatos de anotação e anotação manual ao processo geral. Aprendizagem ativa refere-se a tal método de aprendizagem. O modelo de aprendizagem ativa é o seguinte:
A = ( C , Q , S , L , U ) A=(C,Q,S,L,U)A=( C ,Q ,S ,L ,U )
_

  • L é a amostra rotulada para treinamento
  • C é um grupo ou um classificador
  • Q é uma função de consulta, que é usada para consultar informações com uma grande quantidade de informações do conjunto de amostras não rotulados U
  • U é o pool de amostra não rotulado
  • S é o supervisor, que pode rotular as amostras em U corretamente.

O aluno começa a aprender com um pequeno número de amostras inicialmente rotuladas L , seleciona uma ou um lote das amostras mais úteis por meio de uma determinada função de consulta Q e pede ao supervisor S rótulos e, em seguida, usa o novo conhecimento adquirido para treinar o classificador e prossiga para a próxima etapa.Consulta redonda . A aprendizagem ativa é um processo cíclico até que um determinado critério de parada seja alcançado.

O aprendizado ativo é um subcampo do aprendizado de máquina, também chamado de aprendizado de consulta ou design experimental ideal no campo da estatística , que visa atingir o desempenho alvo com o menor número possível de amostras rotuladas.

algoritmo de seleção de amostra

De acordo com a forma de obtenção de exemplos não rotulados, a aprendizagem ativa pode ser dividida em dois tipos: baseada em fluxo e baseada em pooling.

No aprendizado ativo baseado em fluxo , as amostras não rotuladas são enviadas para o mecanismo de seleção uma a uma em sequência, e o mecanismo de seleção decide se rotular a amostra atualmente enviada e, caso contrário, a descarta.

No aprendizado ativo baseado em pool, uma coleção de amostras não rotuladas é mantida e o mecanismo de seleção seleciona a amostra atual a ser rotulada na coleção.

[Falha na transferência da imagem do link externo, o site de origem pode ter um mecanismo anti-leeching, é recomendável salvar a imagem e carregá-la diretamente (img-lVB0I7U3-1678104171919) (C:\Users\XUEFEN~1\AppData\Local\ Temp\WeChat Files\2a0eed79d29c8718255472309384820 .jpg)]

A estratégia de consulta (Query Strategy Frameworks) é o núcleo do aprendizado ativo, geralmente você pode escolher as seguintes estratégias de consulta:

  1. Consulta de Amostragem de Incerteza ( Amostragem de Incerteza );
  2. Consulta baseada em comitê ( Query-By-Committee );
  3. Consulta com base nas expectativas de mudança do modelo ( Expected Model Change );
  4. Consulta baseada na redução de erros ( Redução de erros esperada );
  5. Consultas baseadas em redução de variância ( Variance Reduction );
  6. Consultas baseadas em peso de densidade ( Métodos ponderados por densidade ).

Amostragem de Incerteza

Como o nome indica, o método de consulta de amostragem de incerteza é extrair os dados de amostra indistinguíveis no modelo e fornecê-los a especialistas de negócios ou rotuladores para rotulagem, de modo a obter a capacidade de melhorar o efeito do algoritmo em uma velocidade mais rápida . A chave para o método de amostragem de incerteza é como descrever a incerteza da amostra ou dos dados . Normalmente existem as seguintes ideias:

  1. A menor confiança (Least Confident);
  2. Amostragem de margem;
  3. método da entropia (Entropy);

menos confiante

Para modelos de duas categorias ou multicategorias, eles geralmente são capazes de pontuar cada dado para determinar qual categoria é mais parecida. Por exemplo, em um cenário de classificação binária, dois dados são previstos por um determinado classificador, e as probabilidades previstas para as duas categorias são: (0,9,0,1) e (0,51, 0,49). Neste caso, a probabilidade do primeiro dado ser julgado como a primeira classe é 0,9, e a probabilidade do segundo dado ser julgado como a primeira classe é 0,51, então o segundo dado é obviamente mais "difícil" de ser distinguido, e portanto mais Há o valor que continua a ser marcado. O chamado método menos confiável é selecionar as amostras com a maior probabilidade e a menor probabilidade de rotulagem. A fórmula matemática é:
x LC ∗ = argmax ⁡ x ( 1 − P θ ( y ^ ∣ x ) ) = argmin ⁡ x P θ ( y ^ ∣ x ) , x_{LC}^{*}=\operatorname{argmax}_{x}\left(1-P_{\theta}(\hat{y} \mid x)\right )\\ =\operatorname{ argmin}_{x} P_{\theta}(\hat{y} \mid x),xLC _=argmaxx( 1Peu(y^x ) )=argminxPeu(y^x ) ,
ey ^ = argmax ⁡ y P θ ( y ∣ x ) \hat{y}=\operatorname{argmax}_{y} P_{\theta}(y \mid x)y^=argmaxvocêPeu( yx ) , ondeθ \thetaθ representa um conjunto de parâmetros de modelo de aprendizado de máquina treinados. y ^ \hat{y}y^para xxEm termos de x, é a categoria com maior probabilidade prevista pelo modelo. O método menos confiável considera os dados de amostra para os quais o modelo prevê a maior probabilidade, mas com baixa confiança.

Amostragem de Margem

A amostragem de margem refere-se à seleção de dados de amostra que são facilmente julgados como dois tipos, ou a probabilidade desses dados serem julgados como dois tipos não é muito diferente. Amostragem de borda é selecionar a amostra com a menor diferença de probabilidade entre a maior previsão do modelo e a segunda maior probabilidade, que é descrita por uma fórmula matemática: diferença de grau)
x M ∗ = argmin ⁡ x ( P θ ( y ^ 1 ∣ x ) − P θ ( y ^ 2 ∣ x ) ) x_{M}^{*}=\operatorname{argmin}_{ x}\left(P_{\theta}\left(\hat{y}_{1} \mid x\right)-P_{\theta}\left(\hat{y}_{2} \mid x\ right)\right)xM=argminx( Peu(y^1x )Peu(y^2x ) )
ondey ^ 1 \hat{y}_{1}y^1y ^ 2 \hat{y}_{2}y^2representam respectivamente para xxPara x , o modelo prevê a classe mais provável e a segunda classe mais provável.
Em particular, para o problema de duas categorias, a amostragem menos confiável e a amostragem de margem são realmente equivalentes.

Entropia _

Na teoria da informação, a entropia pode ser usada para medir a incerteza de um sistema : quanto maior a entropia, maior a incerteza do sistema , e quanto menor a entropia, menor a incerteza do sistema. Portanto, no cenário de classificação binária ou multiclassificação, dados de amostra com entropia relativamente grande podem ser selecionados como dados de rótulo indeterminados. Expresso em uma fórmula matemática:
x H ∗ = argmax ⁡ x − ∑ i P θ ( yi ∣ x ) ⋅ ln ⁡ P θ ( yi ∣ x ) , x_{H}^{*}=\operatorname{argmax}_{ x}-\sum_{i} P_{\theta}\left(y_{i} \mid x\right) \cdot \ln P_{\theta}\left(y_{i} \mid x\right),xH=argmaxxeuPeu( yeux )lnPeu( yeux ),
em comparação com a amostra menos confiável e de margem, o método de entropia considerao impacto do modelo em um determinadoxxTodos os resultados de avaliação de categoria de x . A amostra menos confiante considera apenas a maior probabilidade, e a amostra de margem considera as duas maiores e segundas maiores probabilidades.

aplicativo

Seus campos de aplicação incluem:

  1. Spam personalizado, mensagens de texto, classificação de conteúdo: incluindo mensagens de texto de marketing, assinatura de correio, mensagens de texto e correio de spam, etc.;

  2. Detecção de anomalias: incluindo, entre outros, detecção de anomalias de dados de segurança, identificação de contas ilegais, detecção de anomalias de séries temporais, etc.

  3. Incluindo reconhecimento de imagem, processamento de linguagem natural, controle de riscos de segurança e muitos outros campos.

Resumir

No campo da aprendizagem ativa (Aprendizado Ativo), a chave está em como selecionar um conjunto candidato a rótulo adequado para rotulagem manual , e o método de seleção é a chamada estratégia de consulta (Estratégia de Consulta) . A estratégia de consulta pode basear-se basicamente em um único modelo de aprendizado de máquina ou em vários modelos de aprendizado de máquina, que podem ser determinados de acordo com a situação real em uso. Em geral, o aprendizado ativo existe para reduzir o custo de rotulagem e melhorar rapidamente o efeito do modelo .

Acho que você gosta

Origin blog.csdn.net/weixin_48266700/article/details/129369637
Recomendado
Clasificación