Os iniciantes em IA devem ler: aprendizado profundo, aprendizado por transferência, aprendizado por reforço, não seja bobo e confuso

Resumo: Muitos vocabulários populares sobre inteligência artificial permanecem em nossos ouvidos, como aprendizado profundo (aprendizado profundo), aprendizado por reforço (aprendizado por reforço), aprendizado por transferência (aprendizado por transferência), e muitas pessoas estão preocupadas com o significado desse vocabulário de alta frequência e por trás dele Estou confuso sobre o relacionamento e hoje vou esclarecer a relação e a diferença entre eles.

1. Aprendizado profundo:

O sucesso e o desenvolvimento da aprendizagem profunda se beneficiaram do aumento significativo na capacidade de computação e big data. Após a digitalização, uma grande quantidade de dados é gerada. Uma grande quantidade de treinamento de dados pode ser usada para descobrir as leis dos dados, de modo a realizar a previsão de dados com base no aprendizado supervisionado.

O aprendizado profundo baseado em redes neurais é usado principalmente em imagens, texto, voz e outros campos.

Na conferência NIPS de 2016, Wu Enda apresentou um mapa de desenvolvimento técnico para a direção futura da IA:

O aprendizado supervisionado é atualmente a tecnologia de IA mais disponível comercialmente com a mais alta maturidade. A próxima tecnologia de IA comercial será a aprendizagem por transferência. Esta também é a IA que Andrew prevê que será mais provável de ser comercializada nos próximos cinco anos. tecnologia.

2. Transferência de aprendizagem:

Aprendizagem por transferência: Use dados relevantes e semelhantes para treinar e perceber a capacidade de generalização do próprio modelo por meio da aprendizagem por transferência, que é como transferir o conhecimento aprendido de uma cena para outra.

Pegue o reconhecimento de imagem, do dia à noite, do inverno ao verão, da identificação de chineses à identificação de estrangeiros ...

Pegue emprestado um diagrama esquemático (de: uma pesquisa sobre aprendizagem por transferência) para ilustrar:

O valor da aprendizagem por transferência se reflete em:

1. Os dados em algumas cenas não podem ser coletados, neste momento o aprendizado de transferência é muito valioso;

2. Reutilizar dados de domínio de conhecimento existentes, e uma grande quantidade de trabalho existente não será completamente descartada;

3. Não há necessidade de gastar um preço enorme para readquirir e calibrar um novo conjunto de dados enorme;

4. Para novas áreas emergentes rapidamente, pode ser rapidamente migrado e aplicado, refletindo as vantagens da oportunidade;

Resumo da prática de algoritmos de transferência de aprendizagem:

1. Ofuscar o treinamento por meio de dados originais e uma pequena quantidade de novos dados de campo;

2. Divida o modelo de treinamento original e retenha o modelo básico (dados) como base de migração para o novo campo;

3. Obter novas imagens de cena por meio de simulação 3D (a plataforma Universe da OpenAI usa jogos de corrida para treinar);

4. O método de aprendizagem de migração com a ajuda da rede de confronto GAN;

3. Aprendizagem por reforço:

Aprendizagem por reforço: o nome completo é Deep Reinforcement Learning (DRL), que dá às máquinas a capacidade de aprender e pensar por conta própria.

No momento, o aprendizado por reforço é usado principalmente no campo de IA de jogos, e o mais famoso deve ser o Go War da AlphaGo. A aprendizagem por reforço é uma proposição complicada. O deus da mente profunda, David Silver, a entende como um assunto interdisciplinar:

Na verdade, a aprendizagem por reforço é um método de aprendizagem exploratória que é melhorado por meio de "tentativa e erro" contínuas. A diferença da aprendizagem supervisionada é que a aprendizagem por reforço em si não tem um rótulo e não pode obter um feedback claro após cada etapa da ação (em Neste ponto, cada etapa do aprendizado supervisionado pode realizar a comparação de rótulos e obter True ou False).

A aprendizagem por reforço é descrita pela combinação dos seguintes elementos:

Objeto (Agente)

Esse é o nosso tema inteligente, como AlphaGo.

Meio Ambiente (Meio Ambiente)

A cena em que o Agente está localizado - como o tabuleiro onde Go é jogado e seu estado correspondente - como o jogo atual.

O agente precisa obter feedback da percepção do ambiente (se a situação atual é mais favorável para mim).

Ações

Que ações podem ser realizadas em cada Estado e analise seu impacto para cada ação.

Recompensas

A recompensa ou punição obtida após a execução da ação é obtida por meio da observação do ambiente.

 

Clique para seguir e aprender sobre a nova tecnologia da Huawei Cloud pela primeira vez ~

Acho que você gosta

Origin blog.csdn.net/devcloud/article/details/108795121
Recomendado
Clasificación