Resumo: Muitos vocabulários populares sobre inteligência artificial permanecem em nossos ouvidos, como aprendizado profundo (aprendizado profundo), aprendizado por reforço (aprendizado por reforço), aprendizado por transferência (aprendizado por transferência), e muitas pessoas estão preocupadas com o significado desse vocabulário de alta frequência e por trás dele Estou confuso sobre o relacionamento e hoje vou esclarecer a relação e a diferença entre eles.
1. Aprendizado profundo:
O sucesso e o desenvolvimento da aprendizagem profunda se beneficiaram do aumento significativo na capacidade de computação e big data. Após a digitalização, uma grande quantidade de dados é gerada. Uma grande quantidade de treinamento de dados pode ser usada para descobrir as leis dos dados, de modo a realizar a previsão de dados com base no aprendizado supervisionado.
O aprendizado profundo baseado em redes neurais é usado principalmente em imagens, texto, voz e outros campos.
Na conferência NIPS de 2016, Wu Enda apresentou um mapa de desenvolvimento técnico para a direção futura da IA:
O aprendizado supervisionado é atualmente a tecnologia de IA mais disponível comercialmente com a mais alta maturidade. A próxima tecnologia de IA comercial será a aprendizagem por transferência. Esta também é a IA que Andrew prevê que será mais provável de ser comercializada nos próximos cinco anos. tecnologia.
2. Transferência de aprendizagem:
Aprendizagem por transferência: Use dados relevantes e semelhantes para treinar e perceber a capacidade de generalização do próprio modelo por meio da aprendizagem por transferência, que é como transferir o conhecimento aprendido de uma cena para outra.
Pegue o reconhecimento de imagem, do dia à noite, do inverno ao verão, da identificação de chineses à identificação de estrangeiros ...
Pegue emprestado um diagrama esquemático (de: uma pesquisa sobre aprendizagem por transferência) para ilustrar:
O valor da aprendizagem por transferência se reflete em:
1. Os dados em algumas cenas não podem ser coletados, neste momento o aprendizado de transferência é muito valioso;
2. Reutilizar dados de domínio de conhecimento existentes, e uma grande quantidade de trabalho existente não será completamente descartada;
3. Não há necessidade de gastar um preço enorme para readquirir e calibrar um novo conjunto de dados enorme;
4. Para novas áreas emergentes rapidamente, pode ser rapidamente migrado e aplicado, refletindo as vantagens da oportunidade;
Resumo da prática de algoritmos de transferência de aprendizagem:
1. Ofuscar o treinamento por meio de dados originais e uma pequena quantidade de novos dados de campo;
2. Divida o modelo de treinamento original e retenha o modelo básico (dados) como base de migração para o novo campo;
3. Obter novas imagens de cena por meio de simulação 3D (a plataforma Universe da OpenAI usa jogos de corrida para treinar);
4. O método de aprendizagem de migração com a ajuda da rede de confronto GAN;
3. Aprendizagem por reforço:
Aprendizagem por reforço: o nome completo é Deep Reinforcement Learning (DRL), que dá às máquinas a capacidade de aprender e pensar por conta própria.
No momento, o aprendizado por reforço é usado principalmente no campo de IA de jogos, e o mais famoso deve ser o Go War da AlphaGo. A aprendizagem por reforço é uma proposição complicada. O deus da mente profunda, David Silver, a entende como um assunto interdisciplinar:
Na verdade, a aprendizagem por reforço é um método de aprendizagem exploratória que é melhorado por meio de "tentativa e erro" contínuas. A diferença da aprendizagem supervisionada é que a aprendizagem por reforço em si não tem um rótulo e não pode obter um feedback claro após cada etapa da ação (em Neste ponto, cada etapa do aprendizado supervisionado pode realizar a comparação de rótulos e obter True ou False).
A aprendizagem por reforço é descrita pela combinação dos seguintes elementos:
Objeto (Agente)
Esse é o nosso tema inteligente, como AlphaGo.
Meio Ambiente (Meio Ambiente)
A cena em que o Agente está localizado - como o tabuleiro onde Go é jogado e seu estado correspondente - como o jogo atual.
O agente precisa obter feedback da percepção do ambiente (se a situação atual é mais favorável para mim).
Ações
Que ações podem ser realizadas em cada Estado e analise seu impacto para cada ação.
Recompensas
A recompensa ou punição obtida após a execução da ação é obtida por meio da observação do ambiente.
Clique para seguir e aprender sobre a nova tecnologia da Huawei Cloud pela primeira vez ~