Matemática em Ciência da Computação: Fundamentos Matemáticos do Aprendizado de Máquina

Autor: Zen e a arte da programação de computadores

1. Introdução

1. Definição

"Aprendizado de máquina" é um processo iterativo de construção de um modelo baseado em dados, otimização de parâmetros e resolução da função objetivo. Os parâmetros do modelo são estimados por meio do conjunto de treinamento para prever ou classificar novos dados. Devido à sua forte interpretabilidade natural e ampla gama de aplicações, tornou-se uma das direções de pesquisa mais populares e importantes no campo da inteligência artificial atualmente.

2. Visão geral

A tarefa do aprendizado de máquina é aprender um modelo a partir de dados fornecidos que possa fazer boas previsões ou classificações em dados desconhecidos. Para uma determinada tarefa, normalmente existem três dificuldades principais que precisam ser enfrentadas:

(1) A quantidade de dados é muito pequena: Por exemplo, a quantidade de dados exigida pelos métodos estatísticos tradicionais é muito grande e não pode lidar eficazmente com problemas de grande escala.

(2) Relações não lineares complexas: Muitos problemas do mundo real têm relações não lineares complexas, o que torna muito difícil a modelagem usando métodos estatísticos tradicionais.

(3) Falta de informação suficiente: Em muitos casos, mesmo que existam dados suficientes, ainda é impossível obter informação suficiente para modelação. Por exemplo, num sistema de diagnóstico de saúde, não existe uma ligação óbvia entre as várias características dos sintomas do paciente e o resultado final do diagnóstico.Portanto, mesmo que existam registos de casos, os sintomas do paciente não podem ser associados a tempo para formar um modelo eficaz.

Para resolver os três problemas acima, o aprendizado de máquina propõe uma nova estrutura - a hipótese de dados estruturados.Com esta hipótese, um modelo abstrato e baseado em regras é estabelecido, e os dados são gradualmente ajustados para tornar o modelo eficiente e preciso. Capacidade preditiva e generalização adicional para amostras novas e invisíveis.

3. Conceitos básicos

Antes de começarmos a discutir modelos matemáticos específicos, devemos primeiro compreender alguns conceitos importantes.

(1) Aprendizagem supervisionada

No processo de aprendizagem supervisionada, o sistema consiste em entrada e saída, onde a entrada é chamada de vetor de característica ou vetor de amostra, e a saída é o valor do rótulo ou rótulo de categoria correspondente. Através da aprendizagem supervisionada, o sistema pode aprender a interação entre recursos para classificar e prever dados desconhecidos. A aprendizagem supervisionada é dividida em duas subcategorias:

1. Problema de classificação: o valor da variável de entrada X só pode ser um número limitado de valores discretos, e o valor da variável de saída Y só pode ser um número limitado de valores discretos. Algoritmos de classificação comumente usados ​​incluem árvores de decisão, métodos bayesianos, redes neurais, máquinas de vetores de suporte, K-vizinhos mais próximos, métodos de reforço, etc.
2. Problema de regressão: O valor da variável de entrada X pode ser um valor contínuo, e o valor da variável de saída Y também pode ser um valor contínuo. Algoritmos de regressão comumente usados ​​incluem regressão simples, regressão de crista, regressão ponderada local, regressão de laço, etc.

(2) Aprendizagem não supervisionada

A aprendizagem não supervisionada não requer informações de saída. O próprio sistema analisa, agrupa, reduz dimensionalmente, modela, etc. Algoritmos de aprendizagem não supervisionados comumente usados ​​incluem clustering, clustering de densidade, detecção de anomalias, análise de componentes principais, regras de associação, análise fatorial, etc.

(3) Amostras e recursos

O modelo de aprendizado de máquina aprende os dados de entrada e obtém uma função ou relação de mapeamento g(x), que é usada para previsão ou classificação. Entre eles, os dados de entrada contêm múltiplas amostras e cada amostra contém vários recursos. Os recursos representam certos aspectos da amostra, como valores de pixel na imagem, palavras, frases no texto, etc.; enquanto a amostra representa uma entidade ou coisa real, como um objeto na imagem, uma frase no text , um conjunto de comportamentos de compra.

(4) Função objetivo

A função objetivo é o efeito que o sistema de aprendizagem espera alcançar e descreve a relação entre a função de perda e o tamanho do erro da saída do modelo, permitindo ao sistema minimizar ou maximizar a função objetivo com base na taxa de erro. Funções objetivo comuns incluem entropia cruzada, perda 0/1, erro quadrático médio, perda de termo regular L2, etc.

(5) Hiperparâmetros

Os hiperparâmetros referem-se aos parâmetros do modelo de aprendizado de máquina, que são parâmetros internos ao algoritmo de aprendizado de máquina e estão diretamente relacionados ao desempenho do modelo. São parâmetros definidos artificialmente pelo projetista do modelo, como o coeficiente de penalidade λ, a taxa de aprendizagem α, o número de nós da árvore m, etc. Os hiperparâmetros afetam a velocidade de treinamento, a precisão e a capacidade de generalização do modelo.

4. Algoritmo de árvore de decisão

Árvore de decisão é um algoritmo de aprendizado de máquina comumente usado, é um algoritmo ganancioso que divide recursivamente o espaço e seleciona o método de divisão ideal até que todas as amostras sejam completamente classificadas.

(1) Processo básico

O processo básico do algoritmo da árvore de decisão é o seguinte:

  1. Colete dados: limpe, prepare e divida os dados em diferentes conjuntos com base em amostras e recursos.
  2. Construir uma árvore de decisão: Construa uma árvore em que cada nó represente um julgamento condicional. De acordo com os princípios do algoritmo da árvore de decisão, o melhor atributo de teste é selecionado no nó e, em seguida, os dois subconjuntos de nós filhos são processados, respectivamente.
  3. Poda: Quando a profundidade da árvore é muito grande, a árvore pode ser comprimida através da poda para reduzir o sobreajuste.
  4. Avaliação do modelo: Avalie a qualidade da árvore de decisão através de padrões de medição, como entropia, índice de Gini, etc.

    (2) Terminologia da árvore de decisão

    (a) Nó raiz
    O nó raiz é o nó inicial da árvore de decisão e representa o ponto inicial da tomada de decisão de toda a árvore de decisão.
    (b) Nó de terminação
    O nó terminal refere-se ao nó no qual todos os nós filhos da árvore de decisão não podem mais ser divididos. Para problemas de classificação, representa a categoria correspondente ao nó folha. Para problemas de regressão, representa o valor correspondente ao nó folha.
    (c) Nós internos
    Os nós internos representam um julgamento condicional e são nós que podem continuar a ser divididos.
    (d) Nó pai
    O nó pai refere-se ao nível acima do nó atual.
    (e) Nó filho
    Os nós filhos referem-se ao nível abaixo do nó atual.
    (f) Propriedades
    Um atributo refere-se a uma característica de uma coisa, que pode ser um valor contínuo ou um valor discreto.
    (g) Grau do nó
    O grau de um nó representa o número de nós filhos que um nó possui.
    (h) ponto de divisão
    O ponto de divisão refere-se ao valor de divisão de dois nós filhos, que é usado para dividir a amostra.
    (i) Amostra
    Uma amostra refere-se a um registro no conjunto de dados, que consiste em vários valores de recursos.
    (j) Categoria da amostra
    A categoria da amostra refere-se ao valor de saída da amostra, que é o resultado previsto pelo algoritmo da árvore de decisão.
    (k) Nó folha
    Os nós folha referem-se aos nós onde a divisão foi concluída.
    (l) Nó pai
    O nó pai refere-se ao predecessor direto de um nó e seu nível superior é o nó ancestral.
    (m) nó filho
    Um nó filho refere-se ao sucessor direto de um nó e seu próximo nível é o nó descendente.
    (n) comprimento do caminho
    O comprimento do caminho refere-se ao número de arestas do nó raiz até um nó folha.
    (o) Profundidade
    A profundidade se refere ao número de arestas no caminho mais longo do nó raiz ao nó folha.
    (p) Divisão equilibrada
    O particionamento balanceado significa que cada nó interno possui dois nós filhos ou nós filhos esquerdo e direito, e os tamanhos dos nós filhos em ambos os lados devem ser semelhantes.

    (3) Explicação detalhada do algoritmo

    (a) Construir árvore
    O processo de construção de uma árvore pode ser descrito como: a partir do nó raiz, calcule todos os pontos de divisão possíveis para cada nó e divida o espaço de entrada em dois subespaços de acordo com os pontos de divisão selecionados, de modo que as amostras em cada subespaço sejam divididas tanto quanto possível, podem ser obtidos e esses subespaços estão completos (ou seja, eles contêm todas as amostras). O mesmo método é então chamado recursivamente em ambos os subespaços até que todos os subespaços contenham apenas uma amostra. Neste momento, uma árvore binária completa será gerada, e esta árvore constitui uma árvore de decisão.
    (b) Selecione o ponto de divisão ideal
    Para nós internos, se todas as amostras pertencerem à mesma classe, pare de dividir porque nenhuma divisão pode maximizar o ganho de informação. Para nós internos, percorra todos os pontos de divisão possíveis e calcule o ganho de informação dos dois subespaços com o ponto de divisão como valor de divisão. Selecione o ponto divisório com o maior ganho de informação como ponto divisório do nó.
    (c) Calcular o ganho de informação
    O ganho de informação refere-se à quantidade de informação fornecida para um determinado recurso, tornando mais fácil prever quão bem os dados são classificados de acordo com o recurso. É o recíproco da entropia. Supondo que o recurso A tenha V valores possíveis, então calcular a entropia de informação H(A) do recurso A é: $$ H(A)=\sum_{v=1}^V-\frac{|C_v|}{| D |}log_2\frac{|C_v|}{|D|} $$ Entre eles, $|C_v|$ é o número de amostras com o recurso A tendo valor v, $|D|$ é o número total de amostras, $ -log_2 \ frac{|C_v|}{|D|}$ representa a proporção de amostras com o recurso A tendo valor v. O ganho de informação representa a redução na incerteza da informação do recurso A, mesmo que o recurso A mude, a quantidade de informação diminuirá. Quanto maior o ganho de informação, melhor o recurso classifica a amostra. Quanto menor o ganho de informação, pior será o efeito de classificação do recurso na amostra. Portanto, recursos com grande ganho de informação geralmente devem ser selecionados primeiro.
    (d) Construir nós folha
    O processo de construção de nós folha é semelhante ao processo de construção de uma árvore de decisão. Se após a divisão ser concluída, os nós filhos contiverem apenas amostras de um tipo, a divisão será interrompida. Caso contrário, continue a dividir recursivamente os subnós até que todos os subnós contenham apenas um tipo de amostra.
    (e) Poda
    Poda refere-se ao processo de poda de uma árvore de decisão. Ele mescla ou exclui árvores por meio de certas estratégias para reduzir a complexidade da árvore ou melhorar o desempenho de previsão da árvore. Através da poda, o overfitting pode ser evitado e a capacidade de previsão da árvore de decisão pode ser melhorada. As estratégias de poda comuns incluem:
    (i) Pré-poda
    No processo de geração de uma árvore de decisão, os nós folha que já são puros (ou seja, amostras sem nenhum registro de erro) são mesclados para reduzir o tamanho da árvore de decisão.
    (ii) Pós-poda
    Depois de gerar uma árvore de decisão completa, os nós folhas mais rasos são mesclados para que a largura da árvore de decisão não exceda um determinado limite, reduzindo assim a complexidade da árvore de decisão.
    (f) Geração de árvore de decisão
    A geração de árvore de decisão refere-se ao processo de construção recursiva de uma árvore com base em amostras de dados até que todos os nós folha contenham apenas a mesma categoria ou valor. A geração de árvores de decisão geralmente é dividida nas seguintes etapas:
  5. Gere nós iniciais com base nos dados do conjunto de treinamento de entrada;
  6. Teste o nó inicial para decidir se deve dividi-lo em dois nós filhos;
  7. Se a condição de parada for atendida, o nó atual é marcado como nó folha e sua categoria é marcada como resultado do teste;
  8. Se o nó atual não for um nó folha, repita as etapas 2 a 3 para os dois nós filhos em sequência até que todos os nós folha contenham apenas a mesma categoria ou valor.
    (g) Vantagens e desvantagens do algoritmo de árvore de decisão
    O algoritmo de árvore de decisão tem as seguintes vantagens:
  9. Intuitivos e compreensíveis: As árvores de decisão são fáceis de entender e interpretar, representam os padrões internos dos dados de forma muito intuitiva e são fáceis de implementar e operar.
  10. Pode lidar com dados multidimensionais: O algoritmo da árvore de decisão pode lidar facilmente com dados multidimensionais e reduzir a dimensionalidade dos dados, mantendo a correlação entre os recursos dos dados de entrada, tornando a árvore de decisão mais fácil de processar.
  11. Irrestrito: O algoritmo da árvore de decisão não possui nenhum requisito quanto à distribuição e características dos dados. Ele pode lidar com qualquer tipo de dados de entrada e não está sujeito a restrições como tamanho dos dados de entrada, distribuição de valores, etc.
  12. Estabilidade: O algoritmo da árvore de tomada de decisão usa a ideia de "algoritmo ganancioso" e seleciona apenas uma variável de segmentação e um ponto de segmentação da escolha ideal atual a cada vez, de modo que a função de perda geral seja reduzida.
  13. Adequado para processamento de dados nominais: O algoritmo de árvore de decisão é adequado apenas para processamento de dados nominais. Para dados ordenados, discretos ou com distribuição de densidade, o algoritmo de árvore de decisão pode ser insuficientemente ajustado.
  14. Lide facilmente com valores ausentes no estágio de geração da árvore: o algoritmo da árvore de decisão pode lidar com valores ausentes usando votação majoritária e pode realizar a seleção de recursos de forma eficiente durante o estágio de geração da árvore. No entanto, o algoritmo da árvore de decisão também apresenta as seguintes deficiências:
  15. O algoritmo da árvore de decisão pode se ajustar demais a pequenos conjuntos de dados (como milhões de dados).
  16. O algoritmo da árvore de decisão não conduz à seleção de recursos de dados.
  17. O algoritmo da árvore de decisão não é sensível a valores discrepantes.

おすすめ

転載: blog.csdn.net/universsky2015/article/details/133446607