Um único algoritmo de classificação : Árvores de Decisão, Bayesiana, Redes Neurais Artificiais, K-Vizinhos Mais Próximos, Máquinas de Vetores de Suporte e Classificação Baseada em Regras de Associação, HMM
Algoritmos de Classificação Combinada: Bagging e Boosting
k-近邻(kNN,k-Nearest Neighbors)算法
Encontre as k amostras de treinamento mais próximas da amostra desconhecida x e veja a qual categoria a maioria dessas k amostras pertence e classifique x nessa categoria.
Requisitos de entrada do modelo: valores contínuos, variáveis categóricas precisam ser codificadas em um ponto, porque é para calcular a distância, é necessário normalizar os dados
Parâmetros importantes do modelo: definição do valor K e distância
Prós: Fácil de entender e implementar
Desvantagens: grande quantidade de cálculo, alta complexidade, não é adequado para cenários em tempo real
Cenário de Aplicação: Compressão de Imagem
2.朴素贝叶斯
Use o teorema de Bayes para prever a possibilidade de que uma amostra de uma categoria desconhecida pertença a cada categoria e selecione uma categoria com maior probabilidade como a categoria final da amostra
Requisitos de entrada do modelo: valores contínuos precisam ser discretizados em densidade de probabilidade, como o modelo gaussiano http://blog.csdn.net/u012162613/article/details/48323777, e a entrada do bayesiano é probabilidade, então precisa ser não negativo
Parâmetros importantes do modelo:
Vantagens: O modelo generativo pode ser usado para classificar calculando probabilidades. Pode ser usado para lidar com problemas de multiclassificação. Tem bom desempenho em dados de pequena escala. É adequado para tarefas de multiclassificação e treinamento incremental. O algoritmo é relativamente simples.
Desvantagem: requer uma forte suposição de independência condicional
Cenário de aplicação: classificação de texto (por exemplo: identificação de spam)
3.神经网络
Redes Neurais Artificiais (ANN) é um modelo matemático que utiliza uma estrutura semelhante à das conexões sinápticas do cérebro para processamento de informações
Requisitos de entrada do modelo: recursos normalizados
Parâmetros importantes do modelo: o número de camadas de rede e o número de nós
Vantagens: Tem a função de realizar qualquer mapeamento não linear complexo
Desvantagens: baixa velocidade de convergência, grande quantidade de cálculos, longo tempo de treinamento, fácil convergência para ótimo local
Cenários de aplicação: processamento de imagens, reconhecimento de padrões
4.支持向量机
De acordo com o critério de minimização de risco estrutural, o hiperplano de classificação ideal é construído para maximizar o intervalo de classificação para melhorar a capacidade de generalização da máquina de aprendizado
Entrada do modelo: classificação binária, normalização
Parâmetros importantes do modelo: função kernel
Vantagens: pode resolver problemas de aprendizado de máquina no caso de amostras pequenas, pode resolver problemas de alta dimensão, pode evitar a seleção de estrutura de rede neural e problemas de ponto mínimo local
Desvantagens: A função kernel é sensível e apenas duas classificações podem ser feitas sem modificação
Cenários de aplicação: classificação de texto de alta dimensão, classificação de amostra pequena
5.决策树
Uma árvore de decisão é uma estrutura de árvore (pode ser binária ou não binária). Cada um de seus nós não folha representa um teste em um atributo de recurso, cada ramificação representa a saída desse atributo de recurso em um determinado intervalo de valores e cada nó folha armazena uma categoria
Entrada do modelo: pode lidar com valores contínuos, variáveis de categoria precisam de um hot
Parâmetros importantes do modelo: a altura da árvore
Vantagens: capacidade de super aprendizado e capacidade de generalização, velocidade de treinamento rápida
Desvantagens: fácil de superajustar, melhorado para floresta aleatória (Floresta aleatória, RF)
Cenário do aplicativo: pesquisar e classificar
6.LR
Estabeleça uma fórmula de regressão para a linha de limite de classificação com base nos dados existentes e classifique por sua vez
Entrada do modelo: valores contínuos precisam ser discretizados e variáveis categóricas precisam ser one-hot
Parâmetros importantes do modelo: discretização do recurso de entrada
Vantagens: velocidade de treinamento rápida, adequada para cenários em tempo real
Desvantagens: baixa capacidade de ajuste, incapaz de lidar com cenários não off-line, necessidade de definir recursos de combinação artificialmente
Cenários de aplicação: vários sistemas em tempo real: como estimativa de ctr
Transferido de http://f.dataguru.cn/thread-896022-1-1.html