Escopo de Aplicação/Requisitos de Dados do Algoritmo de Classificação Comum

Um único algoritmo de classificação : Árvores de Decisão, Bayesiana, Redes Neurais Artificiais, K-Vizinhos Mais Próximos, Máquinas de Vetores de Suporte e Classificação Baseada em Regras de Associação, HMM

Algoritmos de Classificação Combinada: Bagging e Boosting

k-近邻(kNN,k-Nearest Neighbors)算法

Encontre as k amostras de treinamento mais próximas da amostra desconhecida x e veja a qual categoria a maioria dessas k amostras pertence e classifique x nessa categoria.

Requisitos de entrada do modelo: valores contínuos, variáveis ​​categóricas precisam ser codificadas em um ponto, porque é para calcular a distância, é necessário normalizar os dados

Parâmetros importantes do modelo: definição do valor K e distância

Prós: Fácil de entender e implementar

Desvantagens: grande quantidade de cálculo, alta complexidade, não é adequado para cenários em tempo real

Cenário de Aplicação: Compressão de Imagem

   2.朴素贝叶斯

Use o teorema de Bayes para prever a possibilidade de que uma amostra de uma categoria desconhecida pertença a cada categoria e selecione uma categoria com maior probabilidade como a categoria final da amostra

Requisitos de entrada do modelo: valores contínuos precisam ser discretizados em densidade de probabilidade, como o modelo gaussiano http://blog.csdn.net/u012162613/article/details/48323777, e a entrada do bayesiano é probabilidade, então precisa ser não negativo

Parâmetros importantes do modelo:

Vantagens: O modelo generativo pode ser usado para classificar calculando probabilidades. Pode ser usado para lidar com problemas de multiclassificação. Tem bom desempenho em dados de pequena escala. É adequado para tarefas de multiclassificação e treinamento incremental. O algoritmo é relativamente simples.

Desvantagem: requer uma forte suposição de independência condicional

Cenário de aplicação: classificação de texto (por exemplo: identificação de spam)

3.神经网络

Redes Neurais Artificiais (ANN) é um modelo matemático que utiliza uma estrutura semelhante à das conexões sinápticas do cérebro para processamento de informações

Requisitos de entrada do modelo: recursos normalizados

Parâmetros importantes do modelo: o número de camadas de rede e o número de nós

Vantagens: Tem a função de realizar qualquer mapeamento não linear complexo

Desvantagens: baixa velocidade de convergência, grande quantidade de cálculos, longo tempo de treinamento, fácil convergência para ótimo local

Cenários de aplicação: processamento de imagens, reconhecimento de padrões

4.支持向量机

De acordo com o critério de minimização de risco estrutural, o hiperplano de classificação ideal é construído para maximizar o intervalo de classificação para melhorar a capacidade de generalização da máquina de aprendizado

Entrada do modelo: classificação binária, normalização

Parâmetros importantes do modelo: função kernel

Vantagens: pode resolver problemas de aprendizado de máquina no caso de amostras pequenas, pode resolver problemas de alta dimensão, pode evitar a seleção de estrutura de rede neural e problemas de ponto mínimo local

Desvantagens: A função kernel é sensível e apenas duas classificações podem ser feitas sem modificação

Cenários de aplicação: classificação de texto de alta dimensão, classificação de amostra pequena

 5.决策树

Uma árvore de decisão é uma estrutura de árvore (pode ser binária ou não binária). Cada um de seus nós não folha representa um teste em um atributo de recurso, cada ramificação representa a saída desse atributo de recurso em um determinado intervalo de valores e cada nó folha armazena uma categoria

Entrada do modelo: pode lidar com valores contínuos, variáveis ​​de categoria precisam de um hot

Parâmetros importantes do modelo: a altura da árvore

Vantagens: capacidade de super aprendizado e capacidade de generalização, velocidade de treinamento rápida

Desvantagens: fácil de superajustar, melhorado para floresta aleatória (Floresta aleatória, RF)

Cenário do aplicativo: pesquisar e classificar

 6.LR

Estabeleça uma fórmula de regressão para a linha de limite de classificação com base nos dados existentes e classifique por sua vez

Entrada do modelo: valores contínuos precisam ser discretizados e variáveis ​​categóricas precisam ser one-hot

Parâmetros importantes do modelo: discretização do recurso de entrada

Vantagens: velocidade de treinamento rápida, adequada para cenários em tempo real

Desvantagens: baixa capacidade de ajuste, incapaz de lidar com cenários não off-line, necessidade de definir recursos de combinação artificialmente

Cenários de aplicação: vários sistemas em tempo real: como estimativa de ctr
Transferido de http://f.dataguru.cn/thread-896022-1-1.html

Acho que você gosta

Origin blog.csdn.net/xllzuibangla/article/details/124971314
Recomendado
Clasificación