notas de aprendizagem estatísticos

anuário

1 Introdução aos métodos de aprendizagem estatística

2 Perceptron

3 k-nearest neighbor

4 método Naive Bayes

5 árvore de decisão --ID3, C4.5, CART

6 modelo de regressão logística com o máximo de entropia

7 SVM - minimização da sequência SMO

8 método de actualização --AdaBoost, levantando a árvore (classificação, regressão), gradiente aumentando a árvore (GBDT)


1 Introdução aos métodos de aprendizagem estatística

aprendizagem supervisionada: classificação, regressão, marcação; sem supervisão: agrupamento

função comum de perda: função de perda 0-1, função de perda quadrática, a função perda absoluta, função de perda logarítmica.

Regularização: Experiência é o risco de erro no conjunto de treinamento, o risco estrutura do modelo é o risco de utilização indevida (over-fitting, usando a regularização). L1 positivo ou L2 norma do vetor parâmetro.

A validação cruzada: a simples validação cruzada (formação de 70%, 30 de teste); S-dobrar validação cruzada (dados em grupos de S, S-1 conjuntos de treino, deixando um conjunto de testes seleccionados de entre o grupo S mínima de erro de teste modelo); leave-one validação cruzada (S vezes validação cruzada S = N, isto é, N-1 de dados de treino, os dados de ensaio, deixando um), no caso da falta de dados.

Categoria de avaliação: a precisão da classificação geral, para precisão e recordação geralmente usado dicotômica relação P R. P = TP / (TP + FP), R = TP / (TP + FN). P é um valor positivo previsto classe positivo na classe (a classe é previsto positivo negativo positivo classe classe + está previsto classe positivo) rácio é positivo em todas as classes na previsão. R é n-tipo quantidade de n-tipo no previsto (n + classe Classe está previsto positivo negativo positivo tipo de classe previsto) é a razão entre a classe real n seja recolhido.

Harmónica valor significativo F1, 2 / F1 = 1 / P + 1 / R, isto é, F1 = 2PR / (P + R), um P e R são elevados, F1 será alta.

2 Perceptron

modelo linear de classificação, sinal (w * x + b), n é maior do que 0 classe 0 é menor do que um tipo negativo. wx + b = 0 a uma hiperplana separar, w é o vector normal, b é a intercepção.

A função de custo: ponto de erros de classificação de distância hyperplane

Algoritmo: Um método de gradiente descendente estocástica, cada vez que a seleção de um ponto de gradiente descida

Quando o conjunto de dados de separáveis ​​linearmente, uma certa convergência.

3 k-nearest neighbor

Algoritmo: Calcular o vector de distância a partir de cada amostra de entrada, para seleccionar as amostras de k recentes, a maioria dos onde o maior número de decisões de classificação tal classe

k-mais próximo método vizinho não mostra o processo de aprendizagem. Quando o conjunto de treino é determinada, o método de medição de distância, o valor k, as regras de decisão de classificação (por exemplo, uma maioria), para qualquer entrada é exclusivamente determinada uma nova instância da classe a que pertence.

distância métrica Lp, p tipicamente leva dois. Para melhorar a eficiência da busca k-vizinhos mais próximos, você pode usar método de árvore de kd. conjunto 1- formação configurado primeira árvore equilibrada, 2- pesquisa

4 método Naive Bayes

probabilidade anterior, refere-se a todos os dados conhecidos, em que o cálculo de probabilidades, a probabilidade é conhecido no conjunto de treino.

probabilidade posterior, meios de entrada conhecidos, cada probabilidade de adivinhar saída, a ser testado probabilidade derivada

Estimativa de probabilidade máxima: calcular a probabilidade de cada, pode haver uma probabilidade zero.

Estimativa Bayesiana Naive: Quando o original é calculada com base em probabilidades a priori, a adição de moléculas de lambda, o denominador foi adicionado K * lambda; ao calcular probabilidades condicionais, em conjunto com lambda molecular, mais o denominador Sj * lambda, Sj cada característica Os valores possíveis de j ter uma Sj

algoritmo:

1> probabilidades calculadas a priori, a probabilidade de cada classe no conjunto de treino; calcular uma probabilidade condicional de cada j característica em cada classe k em cada um dos possíveis valores de probabilidade do aji.

2> probabilidade estes podem possivelmente ocorrer em cada classe K para uma dada característica é calculado. Porque o pressuposto iid entre as características de modo a que a probabilidade multiplicando

3> Selecione a probabilidade máxima posterior da classe.

5 árvore de decisão --ID3, C4.5, CART

Árvore de Decisão: seleção de recursos, gera árvores de decisão, poda de árvores

selecção característica : o conjunto de dados de entrada e em que a, características de saída óptimas

  1. Calcule a experiência conjunto de dados entropia: o nível de experiência de incerteza entropia conjunto de dados, conjunto de dados de classificação
  2. Uma experiência cálculo recurso a entropia condicional do conjunto de dados: uma dada característica, a classificação baseada no recurso, a entropia condicional experiência neste caso de computação. Condições entropia fórmula de cálculo: sob as condições dadas é definido como X, a entropia da distribuição de probabilidade de Y as condições desejadas para X em. Interpreta-se no conjunto de dados: Uma dada característica, e calcular a probabilidade de um subconjunto dos subconjuntos classificados A, esta probabilidade é usado para calcular as condições esperadas de um; e, em seguida, para cada subconjunto, o subconjunto classificar calculado entropia (número de diferentes tipos de moléculas, o denominador é o número de subconjuntos, que é, tendo em conta um, classificação entropia condicional distribuição de probabilidade). De um modo geral, com a primeira classificação característica, o sub classificadas centralizada computar a entropia condicional, em seguida, os resultados da classificação (probabilidade) de buscar uma entropia condicional desejado.
  3. Computando ganho de informação

Árvore de Decisão : ID3 usa ganho de informação, uso C4.5 da relação de ganho de informação

Poda de árvores :

| T | é o número de nós de folha, NT é o número de pontos no nó de folha de amostra, Ht a experiência nós folha de entropia. Se após a retracção do nó de folha correspondente para as diminuições funcionais de perda de pai nó, a poda. Até sem poda, obter a função sub perda mínima

algoritmo CART: Uma árvore de decisão é uma árvore binária, árvore de regressão com os critérios de minimização de erro quadrado, classificação minimização árvore usando o índice de Gini.

6 modelo de regressão logística com o máximo de entropia

Regressão Logística: binomial regressão logística P (Y = 1 | x) = exp (wx) / (1 + exp (wx)), P (Y = 0 | x) = 1 / (1 + exp (wx)) ele pode ser estendido para multi-classificação

log de probabilidade logarítmica (p / (1-P)) = wx linear. função log-probabilidade G (w) = sigma (ylog (HX) + 1-y) log ((1-HX)), hx = exp (1 + exp (wx))

7 SVM - minimização da sequência SMO

máquina de vetores de suporte separável linearmente

Linearmente separáveis ​​algoritmo dupla:

Linearmente inseparáveis : a adição de uma variável de folga

Não-lineares Support Vector Machines: Usando a função kernel, a semelhança originalidade é calculada

algoritmo de minimização seqüência de SMO

8 método de actualização --AdaBoost, levantando a árvore (classificação, regressão), gradiente aumentando a árvore (GBDT)

AdaBoost (Adaptive Boosting):

1> conjunto de inicialização de distribuição de dados D

2> treinando classificador de dados para obter G (x)

    - Cálculo na formação definir um e_m erro de classificação

    - O cálculo deste erro pesos classificador alpha_m

    - Atualize o conjunto de dados de distribuição D

3> M após vezes, o classificador final é uma combinação linear dos sub-classificadores

Impulsionar árvore: dois de classificação, regressão

algoritmo de árvore classificação binária para melhorar o classificador básico AdaBoost pode usar de segunda classe árvore de classificação.

Para aumentar os problemas de regressão árvore, o algoritmo é a seguinte:

1> f0 = 0 Inicialização

2> para aprender uma árvore de regressão

3> são calculados para cada resíduos de dados de treino, continuam aprendendo através de resíduos de árvores de regressão

Gradiente impulsionar árvore GBDT (Gradiente sobre impulsionando decisão Tree):

Para uma função perda geral, em que o gradiente negativo residual.

 

 

 

 

 

Publicado 46 artigos originais · ganhou elogios 0 · Vistas 1041

Acho que você gosta

Origin blog.csdn.net/weixin_37680513/article/details/102969975
Recomendado
Clasificación