anuário
0 Introdução
entrada com base em zero da mineração de dados - Previsão de carro preço de transação usado da disputa do título com os dados de
previsão do carro preço da transação usado da disputa do título de entender - entrada com base em zero da mineração de dados
zero de entrada com base em de mineração de dados - Previsão de carro preço de transação usado de Análise de Dados
de zero Noções básicas de Data Mining - preço de transação prevista de carro em segunda mão dispõe de engenharia
de entrada baseado em zero da mineração de dados - o carro preço da transação parametrização modelagem previsão utilizada
Este documento sublinha a integração das diversas maneiras os resultados do modelo.
1 Introdução
modelo de fusão é uma parte importante do jogo final, em geral, os seguintes tipos de caminho.
-
Simples fusão ponderada:
- Retorno (probabilidade de classificação): o de fusão média aritmética (média aritmética), fusão de média geométrica (média geométrica);
- Categoria: de votação (votação)
- Abrangente: Ordenar fusão (classificação média), integração de log
-
empilhamento / misturando:
- Construção do modelo de multi-camadas, e, em seguida, ajustada utilizando o resultado de previsão previsto.
-
impulsionar / ensacamento (já usado em xgboost, AdaBoost, em GBDT):
- Muitas árvores método de atualização
teoria 2 Empilhamento
2.1 O que é Stacking
Resumidamente, o estudo é que, quando o empilhamento de uma pluralidade de alunos de base com os dados de formação inicial, estes vários resultado predição aluno como um novo conjunto de treino para aprender um novo aprendiz.
O método utilizado quando o aluno indivíduo em conjunto chamado estratégia combinada. Para problemas de classificação, podemos optar por usar a saída da maior parte do método de votação classe. Para problemas de regressão, podemos classificar a saída de resultados em média.
O dito acima método de votação e o método da média é uma combinação muito eficaz de estratégias, há uma combinação Outra estratégia é usar um algoritmo de aprendizado de máquina para combinar os resultados de dispositivo individual de aprendizado de máquina, este método é Stacking.
No processo de empilhamento, chamamos o aluno aluno individual primário, o aluno é chamado para a ligação ou a aprendizagem do aluno membros secundário (meta-aluno), os dados do aluno secundários utilizados para a formação do conjunto de treinamento é chamado de secundário. O secundário é no conjunto de treinamento usando um conjunto de treinamento do aluno primário obtido.
2.2 Como foram Stacking
Melancia Livro dizer:
- Processo 1-3 é treinado aluno individual, que é o aluno primário.
- 5-9 é um processo utilizando um aluno individual treinado é resultados mais previsíveis, como resultado do conjunto de treinamento para prever o aluno secundário.
- 11 é o resultado do processo de formação com um aluno primário previsto aprendizagem secundária, um modelo que finalmente obter treinados.
2.3 Stacking maneira de explicar
Primeiro, começamos com um método 'não-tão-correta ", mas fácil de entender de Stacking conversa.
Empilhamento é o modelo é essencialmente uma estrutura hierárquica, em que a simplicidade, apenas dois análise de empilhamento. Suponhamos que temos dois grupos modelo Model1_1, Model1_2 e um modelo secundário Model2
Passo 1. modelo il Model1_1, conjunto de treino formação de comboios, então a etiqueta para o comboio e teste as colunas de predição, respectivamente, P1, T1
Model1_1 modelo de formação:
Modelo Model1_1 após a formação de cada comboio e teste da predição, as etiquetas preditos são obtidos Pl, Tl
o Passo 2. modelo il Model1_2, conjunto de treino formação de comboios, então a etiqueta para o comboio e testar as colunas de predição, respectivamente, é P2, T2
Model1_2 modelo de formação:
Modelo Model1_2 após a formação de cada comboio e testar a previsão de se obter as etiquetas são preditos P2, T2
o Passo 3. respectivamente, o P1, P2 e T1, T2 combinados para dar um novo conjunto de treino e um conjunto de teste train2, teste2.
, em seguida, ao modelo secundário real Model2 etiquetadas formação conjunto de treino, caracterizada por formação train2, teste2 predição, para dar o conjunto final de teste de barra de guia previsto
.
Isto é o que nós empilhadas duas camadas de uma idéia básica da idéia original. Além disso, um resultado modelo de camadas, re-treinamento, com base em diferentes modelos prevêem, resultando em um modelo preditivo final.
Empilhamento essência é ideia tão simples, mas diretamente por isso às vezes para o caso se a distribuição de conjuntos de treinamento e teste não é tão consistente é um pequeno problema, as mentiras de problema com a tag treinamento do modelo inicial reutilização etiqueta verdadeira re-treinamento, É, sem dúvida, levar a algum excesso de montagem modelo comboio conjunto, por isso, talvez capacidade de generalização do modelo no conjunto de teste ou o efeito haverá algum declínio, então agora a questão é como reduzir a reciclagem de mais-encaixe natureza aqui nós geralmente dois métodos.
- modelos secundárias tentar escolher um modelo linear simples
- A K-dobragem de validação cruzada
códigos ver minha Github