baseado em zero mineração de dados de entrada - previsões do modelo de convergência dos preços de carros usados

0 Introdução

entrada com base em zero da mineração de dados - Previsão de carro preço de transação usado da disputa do título com os dados de
previsão do carro preço da transação usado da disputa do título de entender - entrada com base em zero da mineração de dados
zero de entrada com base em de mineração de dados - Previsão de carro preço de transação usado de Análise de Dados
de zero Noções básicas de Data Mining - preço de transação prevista de carro em segunda mão dispõe de engenharia
de entrada baseado em zero da mineração de dados - o carro preço da transação parametrização modelagem previsão utilizada
Este documento sublinha a integração das diversas maneiras os resultados do modelo.

1 Introdução

modelo de fusão é uma parte importante do jogo final, em geral, os seguintes tipos de caminho.

  • Simples fusão ponderada:

    • Retorno (probabilidade de classificação): o de fusão média aritmética (média aritmética), fusão de média geométrica (média geométrica);
    • Categoria: de votação (votação)
    • Abrangente: Ordenar fusão (classificação média), integração de log
  • empilhamento / misturando:

    • Construção do modelo de multi-camadas, e, em seguida, ajustada utilizando o resultado de previsão previsto.
  • impulsionar / ensacamento (já usado em xgboost, AdaBoost, em GBDT):

    • Muitas árvores método de atualização

teoria 2 Empilhamento

2.1 O que é Stacking

Resumidamente, o estudo é que, quando o empilhamento de uma pluralidade de alunos de base com os dados de formação inicial, estes vários resultado predição aluno como um novo conjunto de treino para aprender um novo aprendiz.
Aqui Insert Picture Descrição
O método utilizado quando o aluno indivíduo em conjunto chamado estratégia combinada. Para problemas de classificação, podemos optar por usar a saída da maior parte do método de votação classe. Para problemas de regressão, podemos classificar a saída de resultados em média.

O dito acima método de votação e o método da média é uma combinação muito eficaz de estratégias, há uma combinação Outra estratégia é usar um algoritmo de aprendizado de máquina para combinar os resultados de dispositivo individual de aprendizado de máquina, este método é Stacking.

No processo de empilhamento, chamamos o aluno aluno individual primário, o aluno é chamado para a ligação ou a aprendizagem do aluno membros secundário (meta-aluno), os dados do aluno secundários utilizados para a formação do conjunto de treinamento é chamado de secundário. O secundário é no conjunto de treinamento usando um conjunto de treinamento do aluno primário obtido.

2.2 Como foram Stacking

Melancia Livro dizer:
Aqui Insert Picture Descrição

  • Processo 1-3 é treinado aluno individual, que é o aluno primário.
  • 5-9 é um processo utilizando um aluno individual treinado é resultados mais previsíveis, como resultado do conjunto de treinamento para prever o aluno secundário.
  • 11 é o resultado do processo de formação com um aluno primário previsto aprendizagem secundária, um modelo que finalmente obter treinados.

2.3 Stacking maneira de explicar

Primeiro, começamos com um método 'não-tão-correta ", mas fácil de entender de Stacking conversa.

Empilhamento é o modelo é essencialmente uma estrutura hierárquica, em que a simplicidade, apenas dois análise de empilhamento. Suponhamos que temos dois grupos modelo Model1_1, Model1_2 e um modelo secundário Model2

Passo 1. modelo il Model1_1, conjunto de treino formação de comboios, então a etiqueta para o comboio e teste as colunas de predição, respectivamente, P1, T1

Model1_1 modelo de formação:
Aqui Insert Picture Descrição
Modelo Model1_1 após a formação de cada comboio e teste da predição, as etiquetas preditos são obtidos Pl, Tl
Aqui Insert Picture Descrição
o Passo 2. modelo il Model1_2, conjunto de treino formação de comboios, então a etiqueta para o comboio e testar as colunas de predição, respectivamente, é P2, T2

Model1_2 modelo de formação:
Aqui Insert Picture Descrição
Modelo Model1_2 após a formação de cada comboio e testar a previsão de se obter as etiquetas são preditos P2, T2
Aqui Insert Picture Descrição
o Passo 3. respectivamente, o P1, P2 e T1, T2 combinados para dar um novo conjunto de treino e um conjunto de teste train2, teste2.
Aqui Insert Picture Descrição
, em seguida, ao modelo secundário real Model2 etiquetadas formação conjunto de treino, caracterizada por formação train2, teste2 predição, para dar o conjunto final de teste de barra de guia previsto e P r e Y_ {for} .
Aqui Insert Picture Descrição
Isto é o que nós empilhadas duas camadas de uma idéia básica da idéia original. Além disso, um resultado modelo de camadas, re-treinamento, com base em diferentes modelos prevêem, resultando em um modelo preditivo final.
Empilhamento essência é ideia tão simples, mas diretamente por isso às vezes para o caso se a distribuição de conjuntos de treinamento e teste não é tão consistente é um pequeno problema, as mentiras de problema com a tag treinamento do modelo inicial reutilização etiqueta verdadeira re-treinamento, É, sem dúvida, levar a algum excesso de montagem modelo comboio conjunto, por isso, talvez capacidade de generalização do modelo no conjunto de teste ou o efeito haverá algum declínio, então agora a questão é como reduzir a reciclagem de mais-encaixe natureza aqui nós geralmente dois métodos.

  • modelos secundárias tentar escolher um modelo linear simples
  • A K-dobragem de validação cruzada
    Aqui Insert Picture Descrição
    Aqui Insert Picture Descrição
    códigos ver minha Github
Publicado 21 artigos originais · ganhou elogios 1 · vista 1110

Acho que você gosta

Origin blog.csdn.net/Elenstone/article/details/105214499
Recomendado
Clasificación