[mineração de dados] (c) recurso funciona

recurso 1. Visão geral do projeto

Dados e características determinam o limite superior de aprendizado de máquina e modelos e algoritmos apenas para aproximar esse limite, tanto quanto possível. Assim, as características do projeto desempenha um papel importante na aprendizagem de máquina.

Projeto apresenta : encontrar quaisquer problemas de informação relacionada e os converte em um valores Matriz de funções

Aqui Insert Picture Descrição

Aplicação 2 recurso funciona neste caso, o

2.1 outlier manuseamento

Quando os dados de pré-processamento, se o valor anormal removido, como o caso pode ser necessário, porque alguns valores anormais podem também conter informação útil.

Outlier método de processamento O método descrito
excluir registros contêm os outliers Direto excluir o registro inteiro
Considerado como valores ausentes Os valores anormais como valores em falta, utilizando um método de processamento de um valor anormal de valores em falta
A correção média Média de duas observações podem ser utilizadas antes e após a correcção do valor anormal
não trata modelo de extracção directa com um conjunto de dados sobre um valor anormal

Ao lidar com os outliers, devemos primeiro analisar as possíveis causas de valores anormais aparecem, em seguida, determinar se os valores anormais deve ser descartado, se os dados estiverem corretos, pode ter uma relação directa de outliers conjunto de dados de modelagem de escavação.

2.2 A normalização de dados

Também chamado de normalização de dados, mineração de dados é uma tarefa fundamental. Devido aos diferentes índices de avaliação tendem a ter diferentes dimensões, a diferença entre o valor pode ser grande, não o tratamento pode afectar os resultados de análise de dados. Para isso, ele vai ser escalado de acordo com a queda dentro de uma área específica, para análise abrangente.

1) A normalização mais valor

Também conhecida como desvio de normalização é linearmente alterar os dados originais, o valor é mapeado para [ 0 , 1 ] [0,1] entre. fórmula de conversão:
X * = X - m i n m a x m i n X ^ * = \ frac {x} {-min max-min}
onde: m a x max é a amostra de dados máxima, m i n me amostra valor mínimo. m a x m i n max-min é pobre.

Drawback : se os valores estiverem concentrados para um grande valor, você será perto de zero após a normalização, e vontade excessiva concentração. E, no caso de mais de [ m i n , m a x ] [mínimo máximo] intervalo de dados, irá ocorrer um erro, a ser re-determinada m i n me soma m a x max .

2) normalizado desvio padrão

É chamado de zero - normalização média, os dados média após o tratamento é 0 0 , o desvio padrão 1 1 . fórmula de conversão:
x = x x ˉ σ x ^ * = \ frac {x- \ bar {x}} {\ sigma}
onde: x ˉ \ Bar {x} para significar os dados originais, σ \ sigma é os dados brutos normalizados. É os métodos mais utilizados padronizados

2.3 barris de pontos de dados

Também conhecido como discretos dados contínuos, atributo contínua está prestes a transformar-se em uma propriedade de classificação. Para alguns algoritmos, tais como extracção de dados (algoritmo ID3, Apriori, etc.), dados é requerido na forma de atributos categóricas.

contínua de dados discretos é definido dentro de um intervalo de vários pontos de dados discretos de divisão, dividindo o intervalo de um número discreto de intervalos, utilizando diferentes símbolos ou o último valor representa o número inteiro que cai em cada subintervalo valores de dados. Assim, discreta envolve duas sub-tarefas: determinar o número de categorias e como mapear os atributos contínuos para classificar esses valores.

Os métodos comuns de pacotes de dados tub: kit de largura de peças, e outro banheira de divisão de frequência, a banheira com base na sub-conjunto ......

1) banheira largura parcial

A gama é dividida em uma secção que tem a mesma largura atributo, o número de secções de dados determinado pelo próprio pode ser especificada pelo utilizador, semelhante à mesa de distribuição de frequência produzido.

Desvantagens : a necessidade de artificialmente intervalo de planejamento de distribuição; 2 sensíveis a outliers, o valor do atributo tende a ser desigualmente distribuído para cada seção, tal resultado pode danificar seriamente o modelo de decisão.

2) como uma banheira de divisão de freqüência

Para o mesmo número de registros para cada seção.

Vantagens : evitar as desvantagens de largura pontos da banheira;

Desvantagens : a necessidade de artificialmente intervalo de planejamento de distribuição; 2 o mesmo valor de dados pode ser atribuído um número diferente de dados em cada seção para satisfazer um intervalo fixo.

3) com base nos pontos de agrupamento barril

O método compreende os passos de agrupamento de duas dimensões, em primeiro lugar, o valor do atributo é contínuo com os algoritmos de agrupamento (tais como K-Means) aglomerados, em seguida, os aglomerados obtidos pelo processamento de agrupamento, atributos contínuos incorporado num aglomerado e fazer a mesma marca.

2.4 valores em falta

Há um método para processar três valores em falta: excluir um registro, não processa, a interpolação de dados e binning dados.

1) registros de exclusão

Se há uma pequena parte da amostra estão faltando, apagar a amostra é claramente o método mais eficaz.

Inconveniente : dados de desperdício.

2) não lida com

modelo da peça permite que o modelo no conjunto de dados contém uma deleção.

3) a interpolação dos dados

Método de interpolação O método descrito
valor fixo Ser substituída por uma constante fixa
Média Mediana / um modo / O tipo de dados do atributo, o seu uso directo para preencher o valor correspondente
Interpolação por vizinho mais próximo O valor do atributo interpolados para encontrar as amostras que faltam amostra mais próximos no registro
regressão Estabelecer modelo ajustado para estimar valores em falta com base em dados de dados existentes e outras variáveis ​​relacionadas com o outro (a variável dependente)
interpolação Usando vários pontos conhecidos estabelecer função de interpolação apropriado, encontrar valores desconhecidos pelo correspondente ponto de estofo valor da função

4) arrumação de dados

Os dados contendo os valores de dados que faltam no mesmo grupo.

2.5 Características construtivas

1) recurso Estatísticas

2) Características Tempo

3) recurso de Informação Geográfica

4) a transformação não linear

5) uma combinação de características

selecção 2.6 recurso

Princípio : obtenção do menor subconjunto possível de recursos, não diminui significativamente a precisão da classificação, a classificação não afeta a distribuição e deve ter um subconjunto característica estável, características adaptáveis.

1) de filtragem (filtro)

Neste método, a primeira seleção de recurso, e depois para aluno trem, de modo que o processo de seleção de recurso não tem nada a ver com o selector. Corresponde à primeira característica da operação de filtragem, então um subconjunto de recursos para treinar o aluno.

Idea : para cada dimensão apresenta "pontos" que é dada às características de cada pesos dimensão, seguido por re-classificadas de acordo com os direitos

métodos :

  • teste do qui-quadrado (teste do qui-quadrado)
  • ganho de informação (informação de ganho)
  • pontuações coeficiente de correlação (coeficiente de correlação)

Vantagens : velocidade de corrida, é um método de selecção característica muito comum;

Desvantagens: 1. incapaz de fornecer feedback, critérios de seleção recurso, o algoritmo realidade pesquisa recurso normativo estiver concluída, o algoritmo de aprendizagem pode não ser entregues em função da demanda de algoritmo de busca recurso; 2. pode ser devido a qualquer causa em lidar com determinadas características este recurso não é importante, mas esse recurso combinado com outras características, pode ser importante.

2) encapsulado (o envoltório)

Também conhecido como método envolvente. O método para ser utilizado directamente para o classificador final, tal como uma funcionalidade de selecção de função de avaliação, uma selecção característica subconjunto óptima para um determinado classificador.

Pensei : Selecione o sub-conjunto de pesquisa como um problema de otimização para produzir diferentes combinações de combinações foram avaliadas, em seguida, em comparação com outras combinações. Neste ponto, pode ser visto como problemas de otimização, então você pode usar alguns algoritmos de otimização, especialmente alguns do algoritmo de otimização heurística, como GA, PSO, DE, ABC e outros métodos.

Métodos : Algoritmo eliminação característica recursiva.

Vantagens : 1 . Pesquisar recurso é implantado em todo o algoritmo de aprendizagem, os critérios de seleção de características são implantados de acordo com as necessidades de algoritmos de aprendizagem; 2 pode ser considerado qualquer desvio aprender a aprender algoritmo pertence a determinar as características ideais de criança e problemas realmente aprendendo. si; 3 . Como cada algoritmo de aprendizagem deve ser executado para um subconjunto particular, pode prestar atenção ao desvio aprender algoritmo de aprendizagem, desvio resumida, a embalagem pode desempenhar um grande papel.

Drawback : algoritmos de filtragem executar muito mais lentamente do que a aplicação prática não é grande o suficiente.

3) incorporado (encaixado)

Alguns modelos possuem incorporado na formação, a sua formação pode ser o mesmo modelo, mas após a conclusão da seleção de recursos, a seleção de características pode dar completa e possui um super-modelo parâmetros de treinamento para formação otimizar novamente.

Idea : aprender as melhores características para melhorar a precisão do modelo, ou seja, para determinar o modelo do processo, escolher essas características é de grande importância para o modelo de formação no modelo de determinada situação.

Método : feito com termo regularização L1 selecção de atributos (termo penalidade também podem ser combinadas para optimizar L2), aleatórios florestas método de redução média impureza, um método para reduzir a média de precisão.

Vantagens: 1 implantado em todo o recurso de busca algoritmos de aprendizagem, a aprendizagem pode ser considerado qualquer algoritmo de aprendizagem desvio pertence; 2. tempos de treinamento inferior a abordagem encapsulamento, para salvar comparação do tempo.

Desvantagens : filtragem de velocidade de aproximação em relação à ainda lenta.

redução de 2,7 dimensionalidade

1) análise de componentes principais

Análise de componentes principais (Análise de Componentes Principais, PCA) usando a transformada ortogonal algoritmo para converter as séries lineares de observações podem ser variáveis ​​relacionadas para projetar uma série de valores para as variáveis ​​linearmente independentes, as variáveis ​​não correlacionadas chamado a principal ingredientes. É um tipo muito básico de algoritmo de redução de dimensionalidade.

Nota : APC positivo ou dados em bruto é pré-sensível.

2) redução de dimensionalidade Discriminante Linear

algoritmo Discriminante Linear redução dimensionalidade (análise discriminante linear, LDA), é então projectado para o espaço de dados de baixa dimensão, de modo que o mesmo tipo de dados tão compacto quanto possível, como diferentes tipos de dados de dispersão, um algoritmo de aprendizagem supervisionada máquina.

3) análise de componentes independentes

ICA (Análise de Componente Independente, ICA) é encontrar um método para a sua factores intrínsecos ou componentes das estatísticas multidimensionais.

Para ser continuado

referência:

  1. combate mineração de dados (carro usado previsão de preço)
  2. "Análise Python de dados e combate Mining" - Indústria de Máquinas Imprensa
  3. Série Engenharia apresenta: seleção de recursos e implementação do princípio da
  4. Wikipedia: Análise de Componentes Principais
  5. Sei quase Rubrica: Machine Learning -LDA
Lançado três artigos originais · ganhou elogios 1 · vista 210

Acho que você gosta

Origin blog.csdn.net/ocean_R/article/details/105167580
Recomendado
Clasificación