Mineração de Dados (1) -- Conhecimento Básico de Aprendizagem

Índice

prefácio

texto

1. História e desenvolvimento da mineração de dados

a. Descrição básica

b. Processo típico de descoberta de conhecimento 

 c. Estrutura típica do sistema de mineração de dados

d. Ainda há muitos problemas na mineração de dados a serem estudados

3. Pesquise o conteúdo e as funções da mineração de dados 

a. Conteúdo da pesquisa 

b. Principais funções da mineração de dados

4. Técnicas e ferramentas comuns para mineração de dados

a. Técnicas comumente usadas de mineração de dados

b. Dez algoritmos clássicos para mineração de dados

c. Ferramentas para mineração de dados

d. Métodos tradicionais de análise de dados e mineração de dados

5. Pontos de acesso de aplicativos de mineração de dados

6. Os principais problemas enfrentados pela mineração de dados

a. Problemas enfrentados pelos métodos de mineração

b. Problemas com a interatividade do usuário

c. Aplicação e impacto social

resumo

Referências


prefácio

Desde a década de 1990, com a popularização de aplicativos de tecnologia de banco de dados, a tecnologia de mineração de dados (Data Mining) atraiu grande atenção da academia e da indústria. Dados em grande escala, o valor real desses dados pode ser verdadeiramente aproveitado no futuro. Devido às necessidades de aplicação do trabalho de análise e gerenciamento de dados, esses dados precisam ser convertidos em informações e conhecimentos úteis, ou seja, de estatísticas de dados tradicionais para mineração e análise de dados. Além disso, as informações e o conhecimento obtidos por meio da tecnologia de mineração de dados também podem ser amplamente utilizados em vários setores, incluindo desenvolvimento e análise de mercado, gerenciamento de negócios, controle de produção, projeto de engenharia e exploração científica. (Trecho de "Mineração de Dados: Métodos e Aplicações" Xu Hua)

texto

1. História e desenvolvimento da mineração de dados

a. Descrição básica

Data Mining (DM), também conhecido como Knowledge Discovery in Database (KDD), é um campo de pesquisa interdisciplinar envolvendo aprendizado de máquina, inteligência artificial, teoria de banco de dados e estatística.
A mineração de dados é extrair informações úteis de uma grande quantidade de dados no banco de dados, ou seja, descobrir informações ocultas, regulares e desconhecidas de um grande número de dados de aplicativos práticos incompletos, ruidosos, difusos e aleatórios. processo de geração, mas potencialmente útil e, em última instância, de informações e conhecimentos compreensíveis.

Nem todas as operações e análises relacionadas a bancos de dados pertencem ao escopo da pesquisa de mineração de dados.

Data Mining (DM) é a parte central da Knowledge Discovery (KDD).
O desenvolvimento da base teórica da matemática de mineração de dados é inseparável do desenvolvimento da estatística.

b. Processo típico de descoberta de conhecimento 

6999fcb264904299b55babc71aef7397.png

 c. Estrutura típica do sistema de mineração de dados

 7660dc241c7b4a0c938100ef8ed2bbe3.png

d. Ainda há muitos problemas na mineração de dados a serem estudados

Ainda existem muitos problemas na mineração de dados a serem estudados mais a fundo, incluindo as seguintes direções de pesquisa:
① Eficiência e escalabilidade do algoritmo
② Manipulação de diferentes tipos de dados e fontes de dados
③ Interatividade dos sistemas de mineração de dados
④ Proteção da informação e mineração de dados na mineração de dados Segurança
⑤Explorar novas áreas de aplicação
⑥Disponibilidade, certeza e expressibilidade dos resultados da mineração de dados
⑦Mineração de dados visuais

3. Pesquise o conteúdo e as funções da mineração de dados 

a. Conteúdo da pesquisa 

Os tipos mais comuns de conhecimento descobertos pela mineração de dados são os cinco tipos a seguir:
① Generalização.
O conhecimento generalizado refere-se ao conhecimento geral da descrição das características da categoria, refletindo a natureza comum de coisas semelhantes.
É a generalização, refinamento e abstração dos dados.
② Conhecimento de associação (Associação) O conhecimento de associação
reflete o conhecimento de dependência ou associação entre um evento e outros eventos, também conhecido como
relacionamento de dependência (Dependência)
③Classificação e agrupamento:
o conhecimento de classificação é usado para refletir a natureza comum de coisas semelhantes Conhecimento de tipo de recurso e
conhecimento de característica de tipo de diferença entre coisas diferentes
④ Conhecimento de tipo de previsão (Previsão)
O conhecimento de tipo de previsão prevê
dados futuros de dados históricos e atuais com base em dados de séries temporais , que também podem ser considerados como conhecimento associativo com o tempo como o atributo chave
⑤Conhecimento de desvio (Deviation)
O conhecimento de desvio é a descrição de diferenças e casos especiais extremos, revelando os
fenômenos anormais que as coisas desviam da rotina, como casos especiais fora da classe padrão, outliers fora do valor de agrupamento de dados etc. 

b. Principais funções da mineração de dados

1. Descrição de Classe/Conceito: Caracterização e Distinção
Para resumir descritivamente um conjunto de dados contendo uma grande quantidade de dados e obter uma descrição concisa e precisa, esta descrição é chamada de Descrição de Classe/Conceito (Class/Concept Description). .
Esta descrição pode ser obtida pelos seguintes métodos:
(1) caracterização dos dados
(2) diferenciação dos dados
(3) caracterização e comparação dos dados

2. Análise de Associação A
Análise de Associação (Análise de Associação) é encontrar conhecimento de padrão de conjunto de itens que ocorre com frequência a partir de um determinado conjunto de dados, também conhecido como regras de associação age(X,"20..29")^income(X,"20. .29K ") >compra(X,"PC")[suporte = 2%, confiança = 60%]

3. Classificação e previsão

O trabalho de pesquisa relacionado à mineração de dados geralmente tenta construir um modelo ou função de descrição para descrever ou distinguir diferentes tipos e conceitos, de modo a realizar os possíveis requisitos de previsão para o futuro. Por exemplo, no trabalho real, os países relevantes são frequentemente classificados de acordo com o tipo de clima e são divididos em países tropicais, países temperados e países frígidos. Na vida real, os carros são classificados de acordo com seu deslocamento. Dividido em veículos de pequeno deslocamento, veículos de grande deslocamento e outros tipos. No processo de aplicação da tecnologia de mineração de dados para resolver problemas relacionados, técnicas e métodos de classificação são frequentemente usados ​​para resolver a previsão de resultados desconhecidos ou recursos quantitativos desconhecidos.

4. Análise de cluster
Os dados analisados ​​e processados ​​pela análise de cluster (seja na aprendizagem ou na previsão de classificação) não têm atribuição de categoria (determinada antecipadamente).
Princípio de agrupamento:

Maximize a similaridade dentro da classe

Minimize a similaridade entre as classes 

5. Análise de outliers
A maioria dos métodos de mineração de dados descarta outliers como ruído ou anomalias, mas outliers podem ser detectados usando testes estatísticos. 

6. Análise de Evolução
A análise de evolução de dados (Análise de Evolução) serve para modelar e descrever as regras de mudança e tendências de objetos de dados que mudam ao longo do tempo. 

4. Técnicas e ferramentas comuns para mineração de dados

a. Técnicas comumente usadas de mineração de dados

Tecnologia preditiva, análise de cluster, computação evolutiva, lógica difusa, árvore de jogo, análise estatística, tomada de decisão e teoria de controle, computação paralela Haitong storage, tecnologia de regra de associação, tecnologia de conjunto aproximado, sistema cinza, inteligência artificial, raciocínio de conhecimento, tecnologia de visualização

b. Dez algoritmos clássicos para mineração de dados

1. Classificador de árvore de decisão C4.5 (algoritmo de classificação)

2. Algoritmo K-means (algoritmo de agrupamento)

3. Máquina de vetores de suporte (algoritmo de classificação)

4. Algoritmo a priori (algoritmo de análise de padrão frequente)

5. Algoritmo de estimativa de expectativa máxima (classificador fraco integrado)

6. Algoritmo PageRank (algoritmo de classificação)

7. Algoritmo AdaBoost (classificador fraco integrado)

8. K algoritmo de classificação do vizinho mais próximo (algoritmo de classificação)

9. Algoritmo Bayesiano Naive (Algoritmo de Classificação)

10. Algoritmo de árvore de classificação e regressão (algoritmo de agrupamento)


C4.5 (61 votos)
K-Means (60 votos)
SVM (58 votos)
Apriori (52 votos)
EM (48 votos)
PageRank (46 votos)
AdaBoost (45 votos)
kNN (45 votos)
Naive Bayes (45 votos)
CART (34 votos)

c. Ferramentas para mineração de dados

1. Ferramentas baseadas em redes neurais
As redes neurais são usadas para classificação, mineração de recursos, predição e reconhecimento de padrões.
2. Ferramentas baseadas em regras e árvores de decisão
A principal vantagem é que tanto as regras quanto as árvores de decisão são legíveis.
3. Ferramentas baseadas em lógica fuzzy
Este método usa lógica fuzzy para consulta de dados, classificação, etc.
4. Ferramentas multimétodo abrangentes
Essas ferramentas geralmente são de grande escala e adequadas para grandes bancos de dados (incluindo bancos de dados paralelos)

d. Métodos tradicionais de análise de dados e mineração de dados

(1) dados massivos

(2) Dados de alta dimensão

(3) Dados de alta complexidade. A seguir estão alguns tipos típicos de dados de complexidade no trabalho diário

① Fluxo de dados e dados sensoriais.

②Dados de séries temporais, séries de dados que mudam com o tempo.

③ Dados estruturados, gráficos, redes sociais e dados relacionais multilink.

④ Banco de dados heterogêneo, dados legais.

⑤ Dados espaciais, dados de descrição espaço-temporal, dados multimídia, dados da Web.

⑥Programas de software, dados de simulação científica, etc.
 

5. Pontos de acesso de aplicativos de mineração de dados

A tecnologia de mineração de dados vem das necessidades diretas dos negócios e possui uma ampla gama de valores de uso em vários campos.
1. Aplicações no campo financeiro
2. Transações financeiras em rede
3. Aplicações de negócios de varejo
4. Aplicações de telecomunicações médicas

6. Os principais problemas enfrentados pela mineração de dados

a. Problemas enfrentados pelos métodos de mineração

(1) Ao usar métodos de mineração de dados para descobrir conhecimento, geralmente espera-se que os métodos de mineração adotados possam realizar diferentes tipos de mineração de conhecimento a partir de diferentes tipos de dados.

(2) O objeto da mineração de dados geralmente são dados massivos em larga escala, e o desempenho dos algoritmos de mineração também é uma das questões importantes que geralmente atraem a atenção no processo de mineração de dados.

(3) Em tarefas de mineração de dados descritivos, é necessário realizar avaliação de padrão correspondente nos padrões ou regularidades frequentes analisados

(4) Os objetos do trabalho de mineração de dados são frequentemente usuários com diferentes formações profissionais. Como integrar o conhecimento prévio relevante no método de mineração para tornar o trabalho de mineração mais direcionado também é uma questão importante na pesquisa de métodos de mineração.

(5) Durante o uso de métodos de mineração, os objetos a serem minerados são frequentemente ruidosos e dados incompletos.

(6) Nos últimos anos, com a maturidade da tecnologia de computação paralela e a construção da plataforma de tecnologia de computação em nuvem, os futuros métodos de mineração de dados massivos geralmente precisam ser paralelos, distribuídos e incrementais.

(7) O algoritmo de mineração deve ser capaz de integrar ativamente o conhecimento descoberto, ou seja, realizar a fusão do conhecimento.

b. Problemas com a interatividade do usuário

(1) Sobre a questão da interatividade do usuário, é necessário propor uma linguagem de consulta orientada para mineração de dados para realizar a mineração de dados em tempo real. (2) É necessário apresentar a tecnologia de representação e visualização dos resultados da mineração de dados do usuário de forma intuitiva para apresentar os resultados da mineração. Ou seja, realizar pesquisas sobre métodos de visualização computacional para tecnologia de mineração de dados.

(3) Os usuários geralmente precisam implementar a mineração interativa em vários níveis de abstração, ou seja, todo o processo de mineração de dados deve ser interativo.

c. Aplicação e impacto social

(1) Em termos de aplicação. Há uma necessidade urgente de realizar a mineração de dados orientada para o domínio e realizar a mineração de dados que não pode ser percebida ou vista por pessoas comuns. (2) No processo de aplicação de mineração de dados, é necessário fortalecer a proteção da segurança, integridade e privacidade dos dados.

resumo

Este capítulo analisa alguns conceitos básicos em mineração de dados em detalhes, expõe a história e o desenvolvimento da tecnologia de mineração de dados, resume o conteúdo e as funções da mineração
de dados tecnologias e ferramentas de mineração de dados existentes e apresenta os princípios dos hotspots de aplicativos de mineração de dados.

Como resultado inevitável do desenvolvimento da tecnologia de banco de dados, a tecnologia de mineração de dados tem sido amplamente pesquisada e aplicada. A mineração de dados é descobrir conhecimento valioso a partir de dados massivos. Um processo típico de descoberta de conhecimento inclui limpeza de dados, integração de dados, seleção de dados, transformação de dados, mineração de dados, avaliação de esquema e representação de conhecimento. O trabalho de mineração de dados pode ser realizado em diferentes data warehouses. A mineração de dados pode ser concluída: extração de recursos de dados, reconhecimento de recursos, análise de associação, classificação, agrupamento, análise de pontos atípicos e análise de tendências, etc. (Trecho de "Mineração de Dados: Métodos e Aplicações" Xu Hua)

Referências

"Mineração de Dados: Métodos e Aplicações" por Xu Hua

Acho que você gosta

Origin blog.csdn.net/weixin_53197693/article/details/129247208
Recomendado
Clasificación