Banco de dados e data warehouse MPP (6): o uso da chaleira de ferramentas ETL de código aberto

Kettle é uma ferramenta ETL de código aberto estrangeiro, escrita em java puro, pode ser executada em Windows, Linux, Unix, a extração de dados é eficiente e estável.

O nome chinês de Kettle é kettle. O principal programador do projeto MATT espera colocar vários dados em uma chaleira e, em seguida, transmiti-los em um formato específico. Kettle é um conjunto de ferramentas ETL, que permite gerenciar dados de diferentes bancos de dados, fornecendo um ambiente gráfico do usuário para descrever o que você deseja fazer, não como deseja fazer. Existem dois arquivos de script no Kettle , transformação e trabalho.A transformação completa a transformação básica dos dados e o trabalho completa o controle de todo o fluxo de trabalho.

 Uso de chaleira

 Primeiro, descompacte o pacote compactado baixado e, em seguida, abra spoon.bat, conforme mostrado na figura:

 

Vá para Arquivo -> Nova Conversão

O processo de estabelecimento de uma conexão de banco de dados é semelhante ao de outro software de gerenciamento de banco de dados. Nota: Durante o processo de conexão do banco de dados, uma exceção de que uma conexão de banco de dados não pode ser encontrada pode ser relatada. Isso porque você não tem o driver de link de banco de dados correspondente, baixe o driver correspondente e coloque-o na pasta lib do kettle.

Inserção / atualização de tabela de dados simples

(1) Inserção de nova tabela: selecione "objeto central" no painel esquerdo, selecione "entrada -> entrada da tabela" no objeto central e arraste o mouse para o painel direito. como mostra a imagem:

 

Clique duas vezes na tabela arrastada para editar a entrada da tabela. Selecione a conexão do banco de dados e edite a instrução sql.Nesta etapa, você pode clicar em Visualizar para ver se está conectado corretamente.

(2) Saída para a tabela por meio da saída da tabela: selecione o objeto central no painel esquerdo, selecione "saída -> saída da tabela", conforme mostrado na figura:

Editar saída da tabela: Primeiro: a entrada da tabela está conectada à saída da tabela, selecione a entrada da tabela, mantenha pressionada a tecla shift e arraste para a saída da tabela. Em seguida: Clique duas vezes na saída da tabela, edite-a e clique em Executar para verificar o efeito, para ver se há um erro, isso deve ser salvo antes de poder ser executado e pode ser salvo em qualquer lugar à vontade.

Use o controle de trabalho para alternar a execução acima

Use trabalhos para realizar conversões regularmente ou periodicamente e crie um novo trabalho. E arraste o início e a conversão do painel esquerdo.

 Clique para abrir a conversão, você pode definir a tarefa de conversão que precisa ser realizada, por exemplo, você pode executar a conversão que fizemos acima, XXX.ktr

Entrada do Excel -> saída da tabela

Selecione o arquivo Excel a ser processado, o tipo de tabela é 2007, selecione o nome da planilha correspondente, selecione o campo de cabeçalho e o campo na tabela de saída de destino

enviar email

1: Autorização de e-mail, faça login na caixa de correio para selecionar POP3 / SMTP / IMAP nas configurações, e o endereço de correspondência pode usar QQ, 126, 163 e outras caixas de correio.

2: Defina a senha de autorização. A senha de autorização não pode ser igual à senha de login. Isso requer verificação por SMS.

3: Configuração do servidor, preencha smtp.qq.com ou smtp.126.com para servidor smtp, etc.

Selecione a biblioteca de recursos

A biblioteca de recursos da chaleira é usada para salvar tarefas de conversão, e as tarefas de conversão criadas pelo usuário por meio da interface gráfica podem ser salvas na biblioteca de recursos. A biblioteca de recursos permite que vários usuários compartilhem tarefas de conversão. As tarefas de conversão são agrupadas e gerenciadas na forma de pastas na biblioteca de recursos e os usuários podem personalizar o nome da pasta.

Existem duas formas de biblioteca de recursos:

1. Repositório de banco de dados Kettle, que é armazenado em vários tipos de repositórios de recursos de banco de dados comuns. Os usuários acessam recursos no repositório de recursos por meio de nome de usuário / senha. O nome de usuário / senha padrão é admin / admin e guest / guest.

2. Repositório de arquivos Kettle, o tipo de biblioteca de recursos armazenada na pasta do disco rígido do servidor.Este tipo de biblioteca de recursos não requer o login do usuário e pode operar diretamente.

Acho que você gosta

Origin blog.csdn.net/yezonggang/article/details/109470183
Recomendado
Clasificación