Para abrir big data de forma visual, como o tableau se conecta ao Hadoop hive?

Prefácio

Hadoop Hive é uma ferramenta de data warehouse baseada em Hadoop, que pode mapear arquivos de dados estruturados para uma tabela de banco de dados e fornecer funções de consulta SQL completas; instruções SQL podem ser convertidas em tarefas MapReduce para operação, com a vantagem de baixos custos de aprendizagem; Estatísticas MapReduce simples pode ser realizado rapidamente por meio de instruções semelhantes a SQL, sem a necessidade de desenvolver aplicativos MapReduce especiais, que são muito adequados para análises estatísticas de data warehouses. Este artigo apresentará em detalhes como o Tableau se conecta ao Hadoop Hive e suas precauções.

O link a seguir é um tutorial de aprendizagem em tableau cuidadosamente compilado pelo blogueiro, incluindo partes básicas e tutoriais avançados, e pequenos parceiros em necessidade podem se inscrever por conta própria.

Tutorial avançado de análise de dados visuais do Tableau

https://blog.csdn.net/wenyusuran/category_9596753.html

Pontos de conhecimento da análise de dados visuais do Tableau em detalhes

https://blog.csdn.net/wenyusuran/category_9274958.html

1. Introdução ao Hadoop

O motivo da existência do Hadoop é que ele é adequado para armazenar e computar big data. Um cluster Hadoop é composto principalmente de duas partes: uma é uma "biblioteca" para armazenar e calcular "dados" e a outra é uma estrutura de armazenamento e cálculo.

1.1 Sistema de arquivos distribuídos Hadoop

O sistema de arquivos distribuído Hadoop é uma implementação de sistema de arquivos, semelhante a NTFS, EXT3, EXT4, etc. No entanto, o sistema de arquivos distribuído Hadoop é construído em um nível superior. Os arquivos armazenados no HDFS são divididos em blocos (cada bloco tem 64M por padrão, que é principalmente distribuído em várias máquinas do que os blocos do sistema de arquivos comuns, e cada bloco tem mais blocos backup de redundância (o padrão é 3) para aumentar a tolerância a falhas do sistema de arquivos. Este modo de armazenamento complementa o modelo de cálculo MapReduce subsequente. A implementação específica do HDFS tem principalmente as seguintes partes:

1. Nó de nome (NameNode)

A responsabilidade do nó de nome é armazenar os metadados de todo o sistema de arquivos, o que é uma função muito importante. Os metadados serão carregados na memória quando o cluster for iniciado e as alterações nos metadados também serão gravadas no arquivo de imagem do sistema no disco.Ao mesmo tempo, o log de edição dos metadados será mantido. Quando o HDFS armazena arquivos, os arquivos são divididos em blocos lógicos para armazenamento e os relacionamentos correspondentes são armazenados no nó de nome. Se estiver danificado, os dados de todo o cluster ficarão indisponíveis. Podemos tomar algumas medidas para fazer backup dos metadados do nó de nome, como definir o diretório do nó de nome para um diretório local e um diretório NFS ao mesmo tempo, de modo que quaisquer alterações de metadados sejam gravadas em dois locais para backup redundante. O processo de gravação redundante nos dois diretórios é atômico, de modo que, após o nó do nome em uso ser desativado, possamos usar o arquivo de backup no NFS para restaurar o sistema de arquivos.

2.
A função do nó de nome secundário (SecondaryNameNode) é mesclar periodicamente a imagem do namespace por meio do log de edição para evitar que o log de edição seja muito grande. No entanto, o status do segundo nó de nome fica atrás daquele do nó de nome principal.Se o nó de nome principal cair, deve haver alguma perda de arquivo.

3. Data Node (DataNode)
Este é o local onde os dados são armazenados no HDFS. Geralmente, existem várias máquinas. Além de fornecer serviços de armazenamento, ele também envia periodicamente uma lista de blocos armazenados para o nó de nome. O nó de nome não precisa armazenar permanentemente cada arquivo e o nó de dados onde cada bloco está localizado.Esta informação será reconstruída pelo nó de dados após a inicialização do sistema.

1.2 Estrutura de computação MapReduce

O framework de computação MapReduce é um modelo de computação distribuído, cujo objetivo é decompor tarefas em pequenas tarefas, onde diferentes calculadoras participam do cálculo ao mesmo tempo, e os resultados dos cálculos de cada calculadora são combinados para obter o resultado final. O modelo em si é muito simples. Geralmente, apenas duas interfaces precisam ser implementadas. A chave é como transformar problemas reais em tarefas MapReduce. O
MapReduce do Hadoop é composto principalmente pelas duas partes a seguir:

1. O nó de rastreamento de trabalho (JobTracker)
é responsável pelo agendamento de tarefas (diferentes estratégias de agendamento podem ser definidas) e rastreamento de status. Um pouco semelhante ao nó de nome no HDFS, JobTracker também é um ponto único, que pode ser melhorado em versões futuras.

2. O nó de rastreamento de tarefas (TaskTracker)
é responsável pela execução de tarefas específicas. TaskTracker informa JobTracker de seu status por meio de um método de "pulsação", e JobTracker atribui tarefas a ele com base no status relatado. O TaskTracker iniciará uma nova JVM para executar tarefas e, claro, as instâncias da JVM também podem ser reutilizadas.

2. Condições básicas para conexão

Hadoop Hive é uma tecnologia que utiliza dados de cluster do Hadoop combinando expressões SQL tradicionais e operações de transformação e análise de dados avançadas específicas do Hadoop. O Tableau usa o Hive para trabalhar com o Hadoop para fornecer um ambiente sem programação. O Tableau oferece suporte ao uso de Hive e do driver HiveODBC da fonte de dados para se conectar aos dados armazenados nas distribuições Cloudera, Hortonworks, MapR e Amazon EMR (ElasticMapReduce).

Versão 2.1 do Hive

O seguinte descreve os pré-requisitos e recursos externos para conexão. Para conexão ao Hive Server,
uma das seguintes condições deve ser atendida: distribuição Cloudera contendo Apache Hadoop CDH3u1 ou superior, incluindo Hive 0.7.1 ou superior; Hortonworks; MapR Enterprise Edition (M5); Amazon EMR.

Para a conexão com o Hive Server 2, uma das seguintes condições deve ser atendida:
distribuição do Cloudera incluindo Apache Hadoop CDH4u1; Hortonworks HDP1.2; MapR Enterprise Edition (M5) com Hive 0.9+; Amazon EMR. Além disso, o driver ODBC Hive correto deve ser instalado em cada computador que executa o Tableau Desktop ou Tableau Server.

2.2 Motorista

Para Hive Server ou Hive Server2, o driver ODBC Cloudera, Hortonworks, MapR ou Amazon EMR deve ser baixado e instalado na página "Driver". Cloudera (Hive): driver ODBC Cloudera
para ApacheHive2.5.x; para Tableau Server 8.0.8 ou superior, o driver 2.5.0.1001 ou superior é necessário.

Cloudera (Impala): driver ODBC Cloudera para Impala Hive 2.5.x; se você se conectar ao serviço Beeswax no Cloudera Hadoop, deverá usar o conector Cloudera ODBC 1.2 adequado para Tableau Windows.

Hortonworks: driver ODBC do Hortonworks Hive 1.2.x.

MapR: MapR_odbc_2.1.0_x86.exe ou superior ou MapR_odbc_2.1.0_x64.exe ou superior.

Amazon EMR: Hive ODBC.zip ou Impala ODBC.zip. Se outra versão do driver foi instalada, desinstale o driver primeiro e, em seguida, instale a versão correspondente fornecida na página "Driver".

2.3 Iniciar serviço Hive

Digite o seguinte comando usando a interface de terminal do cluster Hadoop:

hive—service hiverserver

O comando acima será encerrado quando você sair da sessão de terminal do Hadoop, portanto, pode ser necessário executar o serviço Hive em um estado contínuo. Para mover o serviço Hive para o segundo plano, você precisa digitar o seguinte comando:

nohup HIVE_PORT=10000 hive—service hiveserver &

Para uso de longo prazo, você precisa configurar um processo automático para iniciar o Hive com o cluster. Derby é o repositório de metadados padrão para Hadoop. Os metadados do Hive contêm a estrutura e a localização da tabela do Hive e devem ser armazenados em algum lugar para permitir o acesso contínuo de leitura / gravação. O Hive usa o Derby para armazenar informações de metadados por padrão.

Embora o Derby não ofereça suporte ao uso simultâneo de várias instâncias do Hive, para clientes externos como o Tableau, o serviço Hive será executado como um único acesso. O serviço Hive suporta acesso simultâneo por vários clientes externos, enquanto é executado apenas em uma única instância do banco de dados de metadados Derby. Se você planeja usar o Hive para produção de longo prazo, pode considerar o uso de um repositório de metadados multiusuário, como um banco de dados PostgreSQL, que não afetará a maneira como o Tableau interage com o Hive.

3. Principais etapas para conectar

Selecione o servidor apropriado, Cloudera Hadoop, Hortonworks Hadoop Hive, MapR Hadoop Hive ou Amazon EMR no Tableau Desktop e insira as informações necessárias para a conexão.

3.1 Cloudera Hadoop

Clique em Cloudera Hadoop em "Conectar" na página inicial e faça o seguinte:

(1)输入承载数据库服务器的名称和端口号，端口号21050是2.5.x驱动程序的默认端口。
(2)在“类型”下拉列表中选择要连接的数据库类型Hive Server、Hive Server2或Impala。
(3)在“身份验证”下拉列表中选择要使用的身份验证方法。
(4)单击“初始SQL”以指定将在连接时运行一次的SQL命令。
(5)单击“登录”按钮

Se a conexão não for bem-sucedida, verifique se o nome de usuário e a senha estão corretos. Se a conexão ainda falhar, significa que o computador encontrou um problema para localizar o servidor e você precisa entrar em contato com o administrador da rede ou do banco de dados para processamento.

3.2 Hortonworks Hadoop Hive

Clique em Hortonworks Hadoop Hive em "Conectar" na página inicial e faça o
seguinte:

(1)输入承载数据库的服务器名称。
(2)在“类型”下拉列表中选择要连接的数据库类型Hive Server或Hive Server2。
(3)在“身份验证”下拉列表中选择要使用的身份验证方法。
(4)单击“初始SQL”以指定将在连接时运行一次的SQL命令。
(5)单击“登录”按钮。

3.3 MapR Hadoop Hive

Clique em MapR Hadoop Hive em "Conectar" na página inicial e faça o seguinte:

(1)单击“登录”按钮。
(2)输入承载数据库的服务器名称。在“类型”下拉列表中选择要连接的数据库类型，可以选择Hive Server或Hive Server2。

(3)在“身份验证”下拉列表中选择要使用的身份验证方法。
(4)单击“初始SQL”以指定将在连接时运行一次的SQL命令。
(5)单击“登录”按钮。

4. Considerações de conexão

Ao se conectar ao Hive, o Tableau Desktop precisa prestar atenção às limitações conhecidas de dados de data / hora, Hive e Hadoop (em comparação com bancos de dados tradicionais).

4.1 Dados de data / hora

Tableau Desktop 9.0 e versões posteriores oferecem suporte a carimbos de data / hora no Hive, e o Tableau pode usar carimbos de data / hora nativamente. Se você armazenar os dados de data / hora como uma string no Hive, certifique-se de armazená-los no formato ISO (AAAA-MM-DD).

No Tableau Desktop 9.0 e versões anteriores, o Tableau não tem suporte interno para o tipo de dados de carimbo de data / hora, mas essas versões oferecem suporte a operações em dados de data / hora armazenados em strings.

Etapas para alterar o tipo de dados para o formato de data / hora: Crie uma extração de dados, clique com o botão direito do mouse no campo no painel "Dados" e selecione "Alterar Tipo de Dados" → "Data" para usar a data pura armazenada na string ou Dados de data / hora ou use a função DATEPARSE para converter uma string em um campo de formato de data / hora.

4.2 Limitações conhecidas

1. O
Hive de alta latência é um sistema orientado a lote e não pode responder a consultas simples com um tempo de resposta rápido. Essa limitação torna muito difícil explorar novos conjuntos de dados ou campos calculados de experiência, mas algumas tecnologias SQL-on-Hadoop mais recentes podem ser usadas para resolver essa limitação.

2. Processamento de data / hora O
Hive fornece funções importantes para computar dados de string que podem representar data / hora e adiciona suporte para armazenar data / hora como tipo de dados nativo (carimbo de hora).

3. Consultar o andamento e cancelar as operações

O cancelamento no Hadoop Hive não é simples, especialmente ao trabalhar em computadores que não fazem parte do cluster. O Hive não pode fornecer um mecanismo de cancelamento. Portanto, a consulta emitida pelo Tableau só pode ser "abandonada". Depois de abandonar a consulta, continue no Tableau Funciona, mas a consulta ainda será executada no cluster e consumirá recursos.

4. Verificação de identidade

Para a conexão do Hive Server tradicional, o driver Hive ODBC não exibe a operação de autenticação e o modelo de autenticação Hive e o modelo de segurança de dados estão incompletos, o TableauServer fornece um modelo de segurança de dados para esses casos, a pasta de trabalho do Tableau
criou "Filtros de usuário" para indicar como para limitar os dados em cada visualização, e o TableauServer garantirá que esses filtros sejam implementados de acordo para os usuários que acessam a visualização interativa no navegador.

5. Verifique a conexão de teste

Com os drivers ODBC mais recentes da Cloudera, Hortonworks, MapR e Amazon EMR, o utilitário de configuração do driver pode ser usado para testar a conexão com o cluster Hadoop Hive.