dados problema de importação de nova linha na colmeia - pit mineração grandes conjuntos de dados

Descrição do problema

Nós dados geralmente migram para grande ambiente de dados, uso, Sqoop ferramenta de ETL, Datax como a migração do banco de dados para a colmeia ou hdfs. dados de classe de texto no banco de dados nos dados originais será, inevitavelmente, caracteres especiais, tais como quebras de linha, ele irá importar o Hive impacto de dados. O que se segue é um conjunto de dados de importação colmeia de mysql, em que, a tabela é armazenada em formato de ficheiro de texto colmeia caracteres especiais não processo:
Aqui Insert Picture Descrição

Há dois campos não encontrado, então olhada ficheiro de ramo de mesa nas hdfs:
Aqui Insert Picture Descrição
descobrir a linha de dados original, em um texto multi-linha tem '\ n' quebras de linha, levando a localização confusão, de modo a verificar a colmeia há dois campos não

uma solução

Nova linha substituindo uma cadeia vazia, há parâmetro Sqoop substituição, mas não Datax. Algumas cenas, a fim de preservar a integridade dos dados deve ser mantido nova linha como fazê-lo?

solução dois

Orc colmeia de armazenamento de tabela com
ORC representa (Optimized Fila colunar), formato de arquivo ORC é uma coluna no ecossistema formato de armazenamento Hadoop, que é gerado no início de 2013, gerado a partir do original Apache colmeia, para reduzir os dados Hadoop espaço de armazenamento colmeia e acelerar a velocidade de consulta. Parquet e similares, não é um formato de armazenamento colunar simples, toda a tabela ainda é dividido de acordo com a linha primeiro grupo, armazenados em colunas para cada linha no grupo. ORC é auto-descritivo de arquivo, seus metadados usando Protocol Buffers serializado e arquivos de dados, tanto quanto possível para reduzir o consumo de espaço de armazenamento comprimido, ele também está sendo SQL Spark, Presto e outros suportes mecanismo de consulta
porque é o armazenamento colunar, Portanto, a razão não há quebras de linha em um campo de dados levar a confusão

Tabela após o armazenamento orc, consulta full-mesa:
Aqui Insert Picture Descrição
Huh? Como vazio? As seguintes linhas como todos nulo? armazenamento colunar não deve acontecer ah!
Não se preocupe, você vê não é necessariamente verdadeiro
aumento das condições de filtragem especificados id tentar essa linha
Aqui Insert Picture Descrição
Huh? Como houve?
Explicação: Eu uso próprio interface de consulta colmeia ambari, que pode ser bug ambari si mostra que os dados de texto também mostra quebras de linha dentro para fora, de modo a ver é o caos, mas, na página e os dados reais nenhuma confusão, você não terá que executar qualquer problema de consulta, a exibição da página problema, os dados não é mais um problema! !

Lançado três artigos originais · ganhou elogios 0 · Vistas 3852

Acho que você gosta

Origin blog.csdn.net/u013289115/article/details/85775699
Recomendado
Clasificación