Descrição do problema
Nós dados geralmente migram para grande ambiente de dados, uso, Sqoop ferramenta de ETL, Datax como a migração do banco de dados para a colmeia ou hdfs. dados de classe de texto no banco de dados nos dados originais será, inevitavelmente, caracteres especiais, tais como quebras de linha, ele irá importar o Hive impacto de dados. O que se segue é um conjunto de dados de importação colmeia de mysql, em que, a tabela é armazenada em formato de ficheiro de texto colmeia caracteres especiais não processo:
Há dois campos não encontrado, então olhada ficheiro de ramo de mesa nas hdfs:
descobrir a linha de dados original, em um texto multi-linha tem '\ n' quebras de linha, levando a localização confusão, de modo a verificar a colmeia há dois campos não
uma solução
Nova linha substituindo uma cadeia vazia, há parâmetro Sqoop substituição, mas não Datax. Algumas cenas, a fim de preservar a integridade dos dados deve ser mantido nova linha como fazê-lo?
solução dois
Orc colmeia de armazenamento de tabela com
ORC representa (Optimized Fila colunar), formato de arquivo ORC é uma coluna no ecossistema formato de armazenamento Hadoop, que é gerado no início de 2013, gerado a partir do original Apache colmeia, para reduzir os dados Hadoop espaço de armazenamento colmeia e acelerar a velocidade de consulta. Parquet e similares, não é um formato de armazenamento colunar simples, toda a tabela ainda é dividido de acordo com a linha primeiro grupo, armazenados em colunas para cada linha no grupo. ORC é auto-descritivo de arquivo, seus metadados usando Protocol Buffers serializado e arquivos de dados, tanto quanto possível para reduzir o consumo de espaço de armazenamento comprimido, ele também está sendo SQL Spark, Presto e outros suportes mecanismo de consulta
porque é o armazenamento colunar, Portanto, a razão não há quebras de linha em um campo de dados levar a confusão
Tabela após o armazenamento orc, consulta full-mesa:
Huh? Como vazio? As seguintes linhas como todos nulo? armazenamento colunar não deve acontecer ah!
Não se preocupe, você vê não é necessariamente verdadeiro
aumento das condições de filtragem especificados id tentar essa linha
Huh? Como houve?
Explicação: Eu uso próprio interface de consulta colmeia ambari, que pode ser bug ambari si mostra que os dados de texto também mostra quebras de linha dentro para fora, de modo a ver é o caos, mas, na página e os dados reais nenhuma confusão, você não terá que executar qualquer problema de consulta, a exibição da página problema, os dados não é mais um problema! !