idéias de design comuns grande arquitetura de dados

O idioma recomendado do Editor:

Com a tecnologia de TI e dados grande, aprendizagem de máquina, algoritmos de continuar a avançar, mais e mais empresas estão cientes do valor dos dados existentes, os dados em si como uma gestão bem valioso, o uso de dados grandes e máquina de aprendizagem para cavar, identificar, utilizando os dados activos. Este artigo descreve alguns dos abordagem de design de plataforma de dados para ajudar as empresas a reduzir a dificuldade e pontos de dor no desenvolvimento de dados.

O artigo a seguir vem vivo tecnologia da Internet, autor Liu Yanjiang

tecnologia vivo Internet

tecnologia vivo Internet

Compartilhar tecnologia vivo Internet e salão de seca, recomendamos as últimas tendências da indústria e reuniões populares.

Nos últimos anos, juntamente com a tecnologia de aprendizagem de TI e big data, sentido da máquina do contínuo desenvolvimento de algoritmos, mais e mais empresas têm percebido o valor dos dados existentes, os dados em si como uma gestão bem valioso, o uso de dados grandes e aprendizagem de máquina capacidade de escavação, para identificar, usando ativos de dados. Se a falta de dados eficazes concepção global de arquitetura ou parte do déficit, vai levar a camada de negócios é difícil tomar diretamente vantagem dos dados Big Data Big, Big Data e negócios teve um enorme gap apareceu chumbo brecha para ocorre negócios durante o uso de dados grandes dados agnóstico, a demanda é difícil de conseguir, difícil de compartilhar dados e outras questões, este artigo descreve alguns dos abordagem de design de plataforma de dados para ajudar as empresas a reduzir a dificuldade e pontos de dor no desenvolvimento de dados.

Este artigo inclui as seguintes seções:

  1. A primeira parte deste artigo para introduzir um grande componentes de infraestrutura de dados e conhecimento relacionado.

  2. A segunda parte descreve o kappa e lambda arquitetura arquitetura.

  3. A terceira seção descreve os dados grandes arquitetura geral sob o kappa e lambda padrões de arquitetura

  4. Parte IV descreve o sistema de dados arquitetura de dados bare-final sob as dificuldades e os pontos de dor.

  5. Seção V excelente design global da grande arquitetura de dados

  6. A partir da quinta parte é a introdução de dados através de uma variedade de plataformas e componentes para estes dados grandes componentes se combinam para criar uma plataforma de dados eficiente e fácil de usar para melhorar a eficiência dos sistemas de negócios, desenvolvimento de negócios, de modo que não tem medo de componentes de desenvolvimento de dados complexos, sem prestar atenção à implementação subjacente, só você precisa usar SQL para completar o desenvolvimento de one-stop, dados completos refluxo, de modo que os dados não um grande engenheiros de dados têm habilidades é.

 

Primeiro, a grande pilha de tecnologia de dados

 

todo o processo de Big Data envolve uma série de módulos, cada módulo é mais complexa, a figura abaixo lista os módulos e componentes, bem como as suas propriedades funcionais, haverá follow-up para introduzir temas relacionados ao campo de detalhes do módulo de conhecimento, como a coleta de dados, transmissão de dados, em tempo real, computação , fora de linha calculado, armazenamento de dados grandes e outros módulos relacionados.

 

 

Dois, lambda e kappa Arquitectura Arquitetura

 

Agora, basicamente, toda a arquitetura de dados grande é baseado em lambda e kappa arquitetura, diferentes empresas desses dois padrões arquitetônicos projetados para atender a arquitetura de dados da empresa. lambda arquitetura permite aos desenvolvedores criar sistema de processamento em larga escala de dados distribuídos. Ele tem boa flexibilidade e escalabilidade, mas também tem boa tolerância a falhas de falha de hardware e erros humanos, no que diz respeito à arquitetura lambda podem ser encontrados a muitos artigos relacionados na Internet. A arquitetura kappa endereços dois conjuntos de dados de sistemas de processamento existem arquitetura lambda, levando a uma variedade de custos, o que é sentido do fluxo da integração da investigação actualmente aprovada, muitas empresas começaram a usar essa arquitetura mais avançada.

 

arquitetura lambda

 

arquitetura Kappa

 

Em terceiro lugar, a arquitetura de dados grande com a arquitetura kappa e arquitetura lambda

 

Actualmente, as grandes empresas são, basicamente, utilizando o modelo de kappa ou lambda arquitetura arquitetura, esses dois modos de dados grandes arquitetura global pode parecer o seguinte nos primeiros estágios de desenvolvimento:

 

Em quarto lugar, os dados de ponto final da dor

 

Enquanto a arquitetura acima vai olhar grande variedade de componentes de dados ligadas entre si para implementar a gestão integrada, mas de desenvolvimento de dados de contas de pessoas vão se sentir mais intensa, os dados arquitetura de negócios nuas tal desenvolvimento requer muita atenção para o uso do instrumento subjacente, o desenvolvimento de dados real há muitos pontos e dificuldades dor, em particular em alguns dos seguintes aspectos.

 

  1. A falta de um IDE de desenvolvimento de dados para gerenciar todo o desenvolvimento de enlace de dados, processos de longo prazo não pode controlá-lo.

  2. Nenhum sistema de modelagem de dados padrão, resultando em diferentes engenheiro de dados para entender os diferentes indicadores calculados calibre errado.

  3. Grandes necessidades de desenvolvimento de componentes de alta de dados, negócios em geral para usar HBase direta, ES e outros componentes de tecnologia irá produzir uma variedade de problemas.

  4. Basicamente, cada empresa equipe de Big Data vai ser muito complexa, envolvendo muitas áreas, um problema difícil de localizar difícil encontrar a pessoa que corresponde a cargo.

  5. Difícil de quebrar silos de dados, inter-departamental compartilhamento de dados entre as equipes é difícil, eles não sabem o que o outro dados das.

  6. A necessidade de manter dois conjuntos de lote de computação cálculos do modelo e cálculo de fluxo, é difícil começar a desenvolver, necessidade de fornecer um fluxo de uniforme SQL lote.

  7. A falta de planejamento do sistema de metadados ao nível da empresa, os mesmos dados em tempo real e reutilização desligada cálculo difícil, cada carding uma variedade de tarefas de desenvolvimento deve ser.

 

Basicamente a maioria das empresas na plataforma de gestão de dados e fornece todos os problemas acima e pontos de dor sobre a capacidade aberta. Em uma arquitetura de dados complexos, os dados adequados para festas, todos os aspectos de uma função não é clara ou hostil, vai torná-lo mais complicado para mudar uma ligação complexa. Quer resolver esses pontos de dor, você precisa polido cuidadosamente todos os aspectos, os componentes de tecnologia superior perfeitamente em conjunto, então o negócio como escrever SQL para consultar o banco de dados é tão simples quanto usar dados de ponta a ponta.

 

Cinco excelente design geral arquitetura de dados grande

 

Oferece uma variedade de plataformas e ferramentas para a plataforma de dados ajuda: recolha de dados fontes de dados da plataforma, uma plataforma chave para a sincronização de dados, qualidade de dados e plataforma de modelagem, um sistema de metadados, uma plataforma de acesso unificado de dados, em tempo real e off-line plataforma de computação, programação de recursos plataforma, desenvolvimento de IDE one-stop.

 

Sexto, os metadados - a pedra angular do sistema de dados grande

 

Metadados são fontes abertas de dados, data warehouse, aplicações de dados, registrou vincular dados completos da produção ao consumo. Metadados contém tabelas estáticas, colunas, paredes de informação (ie metastore). Dinâmica dependência tarefa relao de mapeamento tabela; modelo define o armazenamento de dados, o ciclo de vida dos dados, e informação de programação de ETL, entrada e saída de metadados é a gestão de dados, o conteúdo de dados de base, as aplicações de dados. Por exemplo, construída usando os metadados tarefa, tabelas, colunas, mapa de dados entre o usuário; dependências de tarefas DAG, programação de sequência de execução de tarefas; tarefas de construção ilustração, tarefas de gestão da qualidade, gestão de pessoal ou de ativos BU, computação consumo de recursos Descrições e assim por diante.

 

Pode ser considerado todo o fluxo de dados de grandes dimensões estão contando com gerenciamento de metadados, não há um conjunto completo de design de metadados, não será difícil de rastrear os dados acima, a autoridade é difícil de controlar, difícil de gerir recursos, difíceis de compartilhar dados e assim por diante.

 

Muitas empresas estão confiando colméia para gerenciar metadados, mas pessoalmente acho que em um certo estágio de desenvolvimento ainda precisa construir sua própria plataforma para coincidir com o metadados relacionados à arquitetura.

 

Os metadados podem se referir ao número real de que com fome:

https://www.jianshu.com/p/f60b2111e414

 

Sete, integração lote cálculo de fluxo

 

Se a manutenção de dois motores de computação, tais como ignição desligada computação e em tempo real de computação Flink, em seguida, o usuário irá causar uma grande angústia, tanto necessidade de aprender cálculo de fluxo também exige conhecimento do conhecimento de computação em lote. Se em tempo real com faísca ou Hadoop, você pode desenvolver uma linguagem de descrição de DSL costume da sintaxe para combinar diferentes mecanismos de computação, os usuários não precisam se concentrar em detalhes de implementação subjacentes superiores, só precisa dominar uma língua com DSL Flink offline, você pode completar faísca e acesso e Flink como Hadoop Compute engine.

 

Oito, em tempo real e uma plataforma de ETL desligada

 

I.e. ETL Extract-Transform-carga, para descrever os dados do terminal de fonte por meio de extraco (extracto), a conversão de (transformar), carga (carga) para o processo de destino. O termo mais comumente utilizado no armazém de dados ETL, mas o objecto não se limita ao armazém de dados. Na plataforma geral ETL na limpeza de dados, conversão de formato de dados, preenchimento dos dados, gestão da qualidade de dados, e tem um papel muito importante. Como um importante limpeza de dados da camada intermédia, de ETL geral para ter, pelo menos, os seguintes várias funções:

  1. Apoiar múltiplas fontes de dados, tais como um sistema de mensagem, sistema de arquivos, etc.

  2. Suporta múltiplos operadores, filtragem, segmentação, conversão, recursos de consulta de fonte de dados de saída complemento congruentes operador

  3. Apoiar a mudança lógico dinâmico, como o operador referido para enviar serviço non-stop pode ser feito por postagem muda forma frasco dinâmico.

 

 

Nine, plataforma de busca inteligente unificada

 

A maioria das consultas de dados são movidos pela demanda, uma demanda para desenvolver uma ou várias interfaces, interfaces de documento escrito, aberto aos apelos do partido negócio, este modelo há muitos problemas no sistema de dados grande:

  1. Esta arquitetura é simples, mas a interface é granularidade muito grossa, a flexibilidade não é alta, baixa escalabilidade, a taxa de reutilização. Com o aumento necessidades de negócios, um aumento substancial no número de interfaces, altos custos de manutenção.

  2. Enquanto isso, a eficiência do desenvolvimento não é alta, o que para a grande quantidade de dados que o sistema irá, obviamente, causar uma série de duplicação de desenvolvimento, é difícil de alcançar lógica e multiplexação de dados, reduzindo severamente lado do negócio de experiência aplicável.

  3. Se não houver nenhuma plataforma de busca unificada directamente expostos ao HBase e outros serviços de biblioteca, acompanhamento de operação de gestão de direitos digitais e manutenção será mais difícil o acesso aos componentes de dados grande é igualmente doloroso para o lado do negócio aplicável, o menor erro irá surgir vários problemas .

     

Consultas para resolver o grande problema dos pontos de dor consulta de dados através de um conjunto de inteligente

 

Dez, o número de caixas padrão Sistema de Modelagem

 

Como o negócio aumentou de dados de complexidade e escala, confundindo as chamadas de dados e cópias de diferentes desperdício de recursos, duplicação de definição de dados de indicadores trouxe trouxe uso ambigüidade, os dados aumentando o limiar. Eu testemunho do negócio real enterrado e vários uso armazém, por exemplo, um nome comercial com alguns campos de formulário são good_id, alguns chamaram spu_id, há muitos outros nomes, que querem fazer uso desses dados vai causar uma grande angústia. Portanto, não há conjunto completo de dados grandes sistemas de modelagem, governança de dados irá trazer grandes dificuldades, em particular nas seguintes áreas:

 

  1. padrões de dados são inconsistentes, mesmo o mesmo nome, mas a definição de calibre têm sido inconsistentes. Por exemplo, apenas uma uv tais indicadores, há uma dúzia de definições. O problema é causado por: todos os raios UV, eu uso o quê? São UV, porque os dados não é o mesmo?

  2. pesquisa e desenvolvimento custos enormes, cada um engenheiro precisa saber todos os detalhes do processo de desenvolvimento do começo ao fim, e para o mesmo "pit" Todos recuou novamente, resultando em uma perda de tempo e energia para os custos de pessoal de pesquisa e desenvolvimento. Esta é também a meta dos problemas autor encontrou, os desenvolvedores deseja extrair os dados reais difícil.

  3. Não há gestão de especificação padrão uniforme, resultando em um desperdício de recursos, tais como a dupla contagem. O nível da tabela de dados, o tamanho da partícula não é claro, de modo que o armazenamento duplicado também é grave.

 

Portanto, o desenvolvimento de várias projeto tabela grande armazém de dados devem aderir aos princípios de design, plataforma de desenvolvimento de plataforma de dados concebido para conter razoável, como corpo Alibaba OneData. Em geral, os desenvolvedores têm que percorrer os dados em conformidade com as seguintes diretrizes:

 

Interessados ​​podem referir-se a sistema de design Alibaba OneData.

 

XI, uma plataforma chave de integração

 

Simples pode ser vários tipos de dados para uma chave de plataforma de coleta de dados, transmissão de dados através da Internet para internet do ETL de dados sem costura. ETL através de e plataforma de metadados aberta, padronizada de definição de esquema, em seguida, os dados são convertidos, dividir flui em tempo real e off-line plataforma de computação, qualquer posterior para os dados off-line e processamento em tempo real, apenas a tabela privilégios de metadados aplicação para as tarefas de desenvolvimento para concluir o cálculo. apoio de aquisição de dados vários tipos de fontes de dados, o log binário por exemplo, coleta de log, o front-end Enterrado, fila de mensagens Kafka

 

Doze, desenvolvimento de dados IDE-eficiente end-to-ferramenta

 

ferramentas eficientes de desenvolvimento de dados solução one-stop, o cálculo em tempo real pode ser feito através do IDE e off-line de computação desenvolvimento tarefas, tudo vai passar por essas plataformas fornecer soluções one-stop. IDE de desenvolvimento de dados fornece integração de dados, desenvolvimento de dados, gerenciamento de dados, qualidade de dados e serviços de dados, tais como uma gama completa de produtos e serviços, desenvolvimento de balcão único e interface de gerenciamento, os dados IDE operações completas de transmissão de dados, conversão e integração. O armazenamento de dados de diferentes dados de entrada, e transformação e desenvolvimento, e, finalmente, envia os dados transformados para a outro sistema de sincronização de dados. Ao eficiente IDE grande desenvolvimento de dados, basicamente engenheiros fazer grandes dados podem ser mascarados vários pontos de dor, a capacidade de combinar acima mencionado várias plataformas, os desenvolvedores podem fazer grandes dados tão fácil de escrever SQL.

 

Cerca de ferramentas de desenvolvimento podem fazer referência a DataWorks dados Ali nuvem.

 

Dificuldades também precisa final endereço para acabar com vários outros capacidade de auxiliar, não há mais descrito, os estudantes interessados ​​podem estudar por conta própria.

 

XIII. Outros

 

Completo sistema de dados de P & D também inclui um centro de monitoramento de alarme, recursos do centro de expedição, isolando recursos de computação, testes de qualidade de dados, dados one-stop sistema de processamento, não haverá mais continuar a discutir o assunto.

Fonte: grande memória de dados passado

Publicado 277 artigos originais · Louvor obteve 65 · vista 380 000 +

Acho que você gosta

Origin blog.csdn.net/ailiandeziwei/article/details/104414850
Recomendado
Clasificación