Tecnologia e arquitetura de big data - (2) Arquitetura de processamento de big data Hadoop (Parte 1)

1. Visão geral do Hadoop

1.1Introdução ao Hadoop

  • Hadoop é uma plataforma de computação distribuída de código aberto da Apache [ pætʃi] Software Foundation, que
    fornece aos usuáriosOs detalhes subjacentes do sistema são transparentesdeInfraestrutura distribuída
    Insira a descrição da imagem aqui
  • O Hadoop é desenvolvido com base na linguagem Java, possui bons recursos de plataforma cruzada e pode ser implantado em clusters de computadores baratos
  • O Hadoop pode oferecer suporte a várias linguagens de programação, como C, C++, Java e Python
    Insira a descrição da imagem aqui
  • Hadoop = HDFS (armazenamento) + MapReduce (computação)
    Insira a descrição da imagem aqui

1.2 Breve história do desenvolvimento do Hadoop

  • FundadorDoug Cutting
    Insira a descrição da imagem aqui
  • Nutch é um mecanismo de pesquisa de código aberto implementado em Java. Ele fornece todas as ferramentas de que precisamos para executar nosso próprio mecanismo de pesquisa. Inclui pesquisa de texto completo e rastreamento da web.
  • Em 2003, o Google lançou o sistema de arquivos distribuído GFS (Google File System)
  • Em 2004, o projeto Nutch também imitou o GFS e desenvolveu seu próprio sistema de arquivos distribuídos NDFS (Nutch Distributed File System), que é o antecessor do HDFS.
    Insira a descrição da imagem aqui
  • Em 2004, o Google lançou o MapReduce, uma estrutura de programação paralela distribuída
  • Em fevereiro de 2006, NDFS e MapReduce em Nutch começaram a se tornar independentes
    e se tornaram um subprojeto do projeto Lucene, chamado Hadoop.
  • Em janeiro de 2008, o Hadoop tornou-se oficialmente um projeto de nível superior do Apache.
  • A história da fama do Hadoop: Em abril de 2008, o Hadoop quebrou o recorde mundial e se tornou o sistema mais rápido
    para classificar 1 TB de dados. Ele usou um cluster de 910 nós para realizar operações e o tempo de classificação
    levou apenas 209 segundos.
  • Em maio de 2009, o Hadoop ainda reduziu o tempo de classificação de dados de 1 TB para 62 segundos. Desde então, o Hadoop
    tornou-se famoso e rapidamente se tornou a plataforma de desenvolvimento distribuído de código aberto mais influente na era do big data
    e se tornou o padrão de fato para o processamento de big data.

1.3 Recursos do Hadoop

Hadoop é uma estrutura de software que pode realizar processamento distribuído de grandes quantidades de dados de maneira confiável, eficiente e escalável. Possui as seguintes características:

  • Alta confiabilidade:
    Múltiplas máquinas formam um cluster. Se algumas máquinas falharem, as máquinas restantes poderão continuar a fornecer serviços ao mundo exterior.
  • Eficiência:
    centenas ou milhares de máquinas calculam juntas
  • Alta escalabilidade:
    máquinas podem ser adicionadas continuamente ao cluster
  • Alta tolerância a falhas
    Quando os dados são enviados para um único nó, os dados também são replicados para outros nós do cluster, o que significa que, se ocorrer uma falha, haverá outra cópia disponível.
  • O Hadoop de baixo custo
    usa máquinas comuns baratas para formar um cluster de servidores para distribuir e processar dados, de modo que o custo é muito baixo.
  • Funciona na plataforma Linux
  • Suporta múltiplas linguagens de programação

1.4 Status atual do aplicativo Hadoop

  • Com suas vantagens marcantes, o Hadoop tem sido amplamente utilizado em diversos campos, sendo o campo da Internet sua principal área de aplicação.
  • Como site de rede social de renome mundial, o Facebook utiliza principalmente a plataforma Hadoop para processamento de logs, sistemas de recomendação e data warehouses.
  • As empresas nacionais que usam o Hadoop incluem principalmente Baidu, Taobao, NetEase, Huawei, China Mobile, etc. Entre elas, o cluster Hadoop do Taobao é relativamente grande.

Insira a descrição da imagem aqui

  • Os aplicativos relacionados ao Hadoop suportam 3 tipos de aplicativos de camada superior
  • Diferentes componentes do Hadoop permitem diferentes análises empresariais
  • O HDFS de nível mais baixo atende às necessidades de grandes quantidades de armazenamento de dados nas empresas
  • Analisar após armazenamento:
  • A análise offline pode realizar processamento em lote de dados, como MR (MapReduce).Os produtos de data warehouse Hive e Pig também podem ser usados.
  • Banco de dados Hbase para consulta em tempo real
  • Mineração de dados usando Mahout

1.5 Evolução da versão do Apache Hadoop

  • A versão Apache Hadoop é dividida em duas gerações, chamamos a primeira geração do Hadoop Hadoop 1.0 e a segunda geração do Hadoop de Hadoop 2.0.
    • A primeira geração do Hadoop incluiu três versões principais, nomeadamente 0.20.x, 0.21.x e 0.22.x. Entre elas, 0.20.x finalmente evoluiu para 1.0.x e tornou-se uma versão estável, enquanto 0.21.x e 0.22.x Novo recursos importantes, como NameNode HA, foram adicionados.
    • A segunda geração do Hadoop inclui duas versões, nomeadamente 0.23.x e 2.x. Elas são completamente diferentes do Hadoop 1.0 e são uma arquitetura completamente nova.
  • Hadoop 1.0 dois núcleos
    Insira a descrição da imagem aqui
  • Inclui duas partes de trabalho = processamento de dados + gerenciamento de recursos de cluster (CPU do cluster, alocação de memória)
  • Mudanças do Hadoop 1.0 para o Hadoop 2.0
    Insira a descrição da imagem aqui
  • O YARN também é responsável pelo agendamento de recursos da computação de fluxo.
    Insira a descrição da imagem aqui
  • A computação em lote é baseada no YARN e o YARN realiza o agendamento de recursos.
    Insira a descrição da imagem aqui

1.6 Várias versões do Hadoop (produtos de desenvolvimento empresarial)

Insira a descrição da imagem aqui

2.Estrutura do projeto Hadoop

Insira a descrição da imagem aqui
Insira a descrição da imagem aqui

Acho que você gosta

Origin blog.csdn.net/m0_63853448/article/details/126647762
Recomendado
Clasificación