Tecnología y arquitectura de Big Data: (2) Arquitectura de procesamiento de Big Data Hadoop (Parte 1)

1.Descripción general de Hadoop

1.1Introducción a Hadoop

  • Hadoop es una plataforma informática distribuida de código abierto bajo la Apache [ pætʃi] Software Foundation, que
    proporciona a los usuariosLos detalles subyacentes del sistema son transparentes.deInfraestructura distribuida
    Insertar descripción de la imagen aquí
  • Hadoop se desarrolla en base al lenguaje Java, tiene buenas características multiplataforma y se puede implementar en grupos de computadoras económicos.
  • Hadoop puede admitir múltiples lenguajes de programación, como C, C++, Java y Python.
    Insertar descripción de la imagen aquí
  • Hadoop = HDFS (almacenamiento) + MapReduce (cálculo)
    Insertar descripción de la imagen aquí

1.2 Breve historia del desarrollo de Hadoop

  • FundadorDoug Cutting
    Insertar descripción de la imagen aquí
  • Nutch es un motor de búsqueda de código abierto implementado en Java. Proporciona todas las herramientas que necesitamos para ejecutar nuestro propio motor de búsqueda. Incluye búsqueda de texto completo y rastreo web.
  • En 2003, Google lanzó el sistema de archivos distribuido GFS (Google File System).
  • En 2004, el proyecto Nutch también imitó a GFS y desarrolló su propio sistema de archivos distribuido NDFS (Nutch Distributed File System), que es el predecesor de HDFS.
    Insertar descripción de la imagen aquí
  • En 2004, Google lanzó MapReduce, un marco de programación paralelo distribuido.
  • En febrero de 2006, NDFS y MapReduce en Nutch comenzaron a independizarse
    y se convirtieron en un subproyecto del proyecto Lucene, llamado Hadoop.
  • En enero de 2008, Hadoop se convirtió oficialmente en un proyecto de alto nivel de Apache.
  • La historia de la fama de Hadoop: en abril de 2008, Hadoop rompió el récord mundial y se convirtió en el sistema más rápido
    para clasificar 1 TB de datos. Utilizaba un grupo de 910 nodos para realizar operaciones y el tiempo de clasificación
    tomó solo 209 segundos.
  • En mayo de 2009, Hadoop incluso acortó el tiempo de clasificación de datos de 1 TB a 62 segundos. Desde entonces, Hadoop
    se ha hecho famoso y se ha convertido rápidamente en la plataforma de desarrollo distribuido de código abierto más influyente en la era del big data
    , y se ha convertido en el estándar de facto para el procesamiento de big data.

1.3 Características de Hadoop

Hadoop es un marco de software que puede realizar el procesamiento distribuido de grandes cantidades de datos de manera confiable, eficiente y escalable. Tiene las siguientes características:

  • Alta confiabilidad:
    varias máquinas forman un clúster. Si algunas fallan, las máquinas restantes pueden continuar brindando servicios al mundo exterior.
  • Eficiencia:
    cientos o miles de máquinas calculan juntas
  • Alta escalabilidad:
    las máquinas se pueden agregar continuamente al clúster
  • Alta tolerancia a fallas
    Cuando los datos se envían a un solo nodo, los datos también se replican a otros nodos en el clúster, lo que significa que si ocurre una falla, hay otra copia disponible.
  • Hadoop de bajo costo
    utiliza máquinas ordinarias y baratas para formar un grupo de servidores para distribuir y procesar datos, por lo que el costo es muy bajo.
  • Se ejecuta en la plataforma Linux
  • Admite múltiples lenguajes de programación

1.4 Estado actual de la aplicación de Hadoop

  • Con sus destacadas ventajas, Hadoop se ha utilizado ampliamente en diversos campos y el campo de Internet es su principal área de aplicación.
  • Como sitio de redes sociales de renombre mundial, Facebook utiliza principalmente la plataforma Hadoop para el procesamiento de registros, sistemas de recomendación y almacenes de datos.
  • Las empresas nacionales que utilizan Hadoop incluyen principalmente Baidu, Taobao, NetEase, Huawei, China Mobile, etc. Entre ellas, el clúster Hadoop de Taobao es relativamente grande.

Insertar descripción de la imagen aquí

  • Las aplicaciones relacionadas con Hadoop admiten 3 tipos de aplicaciones de capa superior
  • Los diferentes componentes de Hadoop permiten diferentes análisis empresariales
  • El HDFS de nivel más bajo satisface las necesidades de grandes cantidades de almacenamiento de datos en las empresas.
  • Analizar después del almacenamiento:
  • El análisis fuera de línea puede realizar procesamiento por lotes de datos, como MR (MapReduce), y también se pueden utilizar los productos de almacenamiento de datos Hive y Pig.
  • Base de datos Hbase para consultas en tiempo real
  • Minería de datos usando Mahout

1.5 Evolución de la versión de Apache Hadoop

  • La versión de Apache Hadoop se divide en dos generaciones: llamamos a la primera generación de Hadoop Hadoop 1.0 y a la segunda generación de Hadoop como Hadoop 2.0.
    • La primera generación de Hadoop incluía tres versiones principales, a saber, 0.20.x, 0.21.x y 0.22.x. Entre ellas, 0.20.x finalmente evolucionó a 1.0.x y se convirtió en una versión estable, mientras que 0.21.xy 0.22.x eran nuevas. Se han agregado características importantes como NameNode HA.
    • La segunda generación de Hadoop incluye dos versiones, 0.23.xy 2.x, que son completamente diferentes de Hadoop 1.0 y tienen una arquitectura completamente nueva.
  • Hadoop 1.0 dos núcleos
    Insertar descripción de la imagen aquí
  • Incluye dos partes de trabajo = procesamiento de datos + gestión de recursos del clúster (CPU del clúster, asignación de memoria)
  • Cambios de Hadoop 1.0 a Hadoop 2.0
    Insertar descripción de la imagen aquí
  • YARN también es responsable de la programación de recursos de la computación en flujo.
    Insertar descripción de la imagen aquí
  • La computación por lotes se basa en YARN y YARN realiza la programación de recursos.
    Insertar descripción de la imagen aquí

1.6 Varias versiones de Hadoop (productos de desarrollo empresarial)

Insertar descripción de la imagen aquí

2.Estructura del proyecto Hadoop

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/m0_63853448/article/details/126647762
Recomendado
Clasificación