Hadoop aprendiendo uno (primera comprensión de big data)

Tabla de contenido

1 ¿Qué son los grandes datos?

Dos características del big data

Tres computación distribuida

4 ¿Qué es Hadoop?

Cinco desarrollos y versiones de Hadoop

Seis ¿Por qué utilizar Hadoop?

七 Hadoop frente a RDBMS

Ocho ecosistemas de Hadoop

Nueve arquitectura Hadoop 


1 ¿Qué son los grandes datos?

Big data se refiere a la recopilación de datos cuyo contenido no puede ser capturado, gestionado y procesado por herramientas de software convencionales dentro de un período de tiempo determinado.

Problemas que debe resolver la tecnología big data: almacenamiento masivo de datos y computación masiva de datos

 

Dos características del big data

  • Característica de 4V
    • Volumen (gran cantidad de datos): el 90% de los datos se generaron en los últimos dos años
    • Velocidad (rápida): la tasa de crecimiento de los datos es rápida,
    • Alta puntualidad Variedad (diversificación): los tipos de datos y las fuentes están diversificados Datos estructurados (como datos tabulares), datos semiestructurados (como json), datos no estructurados (como información de registro)
    • Valor (densidad de valor baja): necesidad de extraer para obtener valor de datos
  • característica inherente
    • Oportunidad
    • inmutabilidad

Tres computación distribuida

La computación distribuida divide datos más grandes en partes más pequeñas para su procesamiento.

computación distribuida tradicional

La nueva informática distribuida - Hadoop

Cálculo

Copiar datos para calcular nodos

Computación en paralelo en diferentes nodos de datos

La cantidad de datos que se pueden procesar.

pequeña cantidad de datos

Gran cantidad de datos

límite de rendimiento de la CPU

Altamente limitado por la CPU

Limitado por un solo dispositivo

Mejorar la potencia informática

Mejorar la potencia informática de una sola máquina

Escalar clústeres de servidores de bajo costo

 

4 ¿Qué es Hadoop?

  • Hadoop es una arquitectura de sistema distribuido de código abierto que resuelve los problemas de almacenamiento masivo de datos y computación de datos masivos.
  • Arquitectura de elección para manejar cantidades masivas de datos
  • Complete tareas informáticas de big data muy rápidamente
  • Se ha convertido en un ecosistema Hadoop.

Cinco desarrollos y versiones de Hadoop

  •  Hadoop se originó a partir del motor de búsqueda Apache Nutch.
    • Fundador: Doug Cutting
    • 2004 - Versión inicial implementada
    • 2008: se convirtió en un proyecto de alto nivel de Apache
  • Distribución de Hadoop
    • Edición comunitaria: Apache Hadoop
    • Distribución de Cloudera: CDH
    • Distribución Hortonworks: HDP

Seis ¿Por qué utilizar Hadoop?

  • alta escalabilidad
    • Distribuya datos de tareas entre clústeres, expanda fácilmente miles de nodos
  • alta fiabilidad
    • La capa inferior de Hadoop mantiene múltiples copias de datos
  • alta tolerancia a fallas
    • El marco Hadoop puede reasignar automáticamente tareas fallidas
  • bajo costo
    • La arquitectura Hadoop permite la implementación en máquinas económicas
  • Flexible, puede almacenar cualquier tipo de datos.
  • Código abierto, comunidad activa

七 Hadoop frente a RDBMS

Comparación entre Hadoop y la base de datos relacional

RDBMS

Hadoop

Formato

requerido al escribir datos

requerido al leer datos

velocidad

leer datos rápido

escribir datos rápido

dato de governancia

estructura estándar

datos estructurados arbitrarios

procesamiento de datos

poder de procesamiento limitado

poderosa capacidad de procesamiento

tipo de datos

datos estructurados

estructurado, semiestructurado, no estructurado

Escenario de aplicación

Análisis OLAP interactivo

Procesamiento de transacciones ACID

sistema empresarial empresarial

Manejar datos no estructurados

Computación de almacenamiento masivo de datos

 

Ocho ecosistemas de Hadoop

 

Nueve arquitectura Hadoop 

  • HDFS (Sistema de archivos distribuido Hadoop)
    • Sistema de archivos distribuido, resolviendo el almacenamiento distribuido.
  • Mapa reducido
    • Marco de computación distribuida
  • HILO
    • Sistema de gestión de recursos distribuidos introducido en Hadoop 2.x
  • Común
    • Utilidades comunes que soportan todos los demás módulos.

     

Supongo que te gusta

Origin blog.csdn.net/jojo_oulaoula/article/details/132429748
Recomendado
Clasificación