Tabla de contenido
Dos características del big data
Cinco desarrollos y versiones de Hadoop
Seis ¿Por qué utilizar Hadoop?
1 ¿Qué son los grandes datos?
Big data se refiere a la recopilación de datos cuyo contenido no puede ser capturado, gestionado y procesado por herramientas de software convencionales dentro de un período de tiempo determinado.
Problemas que debe resolver la tecnología big data: almacenamiento masivo de datos y computación masiva de datos
Dos características del big data
- Característica de 4V
- Volumen (gran cantidad de datos): el 90% de los datos se generaron en los últimos dos años
- Velocidad (rápida): la tasa de crecimiento de los datos es rápida,
- Alta puntualidad Variedad (diversificación): los tipos de datos y las fuentes están diversificados Datos estructurados (como datos tabulares), datos semiestructurados (como json), datos no estructurados (como información de registro)
- Valor (densidad de valor baja): necesidad de extraer para obtener valor de datos
- característica inherente
- Oportunidad
- inmutabilidad
Tres computación distribuida
La computación distribuida divide datos más grandes en partes más pequeñas para su procesamiento.
computación distribuida tradicional |
La nueva informática distribuida - Hadoop |
|
Cálculo |
Copiar datos para calcular nodos |
Computación en paralelo en diferentes nodos de datos |
La cantidad de datos que se pueden procesar. |
pequeña cantidad de datos |
Gran cantidad de datos |
límite de rendimiento de la CPU |
Altamente limitado por la CPU |
Limitado por un solo dispositivo |
Mejorar la potencia informática |
Mejorar la potencia informática de una sola máquina |
Escalar clústeres de servidores de bajo costo |
4 ¿Qué es Hadoop?
- Hadoop es una arquitectura de sistema distribuido de código abierto que resuelve los problemas de almacenamiento masivo de datos y computación de datos masivos.
- Arquitectura de elección para manejar cantidades masivas de datos
- Complete tareas informáticas de big data muy rápidamente
- Se ha convertido en un ecosistema Hadoop.
Cinco desarrollos y versiones de Hadoop
- Hadoop se originó a partir del motor de búsqueda Apache Nutch.
- Fundador: Doug Cutting
- 2004 - Versión inicial implementada
- 2008: se convirtió en un proyecto de alto nivel de Apache
- Distribución de Hadoop
- Edición comunitaria: Apache Hadoop
- Distribución de Cloudera: CDH
- Distribución Hortonworks: HDP
Seis ¿Por qué utilizar Hadoop?
- alta escalabilidad
- Distribuya datos de tareas entre clústeres, expanda fácilmente miles de nodos
- alta fiabilidad
- La capa inferior de Hadoop mantiene múltiples copias de datos
- alta tolerancia a fallas
- El marco Hadoop puede reasignar automáticamente tareas fallidas
- bajo costo
- La arquitectura Hadoop permite la implementación en máquinas económicas
- Flexible, puede almacenar cualquier tipo de datos.
- Código abierto, comunidad activa
七 Hadoop frente a RDBMS
Comparación entre Hadoop y la base de datos relacional
RDBMS |
Hadoop |
|
Formato |
requerido al escribir datos |
requerido al leer datos |
velocidad |
leer datos rápido |
escribir datos rápido |
dato de governancia |
estructura estándar |
datos estructurados arbitrarios |
procesamiento de datos |
poder de procesamiento limitado |
poderosa capacidad de procesamiento |
tipo de datos |
datos estructurados |
estructurado, semiestructurado, no estructurado |
Escenario de aplicación |
Análisis OLAP interactivo Procesamiento de transacciones ACID sistema empresarial empresarial |
Manejar datos no estructurados Computación de almacenamiento masivo de datos |
Ocho ecosistemas de Hadoop
Nueve arquitectura Hadoop
- HDFS (Sistema de archivos distribuido Hadoop)
- Sistema de archivos distribuido, resolviendo el almacenamiento distribuido.
- Mapa reducido
- Marco de computación distribuida
- HILO
- Sistema de gestión de recursos distribuidos introducido en Hadoop 2.x
- Común
- Utilidades comunes que soportan todos los demás módulos.