Big Data básico: Hadoop Distributed System Introducción

Con el rápido desarrollo de, todo era de Internet cosas inteligentes, la cantidad de datos comenzó a aumentar, por un lado, tenemos que empezar a pensar acerca de cómo almacenar de manera eficiente y fiable grandes cantidades de datos, por otro lado también tenemos que analizar y procesar los datos para obtener más información valiosa. Esta vez tenemos que utilizar el Hadoop.

 

Fundación de Software Apache Hadoop es un código abierto distribuido plataforma para hdfs (Hadoop Distributed File System) de computación, MapReduce (Hadoop2.0 unió, hilo marco de la programación de recursos, capaz de las tareas de gestión y programación de grano fino, sino también para el apoyo otro marco computacional, tal como Spark) Hadoop núcleo del sistema proporciona al usuario los detalles de la infraestructura distribuida transparente subyacente. hdfs alta tolerancia a fallos, de alta capacidad de estiramiento, de alta eficiencia, etc. para que el usuario se puede implementar en hardware barato Hadoop, forman un sistema distribuido.

ecología hadoop

 

Además de Hadoop básica, Hadoop se ha desarrollado para tener un muy completo y un enorme ecosistema de código abierto: HDFS proporciona almacenamiento de archivos, gestión de los recursos del hilo, sobre esta base, se somete a varios tratamientos, incluyendo mapreduce, Tez, Sprak, tormenta, etc., para satisfacer las diferentes necesidades de los escenarios de uso de datos.

arquitectura HDFS

HDFS diagrama de la arquitectura

 

HDFS utilizando un modelo maestro-esclavo, un grupo HDFS consiste en un NameNode y varios DataNode, donde NameNode como el servidor maestro gestiona el espacio de nombres del sistema de archivos y la operación de acceso de cliente en el archivo y el almacenamiento de gestión de datos DataNode es responsable. HDFS datos subyacentes se corta en una pluralidad de Block, y después del bloque ha sido replicado almacenan en diferentes DataNode, para lograr el propósito de redundancia tolerante a fallos. Quiere aprender el sistema de grandes volúmenes de datos, puede unirse a la gran tecnología de datos de aprendizaje abotonada Junyang: 522 189 307

Mapa reducido

 

MapReduce es el núcleo del modelo de computación de Google, se ejecutará en paralelo de computación proceso complejo en el tamaño de racimo son muy proceso abstracto dos funciones: Mapa y reducir ( "mapa (Mapping)" y "Reducir (reducción)") . función al mapa pares de valores clave / como una entrada y genera otra serie de pares clave / valor escritas como la salida intermedia del disco local. marco MapReduce de agregar los datos automáticamente de acuerdo con el valor de la clave intermedia, y el valor de clave son los mismos datos para reducir el procesamiento de la función unificada. lugares y reducir tecla de función correspondiente a la lista como el valor de entrada, el valor del mismo valor después de la tecla de combinación, generando otro conjunto de pares clave / valor que el HDFS finales de salida de escritura.

Colmena y la diferencia hbase

 

En Hadoop ecología básica, hay dos componentes tienen que hablar de sus diferencias, que son la colmena y hbase. Colmena se basa en los datos de Hadoop herramientas de almacenamiento, puede asignar la estructura del archivo de datos a una tabla de base de datos, y proporciona una sencilla función de consulta SQL, puede convertir la instrucción SQL para ejecutar tareas de MapReduce. la base de datos Hadoop HBase es una, escalable, gran almacén de datos distribuida.

1.Hive sí mismo no calcular y almacenar los datos, y es totalmente dependiente de HDFS MapReduce, colmena tablas puramente lógicas. colmena necesidad de utilizar HDFS almacenar archivos, es necesario utilizar MapReduce plataforma de computación.

2.hive puede ser pensado como un mapa-a reducir el embalaje. significado de la colmena es escribir bien de la colmena SQL convierte en compleja y difícil de escribir mapa-reducir los programas.

3.hbase tabla física no es tabla lógica, una gran tabla hash de memoria, que se almacena en el índice del motor de búsqueda, consulta la operación fácil.

4.hbase puede ser considerado como un paquete de hdfs. Su almacenamiento de datos esencia, un nosql base de datos (no sólo sql); HBase despliega sobre HDFS, hdfs y supera las deficiencias en términos de acceso aleatorio.

Ha publicado 191 artículos originales · alabanza 3 Ganador · vistas 30000 +

Supongo que te gusta

Origin blog.csdn.net/mnbvxiaoxin/article/details/104999617
Recomendado
Clasificación