CDH + Kylin Trilogy Part Three: Demo oficial de Kylin

Este artículo es la parte final de la serie "CDH + Kylin Trilogy", primero revise brevemente el contenido anterior:

  1. "CDH + Kylin Trilogy One: Preparación" : prepare la máquina, el script y el paquete de instalación;
  2. "CDH + Kylin Trilogy Part Two: Implementación y configuración" : Complete la implementación de CDH y Kylin, y realice las configuraciones relacionadas en la página de administración;

Ahora que Hadoop y Kylin están listos, practiquemos la demostración oficial de Kylin;

Ajuste de parámetros de hilo

Después de establecer los parámetros de memoria de Yarn, Yarn debe reiniciarse para que surta efecto; de lo contrario, las tareas enviadas por Kylin no se ejecutarán debido a limitaciones de recursos;

Acerca de la demostración oficial de Kylin

  1. La siguiente figura es parte del script de demostración oficial (create_sample_tables.sql), que crea una tabla Hive basada en datos HDFS:
    Inserte la descripción de la imagen aquí
  2. Se puede ver en el script que KYLIN_SALES es la tabla de hechos, el otro es la tabla de dimensiones, y KYLIN_ACCOUNT y KYLIN_COUNTRY están relacionados, por lo que el modelo de dimensión se ajusta al Esquema de copo de nieve;

Importar datos de muestra

  1. SSH al servidor CDH
  2. Cambiar a la cuenta hdfs: su-hdfs
  3. Ejecute el comando de importación: $ {KYLIN_HOME} /bin/sample.sh
  4. La importación es exitosa y la salida de la consola es la siguiente:
    Inserte la descripción de la imagen aquí

Verificar los datos

  1. Verifique los datos y ejecute Beeline para ingresar al modo de sesión ( Hive recomienda oficialmente usar Beeline en lugar de Hive CLI):
    Inserte la descripción de la imagen aquí
  2. En el modo de sesión beeline, ingrese la URL del enlace :! Connect jdbc: hive2: // localhost: 10000 , siga las instrucciones para ingresar los hdfs de la cuenta e ingrese la contraseña directamente:
    Inserte la descripción de la imagen aquí
  3. Use el comando show tables para ver la tabla de colmena actual, que se ha creado:
    Inserte la descripción de la imagen aquí
  4. Averiguar el orden de los tiempos más próximas y más, de vuelta cuando el cubo se utiliza para construir, ejecutar SQL: el min SELECT (PART_DT), máx (PART_DT) de kylin_sales; y visible primeros 2012-01-01 , la última 2014-01- 01 , la consulta completa tomó 18.87 segundos :
    Inserte la descripción de la imagen aquí

Construir cubo:

Una vez completada la preparación de datos, se puede construir el Cubo Kylin:

  1. Inicie sesión en la página web de Kylin: http://192.168.50.134:7070/kylin
  2. Cargue metadatos, como se muestra a continuación:
    Inserte la descripción de la imagen aquí
  3. Como se muestra en el cuadro rojo a continuación, los datos se cargan correctamente:
    Inserte la descripción de la imagen aquí
  4. Puede ver la tabla de hechos y la tabla de dimensiones en la página Modelo. Las operaciones en la siguiente figura pueden crear una tarea MapReduce y calcular la cardinalidad de cada columna de la tabla de dimensiones KYLIN_ACCOUNT:
    Inserte la descripción de la imagen aquí
  5. Vaya a la página Yarn (puerto 8088 del servidor CDH), como se muestra en la figura a continuación, puede ver que se está ejecutando una tarea de tipo MapReduce:
    Inserte la descripción de la imagen aquí
  6. La tarea anterior se puede completar pronto (más de 10 segundos). En este momento, actualice la página Kylin. Se puede ver que los datos de Cardinalidad de la tabla KYLIN_ACCOUNT se han calculado (el número de ACCOUNT_ID obtenidos por la consulta de la colmena es de 10000, pero el valor de Cardinalidad en la siguiente figura es 10420. El cálculo utiliza el algoritmo aproximado de HyperLogLog, que no es exacto con el valor exacto, y la cardinalidad de los otros cuatro campos es consistente con el resultado de la consulta de Hive):
    Inserte la descripción de la imagen aquí
  7. Luego, comienza a construir Cube:
    Inserte la descripción de la imagen aquí
  8. rango de fechas, justo Colmena resultado de la consulta 2012-01-01 a 01/01/2014 , nota que el plazo exceda 01/01/2014:
    Inserte la descripción de la imagen aquí
  9. El progreso se puede ver en la página Monitor:
    Inserte la descripción de la imagen aquí
  10. Vaya a la página Yarn (puerto 8088 del servidor CDH), puede ver las tareas correspondientes y el uso de recursos:
    Inserte la descripción de la imagen aquí
  11. Una vez completada la compilación, aparecerá el ícono listo:
    Inserte la descripción de la imagen aquí

Consultas

  1. Primero intente consultar el tiempo más temprano y más reciente de la transacción. El tiempo necesario para ejecutar esta consulta en Hive es de 18.87 segundos . Como se muestra en la figura a continuación, los resultados son consistentes y el tiempo es de 0.14 segundos :
    Inserte la descripción de la imagen aquí
  2. El siguiente SQL es un ejemplo oficial de Kylin que se usa para comparar el tiempo de respuesta.
select part_dt, sum(price) as total_sold, count(distinct seller_id) as sellers from kylin_sales group by part_dt order by part_dt;
  1. La consulta de Kylin tarda 0,13 segundos :
    Inserte la descripción de la imagen aquí
  2. Consulta de la colmena, el resultado es el mismo, tarda 40.196 segundos :
    Inserte la descripción de la imagen aquí
  3. Finalmente, echemos un vistazo al uso de los recursos. Durante la construcción del Cubo, se utilizan 18G de memoria:
    Inserte la descripción de la imagen aquí
    en este punto, CDH + Kylin se completa desde la implementación hasta la experiencia. La serie "CDH + Kylin Trilogy" también ha terminado. Espero que este artículo te pueda dar alguna referencia.

Bienvenido a prestar atención a mi número público: programador Xinchen

Inserte la descripción de la imagen aquí

376 artículos originales publicados · elogiados 986 · 1.28 millones de visitas

Supongo que te gusta

Origin blog.csdn.net/boling_cavalry/article/details/105450665
Recomendado
Clasificación