Curso de big data L4: procesamiento por lotes fuera de línea de proyectos de tráfico de sitios web de Hive

Correo electrónico del autor del artículo: [email protected] Dirección: Huizhou, Guangdong

 ▲ El programa de este capítulo

⚪ Domine los marcadores de posición y las llamadas de archivos de Hive para proyectos de tráfico de sitios web;

⚪ Domine el proceso de procesamiento por lotes fuera de línea de Hive de proyectos de tráfico de sitios web;

⚪ Domine las tareas programadas del proyecto de tráfico del sitio web y transforme el proceso de procesamiento fuera de línea de Hive;

1. Marcadores de posición de Hive y llamadas de archivos

1. Información general

Para el trabajo anterior, descubrimos que necesitamos escribir manualmente declaraciones hql para completar el ETL de los datos fuera de línea, pero obviamente es inapropiado hacerlo manualmente todos los días, por lo que podemos usar las llamadas a archivos y los marcadores de posición de Hive para resolver este problema.

2. Llamar a archivos de Hive

Pasos de implementación:

1. Escriba un archivo con el sufijo .hive.

Por ejemplo, creemos ahora un archivo 01.hive.

El propósito es crear una tabla tb1 en la base de datos del blog de Hive.

01.Ejemplo de escritura de archivos Hive:

utilizar blog;

crear tabla tb1 (id int, nombre cadena);

2. Ingrese el directorio bin del directorio de instalación de Hive.

Ejecutar: sh hive -f 01.hive

Nota: El parámetro -f va seguido de la ruta al archivo 01.hive.

3. Pruebe si la tabla de la colmena se creó correctamente.

3. Uso de marcadores de posición de Hive

Ahora queremos ejecutar el archivo a través de Hive y eliminar la tabla "tb1".

Entonces podemos hacer esto:

1. Cree el archivo 02.hive.

02.Ejemplo de escritura de archivos Hive:

utilizar un blog;

soltar tabla ${tb_name}

2. En el directorio bin, ejecute:

sh colmena -f 02.hive -d tb_name="tb1"

4. Combinado con la implementación empresarial.

Cuando Hive finalmente inserta datos, la partición que involucra un registro se basa en unidades diarias, por lo que debemos escribir manualmente esta fecha, como 2021-05-10.

Ahora, después de aprender sobre las llamadas a archivos de Hive y los marcadores de posición, podemos hacer esto:

1. Utilice marcadores de posición para representar los valores relacionados con la fecha en la declaración hql y escríbalos en el archivo weblog.hive.

Ejemplo de escritura del archivo weblog.hive :

utilizar blog;

insertar tabla de sobrescritura tongji 

seleccione ${reportTime},tab1.pv,tab2.uv,tab3.vv,tab4.br,tab5.newip,tab6.newcust,tab7.avgtime,tab8.avgdeep de

(seleccione count(*) como pv de dataclear donde reportTime = ${reportTime}) como tab1,

(seleccione count(uvid distinto) como uv de dataclear donde reportTime = ${reportTime}) como tab2,

(seleccione contar (ssid distinto) como vv de dataclear donde reportTime = ${reportTime}) como tab3,

(seleccione ronda(br_taba.a/br_tabb.b,4)como br

Guess you like

Origin blog.csdn.net/u013955758/article/details/132723527