Uso básico de la biblioteca de recursos ETL

1. Metadatos

1. El concepto general de metadatos: "datos descriptivos" o "datos de datos".

Metadatos de ETL: Describe las tareas a realizar por ETL.

Cómo almacenar metadatos en Kettle:

  1. Biblioteca de recursos : la biblioteca de recursos incluye una biblioteca de recursos de archivos y una biblioteca de recursos de bases de datos. Después de Kettle 4.0, el tipo de biblioteca de recursos se puede ampliar mediante complementos
  2. Archivo XML : el nodo raíz del XML del archivo de transformación .ktr debe ser < transformación >. El nodo raíz del XML del trabajo kjb es < trabajo >

2. Biblioteca de recursos

Sin utilizar la biblioteca de recursos, se puede guardar directamente como un archivo ktr o kjb.

2.1 Biblioteca de recursos de datos

Serialice los metadatos de Kettle en la base de datos. Por ejemplo, la tabla R _TRANSFORMATION guarda el nombre, descripción y otros atributos de la transformación de Kettle. Cree y actualice la biblioteca de recursos de la base de datos en Spoon.

2.2 Biblioteca de recursos de archivos

Encapsulación basada en archivos, implementa la interfaz org.pentaho.di.repository.Repository. Es el tipo de biblioteca de recursos agregada en Kettle 4.0 o posterior.

2.3 Cómo elegir una biblioteca de recursos

Desventajas de la biblioteca de recursos de la base de datos :

  1. No se pueden almacenar varias versiones de conversiones o trabajos.
  2. Confíe en gran medida en el mecanismo de bloqueo de la base de datos para evitar la pérdida de trabajo
  3. Sin considerar el desarrollo en equipo, los desarrolladores no pueden bloquear un trabajo para desarrollar por sí mismos

Desventajas de la biblioteca de recursos de archivos :

  1. La relación entre los objetos (como conversiones, trabajos, conexiones a bases de datos, etc.) es difícil de manejar, por lo que operaciones como la eliminación y el cambio de nombre serán más problemáticas.
  2. Sin historial de versiones
  3. Difícil para el desarrollo del equipo

No utilice la biblioteca de recursos : utilice svn para el control de la versión del archivo.

3. Uso de la biblioteca de recursos de Kettle

3.1 Biblioteca de recursos de datos de Kettle

3.1.1 Crear biblioteca de recursos de datos

Crea un repositorio de base de datos

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

Configurar la conexión de la fuente de datos

Hacer clic para probar informará un error: Driver class 'oracle.jdbc.driver.OracleDriver' could not be found, make sure the 'Oracle' driver (jar file) is installed. oracle.jdbc.driver.OracleDriver

La conexión de datos Mysql no tiene este problema. La conexión de la base de datos de Oracle es necesario que haya una ojdbc6.jarcopia y pegado de Oracle en el directorio del libdirectorio ETL . Después del reinicio.

Inserte la descripción de la imagen aquí

Haga clic en Finalizar después de reiniciar.

Inserte la descripción de la imagen aquí

El último paso es conectarse. La base de datos es mejor para crear una nueva, porque esta biblioteca es una biblioteca de recursos independiente para hervidor. La contraseña de la cuenta es la predeterminada admin.

Inserte la descripción de la imagen aquí

Inserte la descripción de la imagen aquí

Verifique la base de datos y descubra que habrá algunas tablas que se han creado.

Inserte la descripción de la imagen aquí

3.1.2 Desconectar, modificar, eliminar, etc. de la biblioteca de recursos de datos

Inserte la descripción de la imagen aquí

Inserte la descripción de la imagen aquí

3.1.3 Agregar conversión, guardar y exportar a la biblioteca de recursos de datos

Agregar conversión

Inserte la descripción de la imagen aquí

Salvar: Ctrl + S

Inserte la descripción de la imagen aquí

Ver

Inserte la descripción de la imagen aquí

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

Importar y exportar

Inserte la descripción de la imagen aquí

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

Después de preguntar si desea agregar reglas, NO se puede exportar.

Inserte la descripción de la imagen aquí

3.2 Biblioteca de recursos de archivos Kettle

El proceso es más simple que el repositorio de datos y la mayoría de las operaciones son similares.

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

Se puede hacer directamente, no hay usuario ni contraseña.

Inserte la descripción de la imagen aquí

4. Biblioteca de recursos de gestión

Varias etapas del desarrollo de ETL : desarrollo, pruebas, validación y lanzamiento.

Biblioteca de recursos correspondiente a cada etapa : biblioteca de recursos de desarrollo, biblioteca de recursos de prueba (confirmación), recurso de liberación.

Avanzar en varias etapas :

  1. Desde la biblioteca de recursos de desarrollo a la biblioteca de recursos de prueba:
    1.1 Preste atención a las reglas de nomenclatura
    1.2 Liberación por una persona para evitar conflictos
    1.3 Dos métodos de trasplante: desconectar y volver a conectar, exportar / importar
  2. Del repositorio de prueba (confirmación) al repositorio de lanzamiento: exportar / importar

No utilice la biblioteca de recursos : control de versiones SVN, etiquetado de prueba, rama de lanzamiento y compilación.

5. Parametrización

Por qué la parametrización : cuando se migran trabajos entre bibliotecas de recursos, debido a que el entorno de cada etapa es diferente, los metadatos, como las conexiones de base de datos que se utilizan en el trabajo, no se pueden codificar.

Varios métodos de parametrización : El kettle.propertiesarchivo se encuentra en el directorio user.home de java , el archivo de propiedades personalizadas se lee a través del paso de entrada del archivo de propiedades Utilice la tabla de parámetros .

¿Cómo sé java el directorio user.home? Ingrese lo siguiente para crear un contenido de archivo java.

public class PrintUserHome {
    
    
	public static void main(String[] args) {
    
    
		System.out.println(System.getProperty("user.home"));
	}
}

Ejecute la siguiente declaración en cmd

javac PrintUserHome.java
java PrintUserHome

Inserte la descripción de la imagen aquí

La estructura de la tabla de parámetros :

Environment	parameter_name	parameter_value	valid_from	valid_to
Dev	host_name	localhost	2011-01-01	2099-01-01
Test	host_name	192.168.12.10	2011-01-01	2013-05-01
Test	host_name	192.168.12.11	2011-05-02	2099-01-01

Significado :

  1. Medio Ambiente :. Medio Ambiente Por ejemplo: Dev entorno de desarrollo, prueba entorno de prueba.
  2. nombre_parámetro : Los parámetros correspondientes a diferentes entornos, por ejemplo: nombre_host host.
  3. parámetro_value : El valor del parámetro correspondiente a diferentes entornos.
  4. valid_from : El tiempo válido de los parámetros y los valores de los parámetros correspondientes a diferentes entornos.
  5. valid_to : Parámetros y plazos de valor de los parámetros correspondientes a diferentes entornos.

Supongo que te gusta

Origin blog.csdn.net/YKenan/article/details/112406203
Recomendado
Clasificación