Uso básico de la biblioteca de recursos ETL
1. Metadatos
1. El concepto general de metadatos: "datos descriptivos" o "datos de datos".
Metadatos de ETL: Describe las tareas a realizar por ETL.
Cómo almacenar metadatos en Kettle:
- Biblioteca de recursos : la biblioteca de recursos incluye una biblioteca de recursos de archivos y una biblioteca de recursos de bases de datos. Después de Kettle 4.0, el tipo de biblioteca de recursos se puede ampliar mediante complementos
- Archivo XML : el nodo raíz del XML del archivo de transformación .ktr debe ser < transformación >. El nodo raíz del XML del trabajo kjb es < trabajo >
2. Biblioteca de recursos
Sin utilizar la biblioteca de recursos, se puede guardar directamente como un archivo ktr o kjb.
2.1 Biblioteca de recursos de datos
Serialice los metadatos de Kettle en la base de datos. Por ejemplo, la tabla R _TRANSFORMATION guarda el nombre, descripción y otros atributos de la transformación de Kettle. Cree y actualice la biblioteca de recursos de la base de datos en Spoon.
2.2 Biblioteca de recursos de archivos
Encapsulación basada en archivos, implementa la interfaz org.pentaho.di.repository.Repository. Es el tipo de biblioteca de recursos agregada en Kettle 4.0 o posterior.
2.3 Cómo elegir una biblioteca de recursos
Desventajas de la biblioteca de recursos de la base de datos :
- No se pueden almacenar varias versiones de conversiones o trabajos.
- Confíe en gran medida en el mecanismo de bloqueo de la base de datos para evitar la pérdida de trabajo
- Sin considerar el desarrollo en equipo, los desarrolladores no pueden bloquear un trabajo para desarrollar por sí mismos
Desventajas de la biblioteca de recursos de archivos :
- La relación entre los objetos (como conversiones, trabajos, conexiones a bases de datos, etc.) es difícil de manejar, por lo que operaciones como la eliminación y el cambio de nombre serán más problemáticas.
- Sin historial de versiones
- Difícil para el desarrollo del equipo
No utilice la biblioteca de recursos : utilice svn para el control de la versión del archivo.
3. Uso de la biblioteca de recursos de Kettle
3.1 Biblioteca de recursos de datos de Kettle
3.1.1 Crear biblioteca de recursos de datos
Crea un repositorio de base de datos
Configurar la conexión de la fuente de datos
Hacer clic para probar informará un error:
Driver class 'oracle.jdbc.driver.OracleDriver' could not be found, make sure the 'Oracle' driver (jar file) is installed. oracle.jdbc.driver.OracleDriver
La conexión de datos Mysql no tiene este problema. La conexión de la base de datos de Oracle es necesario que haya una
ojdbc6.jar
copia y pegado de Oracle en el directorio dellib
directorio ETL . Después del reinicio.
Haga clic en Finalizar después de reiniciar.
El último paso es conectarse. La base de datos es mejor para crear una nueva, porque esta biblioteca es una biblioteca de recursos independiente para hervidor. La contraseña de la cuenta es la predeterminada
admin
.
Verifique la base de datos y descubra que habrá algunas tablas que se han creado.
3.1.2 Desconectar, modificar, eliminar, etc. de la biblioteca de recursos de datos
3.1.3 Agregar conversión, guardar y exportar a la biblioteca de recursos de datos
Agregar conversión
Salvar:
Ctrl + S
Ver
Importar y exportar
Después de preguntar si desea agregar reglas, NO se puede exportar.
3.2 Biblioteca de recursos de archivos Kettle
El proceso es más simple que el repositorio de datos y la mayoría de las operaciones son similares.
Se puede hacer directamente, no hay usuario ni contraseña.
4. Biblioteca de recursos de gestión
Varias etapas del desarrollo de ETL : desarrollo, pruebas, validación y lanzamiento.
Biblioteca de recursos correspondiente a cada etapa : biblioteca de recursos de desarrollo, biblioteca de recursos de prueba (confirmación), recurso de liberación.
Avanzar en varias etapas :
- Desde la biblioteca de recursos de desarrollo a la biblioteca de recursos de prueba:
1.1 Preste atención a las reglas de nomenclatura
1.2 Liberación por una persona para evitar conflictos
1.3 Dos métodos de trasplante: desconectar y volver a conectar, exportar / importar- Del repositorio de prueba (confirmación) al repositorio de lanzamiento: exportar / importar
No utilice la biblioteca de recursos : control de versiones SVN, etiquetado de prueba, rama de lanzamiento y compilación.
5. Parametrización
Por qué la parametrización : cuando se migran trabajos entre bibliotecas de recursos, debido a que el entorno de cada etapa es diferente, los metadatos, como las conexiones de base de datos que se utilizan en el trabajo, no se pueden codificar.
Varios métodos de parametrización : El
kettle.properties
archivo se encuentra en el directorio user.home de java , el archivo de propiedades personalizadas se lee a través del paso de entrada del archivo de propiedades Utilice la tabla de parámetros .
¿Cómo sé java el directorio user.home? Ingrese lo siguiente para crear un contenido de archivo java.
public class PrintUserHome {
public static void main(String[] args) {
System.out.println(System.getProperty("user.home"));
}
}
Ejecute la siguiente declaración en cmd
javac PrintUserHome.java
java PrintUserHome
La estructura de la tabla de parámetros :
Environment parameter_name parameter_value valid_from valid_to
Dev host_name localhost 2011-01-01 2099-01-01
Test host_name 192.168.12.10 2011-01-01 2013-05-01
Test host_name 192.168.12.11 2011-05-02 2099-01-01
Significado :
- Medio Ambiente :. Medio Ambiente Por ejemplo: Dev entorno de desarrollo, prueba entorno de prueba.
- nombre_parámetro : Los parámetros correspondientes a diferentes entornos, por ejemplo: nombre_host host.
- parámetro_value : El valor del parámetro correspondiente a diferentes entornos.
- valid_from : El tiempo válido de los parámetros y los valores de los parámetros correspondientes a diferentes entornos.
- valid_to : Parámetros y plazos de valor de los parámetros correspondientes a diferentes entornos.