ETL-Hervidor notas de estudio (Introducción, Introducción, operación simple)

Hervidor: Introducción
ETL: Introducción
ETL (Extract-Transform-Load siglas, que la extracción de datos, transformación, procedimiento de carga), para aplicaciones de negocios o industriales, que a menudo se encuentran una variedad de procesamiento de datos, la conversión, la migración, Por lo tanto, para entender y dominar el uso de una herramienta ETL, esencial, la caldera es una potente herramienta de ETL.
Hervidor de agua: concepto

Hervidor de agua es una herramienta ETL de código abierto extranjera, escrito en Java puro, se ejecuta en la ventana, Linux, Unix, verde y sin tener que instalar, extracción de datos altamente eficiente y estable.

nombre de la caldera caldera china se llama, programador principal del proyecto MATE quiere poner todo tipo de datos en una olla, y luego en un formato especificado.

El conjunto de herramientas ETL caldera que le permite gestionar los datos de diferentes bases de datos, es descrito por proporcionar un entorno gráfico de usuario que desea hacer, no lo que quiere hacer.

Hervidor de agua, no hay dos archivos de script, transformación (.ktr) y de trabajo (.kjb), la transformación de base completa para la conversión de los datos, el trabajo es el control completo de todo el flujo de trabajo.

Hervidor: cuatro familias (componentes básicos)

Chef (en chino: chef), cocina (en chino: cocina), Cuchara (chino: una cuchara), Pan (China: panorámica)

chef, herramienta de trabajo (trabajo) de diseño (modo de interfaz gráfica de usuario).

Cocina-trabajo (trabajo) actuador (línea de comandos).

Cuchara herramienta convert (transformar) diseño (modo de interfaz gráfica de usuario).

conversión pan- (Transform) la (línea de comandos) del actuador.

Trabajo y la diferencia de la transformación: Transformación centran en los datos ETL, y el trabajo de un alcance más amplio, transformación puede ser, puede ser correo, SQL, Shell, FTP, e incluso puede ser otro trabajo.

Hervidor de agua: modelo conceptual

ejecución hervidor de agua se divide en dos niveles: Trabajo y Transformación. Los dos niveles de los más importantes es entregar y datos de modo de operación

1.Transformation: definir un recipiente para la manipulación de datos, los datos de los datos de operación es entrada a la salida de un proceso puede ser entendido como el tamaño de partícula del recipiente es menor que el nivel de empleo, descomponemos tareas en Job, y luego que romper en un trabajo o más de Transformación, cada transformación completa sólo una parte del trabajo.

(Operación definida en el contenedor de datos, los datos de operación se introduce en un proceso de salida de datos, el trabajo se puede entender como un tamaño de partícula más pequeño que un contenedor, descomponemos la tarea en el trabajo, entonces las necesidades de trabajo a ser divididas en una o más conversión, cada conversión es sólo una parte completa del trabajo.

)
2.Step: es el interior Transformación unidad mínima, cada uno de Paso realizar una función específica.
3.Job: La transformación es responsable de la organización juntos y luego completar un trabajo, por lo general necesitan una gran tarea en varios aislamiento lógico en el trabajo, trabajo Cuando éstos han concluido, significa que esta tarea se ha completado a.

(Responsable de las organizaciones [de conversión] juntos y luego completar una pieza de trabajo, por lo general hay que poner una gran tarea en varios aislamiento lógico en el trabajo, cuando se han completado estas operaciones, significa que la tarea completada .

)

4.Job Entrada: unidad de ejecución trabajo de introducción de Trabajo es interna, para cada uno de la función específica de trabajo de introducción, como por ejemplo: la autenticación existe tabla de envío de correo. Job puede ser realizado por otro puesto de trabajo o de transformación, que se puede utilizar como Transformación y entrada de trabajo de Job.
5.Hop: para conectar el paso de transformación, o en conexión de entrada de trabajo de empleo, es una representación gráfica de un flujo de datos.

En la caldera en JobEntry trabajo se ejecuta en serie, debe tener un JobEntry Iniciar trabajo de; en la transformación Paso se ejecutan en paralelo.

Hervidor de agua: archivo de catálogo

Hervidor de agua: el despliegue
instalar JDK:

Debido a que la caldera es un desarrollo del lenguaje Java, el software permite confiar entorno de ejecución de Java, es necesario instalar el JDK, listo para ejecutar el entorno.

Configuración variable de entorno:

directorio de instalación de JDK: JAVA_HOME

KETTLE_HOME: directorio de caldera de descompresión

Hervidor: la interfaz gráfica

Hervidor de agua: los conceptos básicos
de programación visual:

Hervidor de agua puede ser clasificado como un lenguaje de programación visual (Visula Lenguajes de Programación), que puede ser utilizado como caldera definir gráficamente ETL complejo y flujo de trabajo.

Hervidor de agua en la figura es la conversión y el empleo

programación visual ha sido el concepto de la base Caldera, se puede construir rápidamente complejos trabajos de ETL y reducir la carga de trabajo de mantenimiento. Es ocultando una gran cantidad de detalles técnicos para que el campo de TI más cerca del mundo de los negocios.

conversión:

Conversión (transformación) es la parte más importante de la solución ETL que los mangos de la extracción, la transformación, la carga de diversas operaciones en las líneas de datos.

Contiene uno o más paso de conversión (PASO), tales como leer el archivo, el filtrado de línea de datos, limpieza de datos, o para cargar datos en la base de datos.

En la etapa de conversión se lleva a cabo por hop (salto) están conectados, se define un único canal de salto permite que los datos fluyen desde un paso a otro paso.

En Hervidor de agua, la unidad de datos es una fila, la línea de datos es la corriente de datos a partir de una etapa de movimiento a otro paso.

A veces se refiere a la corriente como un flujo de datos se registra

pasos paso:
Paso (Control) es un componente esencial en la conversión.

Un paso tiene las siguientes características principales pasos:
Paso necesidad de tener el mismo nombre, el nombre es único en el ámbito de la conversión
de cada paso va a leer y líneas de datos de escritura (la única excepción es el paso "generación de registros" de sólo escritura de datos)
de datos de salida paso de escritura a uno o salto más asociada, el otro extremo del salto paso transmitida a continuación
la mayor parte de los pasos puede tener una pluralidad de salida hop. Un paso de transmisión de datos puede ajustarse a la distribución y la copia, la distribución es a su vez recibida por la etapa de grabación de destino, la copia de todos los registros se envían simultáneamente a todas las etapas de destino.
Salto:
Jump está conectando con la flecha entre la etapa, la ruta de datos se define antes de la etapa de salto

Hop realidad tampón de línea de datos (el tamaño del juego de líneas se puede definir en la configuración de la conversión) se llama el conjunto de línea entre los dos pasos

Cuando el conjunto de filas, los pasos a los datos de escritura en el conjunto de líneas se detendrá la escritura hasta que otro espacio fila.

Cuando la fila de datos está vacía, la etapa de lectura de la lectura parada conjunto de filas hasta que otro conjunto de filas en la fila de datos legible.

Filas - Tipo de datos:
datos de la forma de filas se mueven a lo largo del paso, cero o más campos de datos de un conjunto de hilera, tipos de campo incluyen los siguientes.

Cuerda: Carácter Tipo de datos
Número: punto flotante de doble precisión
Entero: entero largo sin signo (64 bits)
bignumber: datos de precisión arbitraria
Fecha: La fecha de valor del tiempo de precisión de milisegundos
de Boole: el valor de los valores booleanos verdadero y falso
binario: campo binario puede contener imágenes, sonido, vídeo y otros tipos de datos binarios
filas de datos - metadatos:
cada paso para tener una descripción de los campos en la línea de datos de salida, que es meta datos que describen líneas de datos.

Incluye algunos de los siguientes datos.

Nombre: línea en el nombre del campo debe ser único
tipo de datos: tipo de datos de campo de los
formatos: se muestran los datos modo, tales como entero de # 0,00.
Longitud: longitud de cuerda o bignumber
exactitud: bignumber precisión decimal tipo de
símbolo de moneda: ¥
notación decimal: datos de formato de punto decimal. Bajo los símbolos decimales de diferentes culturas son diferentes, por lo general (.) O (,).
Agrupación Símbolo: datos por paquetes símbolo de tipo numérico, diferentes antecedentes culturales son diferentes símbolo de agrupación, generalmente punto, una coma (,), comilla simple ( ') (.).
Paralelas:
saltar esta basado en la línea de caché de ensamblados reglas permiten cada paso es un hilo independiente para ejecutar, de manera que el más alto grado de concurrencia. Esta regla también permite que los datos con el fin de reducir al mínimo el consumo de memoria de procesamiento de flujo de datos. biblioteca de los datos de fábrica en la forma en que tratan a menudo con grandes cantidades de datos, por lo que esto se complica por el bajo consumo de memoria de núcleo necesita herramienta ETL.

Hervidor para la conversión, no es posible definir un orden de ejecución, ya que todos los pasos se realizan de una manera concurrente: Cuando se inicia la conversión, todos los pasos se inician simultáneamente. Y leían en el salto en la entrada de datos y envía los datos procesados ​​se escribe en el salto de entrada en, salto sabe que hay datos de entrada no más, a cargo de abortar el procedimiento, cuando se suspenden todas las medidas, se suspendió la conversión completa ( el orden de ejecución de los datos de flujo a separar, ya que están operando en paralelo).

controles de entrada de la caldera

(A) de entrada XML :( una fecha del -get control XML)
del XML: XML es Extensible Markup Language, XML está diseñado para transmitir y almacenar datos (tenemos a los datos XML analizan en el uso de XPath.

)

XPath: lenguaje XPath es camino de XML, que es un lenguaje para determinar la posición de las piezas determinado documento XML.

estructura de árbol XML XPath-basa, proporcionando la capacidad de encontrar un nodo en el árbol de datos.

Xpath- sintaxis:

Selección de trazados utilizando nodo expresión XPath en el nodo seleccionado en XML. Nodo a lo largo del camino, o por paso

Ser seleccionado.

expresión

descripción

nombre del nodo

Seleccione este nodo a todos los nodos

/

A partir de la raíz seleccionada

//

Seleccione el nodo actual en los partidos de documentos del nodo seleccionado de su posición abierta y sin

.

Seleccione el nodo actual

...

Seleccione el padre del nodo actual

@

seleccione Propiedades

Ejemplo:

expresión de ruta

resultado

librería

Seleccione todos los nodos secundarios del elemento de librería

/librería

Seleccione la librería elemento raíz

Comentario: Añadir aperturas de ruta con una barra inclinada (/), entonces este camino es siempre representativa de la ruta absoluta a un elemento de

librería / libro

Todos los elementos de libro seleccionado sub-elementos que pertenecen a la librería

//libro

Seleccionar todos los elementos del libro de niños, independientemente de su posición en el documento

// librería libro

Seleccione el fondo pertenece al elemento de librería del libro todos los elementos, independientemente de su ubicación y cualquier librería situada en

// @ lang

Seleccionar toda la propiedad denominada lang

Ejemplo:

Obtener el archivo XML a través de controles de entrada Obtener datos de XML

camino de ciclo de lectura de direcciones

Los parámetros de configuración

exportación

(Ii) la entrada JSON
JSON (JavaScript Object Notation) es un formato de intercambio de datos ligera

El concepto básico de JSON: un conjunto de propiedades de los objetos

Matriz: []

Objeto: {}

Propiedades: clave: valor

JSONPath:

JSONPath posicionada de manera similar en el documento XML XPath, la expresión JsonPath se utiliza generalmente para la búsqueda de ruta o conjunto de JSON.

Cuya expresión es el formato (notación soporte emitido) aceptable "datos-notación" (dot grasa notación) y "soporte de la notación"

Registro y Punto: $ store.book [0] .title.

soporte de la notación de pelo: $ [ 'tienda'] [ 'libro'] [0] [ 'titulo']

JSONPath operador:

símbolo

descripción

PS

Root objeto de consulta, JSON utiliza para representar una matriz de datos o una lata objeto

@

Afirma filtro (predicado de filtro) de la procesamiento de objetos nodo actual, similar en este campo java

Comodín puede representar un nombre o número

...

Puede ser entendida como una búsqueda recursiva, Deep scan.Available en cualquier lugar se requiere un nombre

.

Representa un nodo hijo

[ '<Nombre> (, '<nombre'>')]

Se representa uno o más nodos secundarios

[(,)]

Representa una o más subíndice de matriz

[inicio fin]

la sección matriz, intervalo [principio, fin], no incluye fines

[? ()]

expresión de filtro, la expresión debe ser un resultado booleano

Ejemplo:

Ejemplo:

Obtener JSON Js almacenamiento de archivos, y agregó que "los archivos seleccionados"

El nombre puede ser fácilmente definido, pero camino inverso al partido

datos de salida JSON

Salida de
salida se transforma dentro de la L segunda clasificación perteneciente ETL obtenido, L es la carga (carga de los datos de clase).

(A) Tabla de salida
primero Añadir un datos de Excel, y adquiere información de campo

Crear una conexión de base de datos, el acceso a la tabla de información.

comienzo

Conversión (enfoque)
de concatenación campos (controles) que se conectan múltiples campos de la formación de un nuevo campo.

Valor Mapping (control) es el valor de un campo asignado a otros valores.

aumento constante (control) es la adición de un conjunto de datos en el flujo de datos en sí, esta columna es el mismo valor de datos.

El aumento de secuencia (control) se añade a la corriente de un campo de secuencia.

Selección de campos (control) se selecciona de un campo en el flujo de datos, el cambio de nombre, modificar el tipo de datos.

Calculadora (Control) es una función de los nuevos campos para crear una colección, también se puede establecer si el campo se elimina (ámbito temporal).

Corte de campo de flujo de cizallamiento especificado corte v posición de entrada de cadena (control) de barras de un nuevo campo.

la manipulación de cadenas (control) eliminación de los extremos de cuerda y el caso de conmutación espacial y generar un nuevo campo.

sustitución de cadenas (control), y especificar si la búsqueda es para reemplazar el contenido, si el contenido del campo de búsqueda coincide con el flujo de entrada para generar un nuevo campo para ser sustituido.

flujo de datos duplicados Extracción (control) que se retira la misma línea de datos (antes de realizar la operación de clasificación avanzada).

Ordenar registros (controles) son ordenados según ascendente y campos de datos corriente descendente especificados.

La única línea (valor hash) (control) es eliminar la duplicación de datos de flujo de línea (Nota: la única línea (valor hash) y (registros ordenar + eliminar registros duplicados) efecto es el mismo, pero la realización del principio no es lo mismo).

campos Split (control) El campo se divide en dos o más campos en conformidad con los separadores.

Columna se divide en varias filas (control) es el campo de división delimitador señalado en varias líneas.

interruptor de columna (control) es, si una de datos tiene el mismo valor, de acuerdo con el campo especificado, los datos de múltiples líneas en datos de línea de la eliminación de algunos de los nombre de la columna original, una columna de datos en el campo. (Flujo de datos antes de la clasificación interruptor de la columna)

columna de transferencia de la línea (de control) es convertir la cantidad de campos de datos es un nombre de campo, las filas se convierten en columnas de datos.

fila aplanamiento (controles) la pluralidad de líneas de datos del mismo grupo como una sola línea. Nota: en el caso de un registro coherente de datos comparables con el fin de utilizar la línea de datos del flujo de datos. Los flujos de datos deben ser ordenados

control de procesos Hervidor (enfoque)
proceso se utiliza principalmente para datos de control de flujo y el flujo de datos

Switch / Case (controles) todo el camino para que el flujo de datos de múltiples

Filtro de registros (control) a partir de los datos de flujo de todo el camino hasta los dos (programada querido IF verdadero, falso)

Sin funcionamiento (control) como el final de la corriente de datos (sin realizar ninguna operación de frotamiento)

Suspensión (control) es el final de la secuencia de datos, si hay datos para estar aquí, será lanzada (utilizado cuando se utilizan datos de prueba)

controles de búsqueda de la caldera (enfoque)
consulta se utiliza para consultar el origen de datos y se fundieron en los datos maestros.

cliente HTTP (control) es presentar una solicitud utilizando el Get manera de conseguir contenido de la página devuelta

Base de datos de consulta (control) se deja conectado a la base de datos.

Una conexión de base de datos puede realizar dos consultas de bases de datos y tablas de mesa de entrada unario

control de la acción hervidor de agua (enfoque)
de la escritura se realiza directamente a través de algún código de operación compleja.

javascript
lenguaje de script JavaScript JavaScript se utiliza para completar la operación del flujo de datos mediante la programación de código.

JS cuenta con una gran cantidad de funciones incorporadas, se puede ver cuando se escribe código JS

Hay dos modos diferentes: modo de compatibilidad y el modo de compatibilidad no es

el modo incompatibles: es el valor predeterminado y recomendado

El modo de compatibilidad: la compatibilidad con versiones anteriores de ketle

Obtener Campo:
el modo incompatibles:
MiVar = filedName; (dirigir un nombre de variable)

El modo de compatibilidad: el uso de diferentes métodos en diferente tipo de campo

MiVar = filedName.getString (); (String)

MiVar = filedName.getValue (); (数字)

 给字段赋值:

el modo incompatibles: el uso directo de nombres de campo

filedName = MiVar;

Modo de compatibilidad: Uso

        filedName.setValue(MyVar);

Java Script
Java Script es el uso del lenguaje Java para realizar operaciones en el flujo de datos a través de la programación de códigos.

Muchas funciones integradas se pueden utilizar.

Principal:

La principal función correspondiente a una función processRow (), se utiliza la función ProcessRow () para colocar el flujo de procesamiento de datos.

secuencia de comandos SQL (control) se puede realizar una declaración de información de actualización se utiliza para actualizar una tabla

Trabajo
Resumen: ETL mayoría de los proyectos requieren la realización de una variedad de trabajos de mantenimiento.

Por ejemplo, la transferencia de archivos, la verificación de la presencia de las tablas de la base, y similares. Estas operaciones se realizan en un orden determinado. Puesto que la conversión se lleva a cabo de manera paralela, un trabajo puede ejecutarse en serie necesitan para manejar estas operaciones.

Un trabajo consiste en uno o más elementos de trabajo, el elemento de trabajo se lleva a cabo en un orden determinado. Para la ejecución del trabajo determinada por el salto (HOP TRABAJO) entre el artículo y el resultado de la ejecución de trabajo de cada puesto de trabajo.

Trabajo de entrada de
elemento de trabajo es un elemento esencial del trabajo, ya que el paso de conversión, también puede trabajar icono de elemento de una representación gráfica.

Pero si se mira de cerca, todavía encontrará un lugar diferente de los pasos de entrada de trabajo;

Un objeto de resultado se puede pasar entre los elementos de trabajo. El objeto de resultado que contiene filas de datos, que no son la forma de flujo de datos para pasar a veinte de espera para ser entregado después de un trabajo se ha ejecutado para el siguiente trabajo.

Trabajo salto
operación de salto es la línea de conexión entre los elementos de trabajo. Él define la ruta de ejecución del trabajo. El trabajo en diferentes resultados operativos de cada entrada de trabajo determina los diferentes puestos de trabajo rutas de ejecución.

① aplicación incondicional: si el éxito o el fracaso término la ejecución del trabajo, se ejecutará el siguiente trabajo de entrada. Se trata de una línea que conecta azul, hay un bloqueo de la citada norma.

② ejecución es cierto que, cuando se ejecuta: Cuando el resultado de la ejecución de entrada de trabajo es cierto, el siguiente elemento para realizar un trabajo. A menudo se utiliza en los casos en ejecución libre de errores. Se trata de un cable verde, hay un icono de marcas de graduación anteriores.

③ Cuando los resultados operativos para la implementación de falsa: Cuando el resultado de la ejecución de un elemento de trabajo que es falsa o no se ha ejecutado con éxito ejecutar un trabajo por un plazo, esto es un icono de parada roja cable rojo arriba.

Parámetros:
Para el parámetro ETL pasado es una parte muy importante, ya que la transferencia implica una referencia a la forma en que se extraen los parámetros de negocio.

Los parámetros se dividen en dos tipos: los parámetros globales y locales Parámetros

Los parámetros globales: Definir archivo de carpetas kettle.properties .kettle para definir el usuario actual.

Definido manera es utilizar la forma clave = valor como para definir: fecha_inicial = 120;

las variables de configuración de la caldera tenga que reiniciar antes de la nota:

Los parámetros locales: a través de los "establecer las variables" en camino "Obtener Variables" al conjunto

Nota: Cuando "establecer las variables de" conversión no se pueden utilizar inmediatamente en la corriente, es necesario realizar un paso en el trabajo.

El uso de parámetros: los parámetros utilizados Hervidor: (1) el nombre de la variable %% %% (2) el nombre de la variable $ {}

Nota: Se necesitan, cuando el uso de variables en SQL, "si desea reemplazar el parámetro" marcada, de lo contrario la variable no puede tener efecto.

constante de propagación:
constantes de propagación constantes son los primeros datos personalizados, tabla de entrada utilizando SQL dentro declaración? En lugar de ello.

? orden alternativo es el orden de las llamadas constantes.

Conversión parámetros con nombre:
conversión parámetro variable llamada se define en la conversión interna, el alcance de conversión es interna.

Justo en las conversiones de espacio, seleccione la configuración de conversión se pueden ver.

Establezca las variables para obtener la variable:
hay una categoría de trabajo en el que la conversión, que es una clasificación de variables de conversión y las variables de ajuste.

Nota: La conversión no se utiliza inmediatamente, es necesario utilizar en el siguiente paso en el trabajo actual de "obtener la variable"

--------- Las variables también se pueden proporcionar en el interior del puesto de trabajo (el "Establecer variable" en un módulo genérico de trabajo inferior)

Liberadas dos artículos originales · ganado elogios 0 · Vistas 255

Supongo que te gusta

Origin blog.csdn.net/xiaohuangren_123/article/details/105057866
Recomendado
Clasificación