Grundlegende Verwendung der ETL-Ressourcenbibliothek
1. Metadaten
1. Das allgemeine Konzept von Metadaten: "beschreibende Daten" oder "Daten von Daten".
Metadaten von ETL: Beschreiben Sie die von ETL auszuführenden Aufgaben.
So speichern Sie Metadaten in Kettle:
- Ressourcenbibliothek : Die Ressourcenbibliothek enthält eine Dateiressourcenbibliothek und eine Datenbankressourcenbibliothek. Nach Kettle 4.0 kann der Ressourcenbibliothekstyp durch Plug-Ins erweitert werden
- XML-Datei : Der Stammknoten des XML der .ktr-Transformationsdatei muss < transformation > sein. Der Stammknoten des kjb-Jobs XML ist < job >
2. Ressourcenbibliothek
Ohne Verwendung der Ressourcenbibliothek kann sie direkt als ktr- oder kjb-Datei gespeichert werden.
2.1 Datenressourcenbibliothek
Serialisieren Sie die Metadaten von Kettle in der Datenbank. In der Tabelle R _TRANSFORMATION werden beispielsweise der Name, die Beschreibung und andere Attribute der Kettle-Umwandlung gespeichert. Erstellen und aktualisieren Sie die Datenbankressourcenbibliothek in Spoon.
2.2 Dateiressourcenbibliothek
Die auf Dateien basierende Kapselung implementiert die Schnittstelle org.pentaho.di.repository.Repository. Dies ist die Art der Ressourcenbibliothek, die in Kettle 4.0 und späteren Versionen hinzugefügt wurde
2.3 Auswählen einer Ressourcenbibliothek
Nachteile der Datenbankressourcenbibliothek :
- Es können nicht mehrere Versionen von Conversions oder Jobs gespeichert werden
- Verlassen Sie sich stark auf den Datenbanksperrmechanismus, um Arbeitsverlust zu vermeiden
- Ohne Berücksichtigung der Teamentwicklung können Entwickler einen Job nicht sperren, um ihn selbst zu entwickeln
Nachteile der Dateiressourcenbibliothek :
- Die Beziehung zwischen Objekten (wie Konvertierungen, Jobs, Datenbankverbindungen usw.) ist schwierig zu handhaben, sodass Vorgänge wie Löschen und Umbenennen problematischer sind
- Kein Versionsverlauf
- Schwierig für die Teamentwicklung
Verwenden Sie keine Ressourcenbibliothek : Verwenden Sie svn zur Kontrolle der Dateiversion.
3. Verwendung der Kettle Resource Library
3.1 Kettle Data Resource Library
3.1.1 Datenressourcenbibliothek erstellen
Erstellen Sie ein Datenbank-Repository
Datenquellenverbindung einrichten
Wenn Sie zum Testen klicken, wird ein Fehler gemeldet:
Driver class 'oracle.jdbc.driver.OracleDriver' could not be found, make sure the 'Oracle' driver (jar file) is installed. oracle.jdbc.driver.OracleDriver
Bei der MySQL-Datenverbindung tritt dieses Problem nicht auf. Bei der Oracle-Datenbankverbindung muss Oracle
ojdbc6.jar
kopiert und in das ETL-Verzeichnisverzeichnis eingefügt werdenlib
. Nach dem Neustart.
Klicken Sie nach dem Neustart auf Fertig stellen.
Der letzte Schritt ist das Herstellen einer Verbindung. Am besten erstellen Sie eine neue Datenbank, da diese Bibliothek eine unabhängige Ressourcenbibliothek für Kettle ist. Das Kontokennwort ist Standard
admin
.
Überprüfen Sie die Datenbank und stellen Sie fest, dass einige Tabellen erstellt wurden.
3.1.2 Trennen, Ändern, Löschen usw. der Datenressourcenbibliothek
3.1.3 Konvertierung hinzufügen, speichern und in Datenressourcenbibliothek exportieren
Konvertierung hinzufügen
Sparen:
Ctrl + S
Aussicht
Import und Export
Nach der Frage, ob Regeln hinzugefügt werden sollen, kann NO exportiert werden.
3.2 Kettle File Resource Library
Der Prozess ist einfacher als das Datenrepository und die meisten Vorgänge sind ähnlich.
Dies kann direkt erfolgen, es gibt keinen Benutzer und kein Passwort.
4. Management Resource Library
Mehrere Phasen der ETL-Entwicklung : Entwicklung, Test, Validierung und Veröffentlichung.
Ressourcenbibliothek für jede Phase : Entwicklungsressourcenbibliothek, Test- (Bestätigungs-) Ressourcenbibliothek, Freigaberessource.
Fortschritt in verschiedenen Stufen :
- Von der Entwicklungsressourcenbibliothek zur Testressourcenbibliothek:
1.1 Beachten Sie die Namensregeln
1.2 Freigabe durch eine Person, um Konflikte zu vermeiden
1.3 Zwei Transplantationsmethoden: Trennen und erneutes Verbinden, Exportieren / Importieren- Vom Test- (Bestätigungs-) Repository zum Release-Repository: Export / Import
Verwenden Sie nicht die Ressourcenbibliothek : SVN-Versionskontrolle, Test-Tagging, Release und Build-Zweig.
5. Parametrierung
Warum Parametrisierung : Bei der Migration von Jobs zwischen Ressourcenbibliotheken können Metadaten wie die im Job verwendeten Datenbankverbindungen nicht fest codiert werden, da die Umgebung in jeder Phase unterschiedlich ist.
Mehrere Methoden der Parametrisierung : Die
kettle.properties
Datei befindet sich in dem user.home Verzeichnis von Java , die benutzerdefinierten Eigenschaften wird Datei durch die Eigenschaftsdatei Eingabeschritt lesen Verwenden Sie die. Parametertabelle .
Woher weiß ich, dass Java das Verzeichnis user.home ist? Geben Sie Folgendes ein, um den Inhalt einer Java-Datei zu erstellen.
public class PrintUserHome {
public static void main(String[] args) {
System.out.println(System.getProperty("user.home"));
}
}
Führen Sie die folgende Anweisung in cmd aus
javac PrintUserHome.java
java PrintUserHome
Die Struktur der Parametertabelle :
Environment parameter_name parameter_value valid_from valid_to
Dev host_name localhost 2011-01-01 2099-01-01
Test host_name 192.168.12.10 2011-01-01 2013-05-01
Test host_name 192.168.12.11 2011-05-02 2099-01-01
Bedeutung :
- Umwelt . Umwelt Zum Beispiel: Dev - Entwicklungsumgebung, Test - Testumgebung.
- Parametername : Die Parameter, die verschiedenen Umgebungen entsprechen. Beispiel: Hostname Host.
- parameter_value : Der Parameterwert, der verschiedenen Umgebungen entspricht.
- valid_from : Die gültige Zeit der Parameter und Parameterwerte, die verschiedenen Umgebungen entsprechen.
- valid_to : Parameter und Parameterwertfristen, die verschiedenen Umgebungen entsprechen.