Grundlegende Verwendung der ETL-Ressourcenbibliothek

1. Metadaten

1. Das allgemeine Konzept von Metadaten: "beschreibende Daten" oder "Daten von Daten".

Metadaten von ETL: Beschreiben Sie die von ETL auszuführenden Aufgaben.

So speichern Sie Metadaten in Kettle:

  1. Ressourcenbibliothek : Die Ressourcenbibliothek enthält eine Dateiressourcenbibliothek und eine Datenbankressourcenbibliothek. Nach Kettle 4.0 kann der Ressourcenbibliothekstyp durch Plug-Ins erweitert werden
  2. XML-Datei : Der Stammknoten des XML der .ktr-Transformationsdatei muss < transformation > sein. Der Stammknoten des kjb-Jobs XML ist < job >

2. Ressourcenbibliothek

Ohne Verwendung der Ressourcenbibliothek kann sie direkt als ktr- oder kjb-Datei gespeichert werden.

2.1 Datenressourcenbibliothek

Serialisieren Sie die Metadaten von Kettle in der Datenbank. In der Tabelle R _TRANSFORMATION werden beispielsweise der Name, die Beschreibung und andere Attribute der Kettle-Umwandlung gespeichert. Erstellen und aktualisieren Sie die Datenbankressourcenbibliothek in Spoon.

2.2 Dateiressourcenbibliothek

Die auf Dateien basierende Kapselung implementiert die Schnittstelle org.pentaho.di.repository.Repository. Dies ist die Art der Ressourcenbibliothek, die in Kettle 4.0 und späteren Versionen hinzugefügt wurde

2.3 Auswählen einer Ressourcenbibliothek

Nachteile der Datenbankressourcenbibliothek :

  1. Es können nicht mehrere Versionen von Conversions oder Jobs gespeichert werden
  2. Verlassen Sie sich stark auf den Datenbanksperrmechanismus, um Arbeitsverlust zu vermeiden
  3. Ohne Berücksichtigung der Teamentwicklung können Entwickler einen Job nicht sperren, um ihn selbst zu entwickeln

Nachteile der Dateiressourcenbibliothek :

  1. Die Beziehung zwischen Objekten (wie Konvertierungen, Jobs, Datenbankverbindungen usw.) ist schwierig zu handhaben, sodass Vorgänge wie Löschen und Umbenennen problematischer sind
  2. Kein Versionsverlauf
  3. Schwierig für die Teamentwicklung

Verwenden Sie keine Ressourcenbibliothek : Verwenden Sie svn zur Kontrolle der Dateiversion.

3. Verwendung der Kettle Resource Library

3.1 Kettle Data Resource Library

3.1.1 Datenressourcenbibliothek erstellen

Erstellen Sie ein Datenbank-Repository

Fügen Sie hier eine Bildbeschreibung ein
Fügen Sie hier eine Bildbeschreibung ein
Fügen Sie hier eine Bildbeschreibung ein

Datenquellenverbindung einrichten

Wenn Sie zum Testen klicken, wird ein Fehler gemeldet: Driver class 'oracle.jdbc.driver.OracleDriver' could not be found, make sure the 'Oracle' driver (jar file) is installed. oracle.jdbc.driver.OracleDriver

Bei der MySQL-Datenverbindung tritt dieses Problem nicht auf. Bei der Oracle-Datenbankverbindung muss Oracle ojdbc6.jarkopiert und in das ETL-Verzeichnisverzeichnis eingefügt werden lib. Nach dem Neustart.

Fügen Sie hier eine Bildbeschreibung ein

Klicken Sie nach dem Neustart auf Fertig stellen.

Fügen Sie hier eine Bildbeschreibung ein

Der letzte Schritt ist das Herstellen einer Verbindung. Am besten erstellen Sie eine neue Datenbank, da diese Bibliothek eine unabhängige Ressourcenbibliothek für Kettle ist. Das Kontokennwort ist Standard admin.

Fügen Sie hier eine Bildbeschreibung ein

Fügen Sie hier eine Bildbeschreibung ein

Überprüfen Sie die Datenbank und stellen Sie fest, dass einige Tabellen erstellt wurden.

Fügen Sie hier eine Bildbeschreibung ein

3.1.2 Trennen, Ändern, Löschen usw. der Datenressourcenbibliothek

Fügen Sie hier eine Bildbeschreibung ein

Fügen Sie hier eine Bildbeschreibung ein

3.1.3 Konvertierung hinzufügen, speichern und in Datenressourcenbibliothek exportieren

Konvertierung hinzufügen

Fügen Sie hier eine Bildbeschreibung ein

Sparen: Ctrl + S

Fügen Sie hier eine Bildbeschreibung ein

Aussicht

Fügen Sie hier eine Bildbeschreibung ein

Fügen Sie hier eine Bildbeschreibung ein
Fügen Sie hier eine Bildbeschreibung ein

Import und Export

Fügen Sie hier eine Bildbeschreibung ein

Fügen Sie hier eine Bildbeschreibung ein
Fügen Sie hier eine Bildbeschreibung ein

Nach der Frage, ob Regeln hinzugefügt werden sollen, kann NO exportiert werden.

Fügen Sie hier eine Bildbeschreibung ein

3.2 Kettle File Resource Library

Der Prozess ist einfacher als das Datenrepository und die meisten Vorgänge sind ähnlich.

Fügen Sie hier eine Bildbeschreibung ein
Fügen Sie hier eine Bildbeschreibung ein

Dies kann direkt erfolgen, es gibt keinen Benutzer und kein Passwort.

Fügen Sie hier eine Bildbeschreibung ein

4. Management Resource Library

Mehrere Phasen der ETL-Entwicklung : Entwicklung, Test, Validierung und Veröffentlichung.

Ressourcenbibliothek für jede Phase : Entwicklungsressourcenbibliothek, Test- (Bestätigungs-) Ressourcenbibliothek, Freigaberessource.

Fortschritt in verschiedenen Stufen :

  1. Von der Entwicklungsressourcenbibliothek zur Testressourcenbibliothek:
    1.1 Beachten Sie die Namensregeln
    1.2 Freigabe durch eine Person, um Konflikte zu vermeiden
    1.3 Zwei Transplantationsmethoden: Trennen und erneutes Verbinden, Exportieren / Importieren
  2. Vom Test- (Bestätigungs-) Repository zum Release-Repository: Export / Import

Verwenden Sie nicht die Ressourcenbibliothek : SVN-Versionskontrolle, Test-Tagging, Release und Build-Zweig.

5. Parametrierung

Warum Parametrisierung : Bei der Migration von Jobs zwischen Ressourcenbibliotheken können Metadaten wie die im Job verwendeten Datenbankverbindungen nicht fest codiert werden, da die Umgebung in jeder Phase unterschiedlich ist.

Mehrere Methoden der Parametrisierung : Die kettle.propertiesDatei befindet sich in dem user.home Verzeichnis von Java , die benutzerdefinierten Eigenschaften wird Datei durch die Eigenschaftsdatei Eingabeschritt lesen Verwenden Sie die. Parametertabelle .

Woher weiß ich, dass Java das Verzeichnis user.home ist? Geben Sie Folgendes ein, um den Inhalt einer Java-Datei zu erstellen.

public class PrintUserHome {
    
    
	public static void main(String[] args) {
    
    
		System.out.println(System.getProperty("user.home"));
	}
}

Führen Sie die folgende Anweisung in cmd aus

javac PrintUserHome.java
java PrintUserHome

Fügen Sie hier eine Bildbeschreibung ein

Die Struktur der Parametertabelle :

Environment	parameter_name	parameter_value	valid_from	valid_to
Dev	host_name	localhost	2011-01-01	2099-01-01
Test	host_name	192.168.12.10	2011-01-01	2013-05-01
Test	host_name	192.168.12.11	2011-05-02	2099-01-01

Bedeutung :

  1. Umwelt . Umwelt Zum Beispiel: Dev - Entwicklungsumgebung, Test - Testumgebung.
  2. Parametername : Die Parameter, die verschiedenen Umgebungen entsprechen. Beispiel: Hostname Host.
  3. parameter_value : Der Parameterwert, der verschiedenen Umgebungen entspricht.
  4. valid_from : Die gültige Zeit der Parameter und Parameterwerte, die verschiedenen Umgebungen entsprechen.
  5. valid_to : Parameter und Parameterwertfristen, die verschiedenen Umgebungen entsprechen.

Ich denke du magst

Origin blog.csdn.net/YKenan/article/details/112406203
Empfohlen
Rangfolge