2023 – Häufige Probleme und Lösungen von Data Warehouse

01 Aktueller Status des Data Warehouse

Die Gründungszeit des Kleinunternehmens A ist relativ kurz und es hat gerade seinen zweiten Geburtstag hinter sich; die Geschäftswachstumsrate ist schnell, die Datenmenge nimmt rapide zu und gleichzeitig steigt die Nachfrage nach Datenzugriff rapide Datenanwendungsszenarien stellen immer höhere Anforderungen an Datenqualität, Reaktionsgeschwindigkeit, Aktualität und Stabilität der Daten. Je höher, aber die technischen Fähigkeiten bleiben hinter dem Geschäftswachstum zurück, wie z Prozessspezifikationen usw. Diese Fähigkeiten bleiben erheblich hinter der Geschäftsentwicklung zurück, und einige verbleiben sogar in der anfänglichen Einzelfallphase der Unternehmensgründung. Entsprechend dem Datenfluss im Data Warehouse (wie in der folgenden Abbildung dargestellt) löst Small A die Probleme beim Aufbau des Data Warehouse von der Messung des vorgelagerten Geschäftssystems über das interne Data Warehouse bis hin zur nachgelagerten Datenanwendung .

Geschäftssystemseite [Upstream]

Das Data Warehouse muss zunächst die strukturierten Geschäftsdaten, Protokolldaten und eingebetteten Punktdaten des Geschäftssystems sammeln. Die Hauptprobleme bei der Verbindung zwischen dem Data Warehouse und dem vorgelagerten Geschäftssystem sind wie folgt:

  • Die Liste der fehlenden Geschäftssystem-Datenmodelle wird mit Änderungen synchronisiert : Es gibt keine Aufzeichnung der Datenmodelle, die im Data Warehouse-Geschäftssystem gesammelt wurden, und es erfolgt keine Benachrichtigung an das Data Warehouse, wenn das Datenmodell des Geschäftssystems fehlt Gesendet. Die meisten davon werden nach Auftreten von Problemen oder Datennutzern nachträglich an das Lager weitergegeben.

  • Fehlen einer einheitlichen Aufzählungswertkodierung und Änderungssynchronisation : Das Geschäftssystem verfügt nicht über eine einheitliche Aufzählungswertkodierung. Der Bestellstatus umfasst beispielsweise: Auftragserteilung, Auftragsannahme und Auftragsabschluss. Diese Aufzählungswerte werden nicht einheitlich verwaltet; wenn sich der Bestellstatus später ändert. Hinzugefügt: Bestellstatus stornieren, diese Änderung wurde dem Data Warehouse nicht mitgeteilt.

  • Geschäftsabteilungen bauen ihre eigenen Dezimallager auf : Einige Abteilungen umgehen die Data Warehouses und greifen direkt auf vorgelagerte Datenquellen zu, um ihre eigenen Dezimallager aufzubauen, was zu Datensilos, Doppelzählungen und Inkonsistenzen führt.

  • Es gibt geschäftliche blinde Flecken : Einige Unternehmen erfordern professionelles Hintergrundwissen, beispielsweise in den Bereichen Finanzen. Einige Geschäftsregeln unterliegen einem hohen Maß an Vertraulichkeit, und die Geschäftslogik kann nicht an Mitarbeiter weitergegeben werden, die nicht mit dem Geschäft zu tun haben, beispielsweise im Bereich der Risikokontrolle. Daher ist dies unmöglich die Beziehung zwischen diesen Geschäftseinheiten systematisch zu klären und Indikatoren zu verfeinern, um Daten auszutauschen.

Im Lagerhaus

In den frühen Tagen der Unternehmensgründung war die Datenmenge relativ gering, die Datenanforderungen waren nicht groß und die Datenanwendungsszenarien waren relativ einfach. Es ging eher darum, einfache Berichte zu erfüllen. Daher wurde das Data Warehouse hauptsächlich von gesteuert Die Auftragsannahme und die Nachfrage nach der anderen wurden von Fall zu Fall gestellt, hauptsächlich um schnell auf die Nachfrage reagieren zu können. Mit dem rasanten Geschäftswachstum, der explodierenden Datenmenge und der Diversifizierung der Datenanwendungsszenarien werden jedoch nach und nach die folgenden Probleme aufgedeckt:

  • Fehlende Prozessspezifikation : Es gibt keinen Prozess und keine Spezifikation, die Datenentwicklern dabei helfen können, die Datenkonstruktion entsprechend dem Prozess zu standardisieren, was zu unklarer Datenklassifizierung und Datenverwirrung führt; nicht standardmäßige Benennung, unterschiedliche Namen mit demselben Namen und unterschiedliche Namen mit dem gleicher Name; wiederholte Datenkonstruktion, Redundanz Viele Daten.

  • Kein systematisches technisches Design : Unabhängig davon, ob es sich um Offline- oder Echtzeit-Datenerfassung, -verarbeitung und -verteilung handelt, mangelt es an systematischem Design und Aufbau, und es muss von Fall zu Fall mehr auf das Vorherige repariert werden, beispielsweise auf die gleiche Datenquelle wird offline und in Echtzeit erfasst. Es gibt keinen Unterschied zwischen der vollständigen Extraktion aller Datenquellen und der vollständigen Berechnung von der DWD- zur DWS-Schicht. T+1 und stündliche Batch-Schornsteinentwicklung, dieselbe breite Tabelle offline und Echtzeit-Schornsteinentwicklung, wiederholte Berechnung und Speicherung; kein Unterschied für verschiedene Anwendungsszenarien. Der Unterschied verwendet dieselbe Speicherung und Berechnung usw.;

  • Es gibt keine gegenseitige Isolierung der Auswirkungen : Datenspeicherung und Datenverarbeitung in Data Warehouses sind nicht von der Datenanwendungsdienstspeicherung und -technologie isoliert, und Ressourcen werden voneinander ausgeschlossen und Probleme werden vergrößert; gleichzeitig wird das zugrunde liegende Modelldesign der Daten beeinträchtigt Es ist schwierig, das Lager mit den Designanforderungen des Datenanwendungsschichtmodells kompatibel zu machen

Datenanwendungstest【Downstream】

Data Warehouses müssen Daten für verschiedene Datenanwendungsszenarien (Windkontrolle, C-End, Geschäftsbetrieb usw.) bereitstellen, und unterschiedliche Datenanwendungsanforderungen sind inkonsistent und es gibt viele Unterschiede; gleichzeitig ist der Wert der Daten unterschiedlich Auch die Anwendungsszenarien sind unterschiedlich. Daher ist es notwendig, die Downstream-Datenanwendungsszenarien und bestehenden Probleme klar zu verstehen, um die Datenanwendungsseite besser bedienen zu können. Der Downstream weist hauptsächlich die folgenden Probleme auf:

  • Kein Verständnis für Datenanwendungsszenarien : Kein Verständnis oder tiefgreifendes Verständnis für nachgelagerte Datenbedarfs-Anwendungsszenarien, keine Bewertung der Technologieauswahl für verschiedene Szenarien, einfache und unhöfliche Verwendung eines Tricks, um die Welt zu erobern, und eine Reihe von Computern und Speicher für verschiedene Szenarien.

  • Es ist nicht bekannt, welche Anwendungen auf die Daten zugreifen : Es gibt keine Überwachung und Aufzeichnung der Datennutzung durch nachgelagerte Anwendungen und es ist unmöglich, die Datennutzung und den Datenwert zu quantifizieren

  • Keine quantifizierte Datennachfragepriorität : Kein Prioritätsbewertungsmechanismus für den nachgelagerten Datenbedarf, keine quantifizierte Datennachfragepriorität

  • Kein Self-Service-Zugriffstool : Es gibt keine nachgelagerte Zugriffsfunktion, was dazu führt, dass der Großteil der Zugriffsarbeit immer noch von der Datenentwicklung abhängt. Der größte Teil der Datenentwicklungszeit wird durch die Nachfrage nach temporärem Zugriff in Anspruch genommen, und es ist unmöglich, sich auf den Aufbau des Data-Warehouse-Modells und den Aufbau der Marktschichtdaten zu konzentrieren, was schließlich zu einem Teufelskreis führt. Einerseits Die Daten sind nicht perfekt, andererseits ist die Datenentwicklung mit verschiedenen temporären Zugriffsanforderungen beschäftigt.

  • Verschiedene Datenzugriffsmethoden und geringe Zugriffseffizienz : Jede Datenanwendung muss entsprechende Codes basierend auf unterschiedlichen Zwischenspeichern entwickeln. Wenn mehrere Zwischenspeicher beteiligt sind, müssen mehrere Codesätze entwickelt werden, und die Datenzugriffseffizienz ist sehr gering.

  • Probleme mit der Datenqualität : Daten führen aufgrund von Fehlern häufig zu falschen Berechnungsergebnissen, was letztendlich zu falschen Geschäftsentscheidungen führt.

02 So lösen Sie das Problem

Geschäftssystemseite [Upstream]

Die Zusammenarbeit mit der Geschäftssystemseite erfordert eine abteilungsübergreifende Kommunikation und Zusammenarbeit. Daher sind Kommunikationsprozesse und -standards erforderlich, die es beiden Parteien ermöglichen, sich auf öffentliche Ziele zu konzentrieren. Gleichzeitig muss die Koexistenzbeziehung zwischen Ihnen und mir aufrechterhalten werden. Es werden vor allem Lösungen vor, während und nach der Veranstaltung vorgeschlagen.

  • Vorab : Richten Sie einen Benachrichtigungsmechanismus und einen Zusammenarbeitsprozess mit dem Upstream ein, um Geschäfts- und Modelländerungen zeitnah zu synchronisieren. Übernehmen Sie die ODS-Schicht und kontrollieren Sie die Quelle. ODS ist die erste Anlaufstelle für Geschäftsdaten, die in das Data Warehouse und die Quelle gelangen die gesamte Datenverarbeitung. Nur durch die Kontrolle der Quelle können wir die Entstehung eines doppelten Datensystems grundsätzlich verhindern.

  • In Bearbeitung : Erfassen Sie Upstream-Metadaten und Wörterbuchwertänderungen mit technischen Mitteln, um zukünftige Problemverfolgung und Auswirkungsanalyse zu erleichtern

  • Nach der Veranstaltung : Optimierung des Prozesses und der iterativen Technologie durch Überprüfung nach der Veranstaltung

Im Lagerhaus

Das Data Warehouse muss diese Probleme hauptsächlich aus mehreren Dimensionen wie technischem System, Prozessspezifikation und Datenstruktur lösen.

Formulieren Sie Verfahren und Spezifikationen

Datenentwicklungsprozess:

Datenentwicklungsspezifikation:

Die Data Warehouse-Spezifikation umfasst hauptsächlich die folgenden Inhalte:

1. Grundlegendes Wörterbuch [Wortstamm]

Der Wortstamm ist der feinkörnige Geschäftsbegriff des Unternehmens und stellt die Grundlage für die Dimensions- und Indexverwaltung dar. Der Wortstamm kann zum Vereinheitlichen von Tabellennamen, Feldnamen und Subjektdomänennamen sowie zum Einrichten und Verwalten einer konvergenten Wurzel verwendet werden Bibliothek, und wir können sowohl Geschäftsdomänen als auch Fachdomänen verwenden. Die Art und Weise der Aufzählung des Stamms ist klar und wird ständig verbessert, und die Granularität ist dieselbe. Die wichtigsten sind die Zeitgranularität, Tag, Monat, Jahr, Woche usw. , verwenden Sie die Wurzel, um die Abkürzung zu definieren, und die vom Data Warehouse entwickelten Feldnamen können auch mit der Wurzel kombiniert werden; Division Für gewöhnliche und richtige Wurzeln:

  • Gemeinsame Wurzel: die kleinste Einheit, die Dinge beschreibt, wie zum Beispiel: Transaktion-Handel.

  • Proprietäre Wurzel: Es hat eine konventionelle oder branchenspezifische Beschreibung, wie zum Beispiel: US-Dollar-USD.

Beispiele für Wurzelwörter sind wie folgt:

2. Grundlegende Spezifikationen

Datendomäne: Vertikale Aufteilung der Daten, wie in der folgenden Abbildung dargestellt

Datenebene: horizontale Datenschichtung, wie in der folgenden Abbildung dargestellt

3. Namenskonvention

Standardisieren Sie die Benennung von Modellen und standardisieren Sie die Benennung jeder Schicht (ODS, DWD, DWS, DM). In der späteren Phase können Sie die Verwendung von Tools wie den folgenden Namenskonventionen in Betracht ziehen, um Effizienz und Kontrollfunktionen bereitzustellen.

4. Normative Bewertung

Messen Sie die Standardisierung aus den folgenden Blickwinkeln

03 Systemarchitekturdesign

Technischer Architekturentwurf aus horizontaler Sammlung, Verarbeitung, Wertschöpfung, Verteilung und vertikaler Offline-Systematisierung in Echtzeit.

konsistente Dimension

Eine konsistente Dimension bedeutet, dass zwei Dimensionen, wenn sie miteinander in Beziehung stehen, entweder genau gleich sind oder eine Dimension im mathematischen Sinne eine Teilmenge der anderen ist. Wenn beispielsweise eine Monatsdimension erstellt wird, müssen die verschiedenen Beschreibungen der Monatsdimension vollständig mit denen in der Datumsdimension übereinstimmen. Die häufigste Methode besteht darin, eine Ansicht für die Datumsdimension zu erstellen, um die Monatsdimension zu generieren. Auf diese Weise kann die Monatsdimension eine Teilmenge der Datumsdimension sein, die bei nachfolgenden Vorgängen wie Drilling konsistent bleiben kann. Wenn die Datenmenge in der Dimensionstabelle groß ist, sollte aus Effizienzgründen eine materialisierte Ansicht oder eine tatsächliche physische Tabelle erstellt werden. Auf diese Weise können die Fakten über mehrere Data Marts hinweg beibehalten werden, sobald die Dimensionen angepasst sind. Obwohl sie physisch unabhängig sind, sind alle Data Marts logischerweise durch konsistente Dimensionen miteinander verbunden, und Vorgänge wie Cross-Exploration können jederzeit durchgeführt werden, wodurch ein Data Warehouse entsteht.

übereinstimmende Fakten

Wenn mehrere Data Marts eingerichtet werden, sind 80–90 % der Konsistenzarbeitslast abgeschlossen, um die Konsistenzdimension abzuschließen. Es bleibt nur noch die Feststellung konsistenter Fakten. Konsistente Fakten und konsistente Dimensionen unterscheiden sich etwas. Konsistente Dimensionen werden im Hintergrund (Back Room) von einer dedizierten Person verwaltet und bei Änderungen synchron in jeden Data Mart kopiert, während Faktentabellen im Allgemeinen nicht zwischen mehreren Data Marts repliziert werden. Wenn es notwendig ist, Fakten in mehreren Data Marts abzufragen, wird dies im Allgemeinen durch einen Drill-Over erreicht. Um Cross-Probing zwischen mehreren Data Marts durchführen zu können, müssen die Konsistenzfakten hauptsächlich zwei Punkte garantieren. Erstens müssen die Definitions- und Berechnungsmethoden von KPIs konsistent sein, und zweitens müssen die Fakteneinheiten konsistent sein. Wenn Geschäftsanforderungen oder Fakten nicht konsistent gehalten werden können, empfiehlt es sich, die Fakten verschiedener Einheiten in separaten Feldern zu speichern. Auf diese Weise kombinieren konsistente Dimensionen mehrere Data Marts und konsistente Fakten stellen sicher, dass Sachdaten zwischen verschiedenen Data Marts abgeglichen werden können.

Datenanwendungsseite [Downstream]

Die Lösung für die Datenanwendungsseite besteht hauptsächlich darin, die Effizienz des Datenabrufs zu verbessern, Datenqualitätsprobleme zu reduzieren und Daten und Schnittstellen wie folgt wiederzuverwenden.

Verbesserung der Datenqualität

Um die Datenqualität zu verbessern, ist „Früherkennung, frühe Wiederherstellung“ das Wichtigste:

  • Bei der Früherkennung geht es darum, Datenprobleme vor Datennutzern zu entdecken und Probleme so weit wie möglich an der Problemquelle zu finden, wodurch viel Zeit für die „frühzeitige Wiederherstellung“ gewonnen wird. Die Hauptmethode besteht darin, die Prüfüberprüfungsaufgabe zu starten, um die Datenergebnisse nach Abschluss der Datenausgabeaufgabe zu scannen und zu berechnen und zu beurteilen, ob sie den Regelerwartungen (Integritätsregeln, Konsistenzregeln, Genauigkeitsregeln) entsprechen.

  • Eine frühzeitige Wiederherstellung dient dazu, die Wiederherstellungszeit von Fehlern zu verkürzen und die Auswirkungen von Fehlern auf die Datenausgabe zu verringern. Die Hauptmethode besteht darin, eine vollständige Überwachung der Datenqualität auf der Grundlage der Blutsverwandtschaftsdaten zu etablieren. Wenn nach dem Hinzufügen von Überwachungs- und Überprüfungsregeln zu jeder Tabelle im Link die von einem der Knoten ausgegebenen Daten abnormal sind, können Sie diese sofort finden und reparieren, um eine frühzeitige Erkennung und Reparatur zu erreichen.

Erstellen Sie eine visualisierte Zugangsplattform

Es entstehen hohe Kommunikations- und Zusammenarbeitskosten, wenn man sich beim Datenabruf auf andere verlässt. Gleichzeitig ist es aufgrund der unvollständigen Daten der öffentlichen Marktschicht unmöglich, den Datenabruf direkt auf der Grundlage bestehender und neuer Daten abzuschließen Es muss entwickelt und verarbeitet werden, ist also zeitaufwändig und teuer. Es ist sehr langwierig und dauert in der Regel eine Woche.

Die hohen Kosten für den Datenzugriff unterdrücken die Nachfrage nach Datenzugriff und führen auch zu einer explorativen Datenanalyse, die nicht in großem Maßstab angewendet werden kann. Durch die Selbstbedienungszugangsplattform wird die Zugangseffizienz freigegeben, und der größte Teil des Zugangs wird von der Nachfrageseite des nichttechnischen Personals durchgeführt. Erstellen Sie eine Self-Service-Zugangsplattform anhand der folgenden Punkte:

  • Auf grafische Weise, anstatt SQL zu schreiben;

  • Bietet Konzepte für Geschäftsprozesse, Indikatoren und Dimensionen, die für das Geschäftspersonal benutzerfreundlich sind und Tabellen und Felder ersetzen.

  • Die Geschäftsqualität jedes Indikators kann direkt angezeigt werden;

  • Der Benutzer kann den Datenabrufvorgang abschließen, indem er einige Indikatoren und Dimensionen auswählt und einige Filterwerte hinzufügt;

  • Die Benutzeroberfläche ist sehr einfach und die Hürde bei der Nutzung ist sehr gering.

Ich denke du magst

Origin blog.csdn.net/ytp552200ytp/article/details/130685997
Empfohlen
Rangfolge