Schauen Sie sich anhand der technischen Entwicklung von GaussDB (DWS) die Anhäufung und Wiedergeburt des Data Warehouse an

Zusammenfassung: Mit dem Aufstieg und der Durchdringung von Cloud Computing ist Cloud Data Warehouse zu einer neuen Stufe in der Entwicklung der Data Warehouse-Technologie geworden und nach und nach zur gängigen Wahl vieler Unternehmen geworden.

Dieser Artikel wurde von der Huawei Cloud Community geteilt: „ From GaussDB (DWS) Technology Evolution, Looking at the Accumulation and Rebirth of Data Warehouse “, Autor: Huawei Cloud Headlines.

Daten treiben die Entwicklung moderner Unternehmen voran

Heute, ob in der Fertigung, im Einzelhandel, in der Logistik

Oder im Internet, in der Finanzbranche und anderen Branchen

Daten sind wichtiger denn je

Massive und vielfältige Datenwellen haben höhere Anforderungen an die Datenverarbeitung und -analyse gestellt und auch zu einer diversifizierten Entwicklung von Data Warehouses geführt. Traditionelle Data Warehouses, Data Marts und Echtzeit-Data Warehouses wurden nacheinander geboren. Darüber hinaus ist Cloud Data Warehouse mit dem Aufstieg und der Durchdringung des Cloud Computing zu einer neuen Stufe in der Entwicklung der Data Warehouse-Technologie geworden und nach und nach zur gängigen Wahl vieler Unternehmen geworden.

▶Ein „Data Warehouse“, das mit der Zeit geht

Der Begriff „Data Warehouse“ ist in den letzten Jahren nicht mehr aufgetaucht. Über seinen Ursprung gibt es unterschiedliche Meinungen:

  • Es gibt ein Sprichwort, dass das Konzept des „Data Warehouse“ bis in die 1960er Jahre zurückreicht, als es sich bei den Daten hauptsächlich um Papierdokumente und statistische Berichte handelte, die manuell verarbeitet wurden;
  • Mitte bis Ende der 1980er Jahre wurden Data Warehouses mit der rasanten Entwicklung der Computer- und Datenbanktechnologie allmählich zu einem wichtigen Werkzeug für die Analyse auf Unternehmensebene.
  • Bis in die 1990er Jahre brachte Bill Inmon „Building a Data Warehouse“ ins Leben, das das Konzept eines Data Warehouse formal definierte – ein Data Warehouse ist eine themenorientierte, integrierte, zeitbezogene und nicht veränderbare Sammlung von Daten in der Unternehmensführung und -entscheidung. Herstellung;
  • Nach dem Eintritt in das 21. Jahrhundert begannen Data Warehouses mit Big Data, Data Mining, maschinellem Lernen, Cloud Computing und anderen Technologien zu kombinieren und begaben sich auf den Weg der integrierten Entwicklung.

Mit der kontinuierlichen Weiterentwicklung der Technologie und der Vertiefung der industriellen Praxis ist Data Warehouse nach und nach zu einem unverzichtbaren Bestandteil des Unternehmensinformationsmanagements geworden. In der praktischen Anwendung wird Data Warehouse häufig in verschiedenen Bereichen eingesetzt, beispielsweise im Kundenbeziehungsmanagement, in der Geschäftsintelligenz, bei der Bewertung finanzieller Risiken usw. Zum Beispiel:

  • Im Hinblick auf das Kundenbeziehungsmanagement können Data Warehouses Unternehmen dabei helfen, ihre Kunden besser zu verstehen und so die Kundenzufriedenheit und -treue zu verbessern.
  • Im Hinblick auf Business Intelligence können Data Warehouses Unternehmen dabei helfen, große Datenmengen schnell zu analysieren und so die Entscheidungsfindung des Unternehmens zu unterstützen.
  • Im Hinblick auf die Bewertung finanzieller Risiken können Data Warehouses Banken und Finanzinstituten helfen, Risiken besser einzuschätzen und Strategien usw. zu formulieren.

Einige große Technologieunternehmen haben auch den Weg der Forschung und Entwicklung von Data Warehouses eingeschlagen, die auf ihren eigenen Geschäftsanforderungen basieren.

Beispielsweise begann Huawei CLOUD bereits im Jahr 2011 mit der Vorforschung zu GaussDB (DWS), einem Data Warehouse. Nachdem es den Test einer großen Menge eigener Geschäftsdaten bestanden hatte, wurde es 2015 auf den Markt gebracht und zielte auf Finanzen ab und traditionelle All-in-One-Maschinen der Regierung und andere Unternehmen. Im Jahr 2017 wurde GaussDB (DWS) in die Cloud migriert, wodurch die Servicefunktionen und der Umfang weiter verbessert wurden.

Laut Huang Haiyan, einem leitenden Produktexperten von Huawei Cloud Data Warehouse GaussDB (DWS), ist GaussDB (DWS) ein Starprodukt in der Datenproduktionslinie von Huawei Cloud. Es handelt sich um eine Analyse aus einer Hand, die Echtzeitspeicherung, Echtzeitspeicherung und Echtzeitspeicherung unterstützt. Zeitanalyse, Batch-Computing und interaktive Abfragen. Die Plattform verfügt über die Vorteile von extrem großem Umfang, hoher Leistung und hoher Parallelität herkömmlicher Data Warehouses sowie über die Funktionen cloudnativer Data Warehouses wie die Trennung von Speicherung und Berechnung , elastische Skalierung, serverlos, Integration von Seen und Lagern sowie Integration digitaler Intelligenz.

Nach 12 Jahren hat GaussDB (DWS) schrittweise den Weg des Cloud Data Warehouse erkundet, um den Anforderungen mehrerer Szenarien im Cloud-Zeitalter gerecht zu werden, von innen nach außen, von der lokalen Bereitstellung bis hin zu Cloud-Diensten.

image1.png

▶Der serverlose Weg von GaussDB (DWS)

Im Jahr 2017 begann Huawei Cloud, die Geschäftsexpansion zu beschleunigen und führte weitere Cloud-Computing-Dienste ein. Auch GaussDB (DWS) war vollständig Cloud-fähig. Der unmittelbarste Mehrwert, der durch den Wechsel in die Cloud entsteht, besteht darin, dass dadurch die Hardwareinvestitionen sowie die Betriebs- und Wartungskosten der Kundenunternehmen gesenkt und die Gesamtbetriebseffizienz verbessert werden können. Aufgrund der unterschiedlichen Geschäftsgrößen der Unternehmen schwankt die Auslastung jedoch stark. Huang Haiyan sagte, dass die kleineren Unternehmen möglicherweise nur über Dutzende GB an Datensätzen verfügen, während die größeren möglicherweise über Hunderte von TB oder mehr Datensätze verfügen. Der Unterschied in der Unternehmensgröße stellt auch höhere Anforderungen an die Flexibilität von Data Warehouse-Diensten.

  • Speicher- und Computer-Trennmodus

Um dieses Problem zu lösen, hat Huawei CLOUD GaussDB (DWS) zu Beginn das traditionelle All-in-One-Modell des Data Warehouse-Dienstes in den Speicher-Computing-Trennmodus auf dem Elastic-Computing-Dienst ECS + dem elastischen Speicherdienst EVS umgewandelt und so eine unabhängige Erweiterung realisiert Erweiterung von Computern und Speicher, wodurch Computer-Upgrades und -Upgrades sowie elastische Speichererweiterungen realisiert werden können und auch die Datenumverteilung zwischen Datenerweiterungen unterstützt wird, ohne die Geschäftsunterbrechung zu beeinträchtigen.

Mit der Vertiefung von Geschäftsszenarien existiert die elastische Erweiterungsmethode ECS + EVS angesichts großer Datenmengen, aber geringer Rechenanforderungen, wie z. B. Internet der Fahrzeuge, Internetprotokolle und langfristige historische Daten von Unternehmenskerndatenlagern, immer noch . halte dich zurück.

  • ECS+EVS+OBS Kalt- und Heißdatenmanagement

In diesem Zusammenhang hat das GaussDB (DWS)-Team eine weitere Schicht der Objektspeicher-OBS-Kaltdatenverwaltung auf der Basis von ECS+EVS implementiert und das Internet der Fahrzeuge, langfristige historische Daten usw. auf OBS gestellt, ohne die Rechenleistung zu erweitern Auf diese Weise wird die Verwaltung heißer und kalter Daten realisiert und dann das Gleichgewicht zwischen Rechenleistung und Speicherung erreicht. Am Ende ist es in die ECS + EVS + OBS-Kalt- und Heißdatenverwaltung integriert. GaussDB (DWS) beschleunigt die Leistung basierend auf lokalen Festplatten, verwendet OBS als Kaltdatenbereich, erweitert den Datenspeicher heterogen auf OBS und verwendet hierarchischen Speicher Um Daten zu realisieren, können Sie Speicher- und Computer-Engines nach Bedarf auswählen, die Hot- und Cold-Datenmigration dynamisch umschalten usw., um eine Kostenoptimierung zu erreichen, ohne das Data-Warehouse-Erlebnis zu beeinträchtigen.

  • Unterstützt drei Modi gleichzeitig

„Später stellten wir fest, dass die Kalt- und Heißdatenverwaltungsmethode ECS+EVS+OBS immer noch Szenarien aufweist, die nicht abgedeckt werden können. In einigen Szenarien muss es beispielsweise in der Lage sein, gleichzeitige Abfragen auszuführen, während Stapel ausgeführt werden, und das hoffen wir auch.“ dass ein Teil der Daten diversifiziert werden kann. Analyse und Speicherung. Da sich ein Teil der heißen Daten in EVS befindet, gibt es oft keine Möglichkeit, die Analyse effizient zu erweitern, sodass wir alle Daten später in OBS ablegen. Das ursprüngliche EVS wird verwendet B. als Datencache, und OBS-Daten können von mehreren Clustern, Data Lakes oder KI zur Analyse verwendet werden und dann den ursprünglichen EVS in eine Rolle umwandeln, um die Datenanalyse zu beschleunigen. Es versteht sich, dass wir drei Modi gleichzeitig unterstützen. „Diese drei Modi sind nicht gegenseitig austauschbar, aber jeder hat seine eigenen Vorteile. Die Szenarien und Merkmale seiner Anwendung“, erwähnte Huang Haiyan.

Basierend auf den oben genannten drei serverlosen Modi hat GaussDB (DWS) erfolgreich Data Warehouse-Dienste in verschiedenen Geschäftsszenarien für mehr als 1700 Kunden bereitgestellt. Huang Haiyan sagte: „Mittlerweile gibt es viele elastische Szenarien in der Cloud, beispielsweise im Internet. Zusammenfassend glauben wir, dass es zwei Arten elastischer Szenarien gibt.“

  • Langfristiges elastisches Szenario

Es gibt verschiedene Arten: Die erste besteht darin, dass es zu einem festen Zeitpunkt eine Gezeitenschwankung gibt, beispielsweise bei Werbeknoten wie „Double Eleven“ und „618“; die zweite besteht darin, dass die Anzahl mit zunehmender Größe des Unternehmens zunimmt der BenutzerDie Menge an Daten und Berechnungen wird ebenfalls zunehmen. Drittens weist das Unternehmen offensichtliche langfristige Merkmale auf. Beispielsweise haben Banken einen Abrechnungsbedarf am Monats-, Quartals- und Jahresende sowie den Berechnungsumfang wird größer ausfallen als üblich. Die Spielebranche macht am Wochenende Geschäfte. Der Betrag wird größer ausfallen als üblich.

  • Elastische Szenarien mit kurzen Perioden

Das heißt, es bestehen kurzfristig diversifizierte Anforderungen. Beispielsweise ist die Zeit von 00:00 bis 8:00 Uhr der Bank die Spitzenzeit des Batch-Betriebs. Zwischen 8:00 und 18:00 Uhr werden während des Batch-Betriebs einige interaktive Abfragen zu Berichten und Geschäftsdaten durchgeführt. Nach 18:00 Uhr ist es so ist die Zeit mit den niedrigsten Geschäftsspitzen. , was insgesamt eine Gezeitenschwankung darstellt.

Die extreme elastische Expansion und Kontraktion von Serverless kann die Geschäftsanforderungen in langfristigen und kurzfristigen elastischen Szenarien gut erfüllen, aber die Speicher-Computing-Trennarchitektur kann auch Probleme wie erhöhten Netzwerk-Overhead, geringere Datenverarbeitungseffizienz und Leistungseinbußen verursachen ., das Team von GaussDB (DWS) hat auch weitere Untersuchungen durchgeführt.

  • Erstens werden im ECS+EVS+OBS-Modus die Daten einheitlich auf OBS gespeichert, und EVS fungiert als Cache (Festplatten-Cache + Speicher-Cache). Da der Festplatten-Cache relativ kostengünstig ist und seine Größe kontrollierbar ist, GaussDB (DWS) hat einen großen Festplatten-Cache erstellt. Benutzer können den Anteil je nach Leistungs- oder Kostenanforderungen anpassen. Wenn Sie extreme Leistung erzielen möchten, können Sie theoretisch den Festplatten-Cache weiter erhöhen, bis er den Geschäftsanforderungen entspricht.
  • Die zweite besteht darin, die Berechnung nach unten zu verschieben und die Abfragelogik direkt an OBS weiterzuleiten. Wenn Benutzer Daten von OBS abfragen möchten, können sie Daten direkt aus der Quelle filtern, wodurch die Speichernutzung bei der Netzwerkübertragung reduziert und die Leistung verbessert wird.
  • Die letzte ist die E/A-Steuerung. GaussDB (DWS) verwendet mehrere E/A-Planungsagenten und Threads, um die Anzahl der Straßen von OBS direkt zu zählen und die Bandbreite von OBS vollständig zu nutzen, um zu verhindern, dass OBS bei geringer Auslastung unbrauchbar wird Die Belastung ist hoch. Treten Sie gegeneinander an, um die Leistung zu maximieren.

GaussDB (DWS) hat nicht nur die Richtung Serverless erforscht, sondern auch einige Durchbrüche bei der Integration von Seen und Lagern sowie der Integration von Daten und Intelligenz erzielt.

▶Stellen Sie sich die Zukunft der „Integration von See und Lager + Integration digitaler Intelligenz“ vor

Für die Erforschung der „Integration von Seen und Lagerhäusern“ hat Huawei Cloud dies relativ früh getan, damals jedoch hauptsächlich den Datenaustausch durch Darstellungstechnologie realisiert. Beispielsweise wurde für Spark- oder Hive-Tabellen eine entsprechende Tabelle in erstellt Data Warehouse, um Daten in Spark und Hive abzufragen. Mit zunehmender Datenmenge verdoppelt sich jedoch auch der Wartungsaufwand.

Die Darstellungstechnologie kann nur im Wesentlichen auf Daten zugreifen und weiß nicht, wie die Metadaten aussehen. Wenn der Inhalt der Metadaten vereinheitlicht ist, müssen Benutzer dieses Erscheinungsbild nicht erstellen.

Basierend auf dieser Idee führt GaussDB (DWS) das Konzept des externen Schemas ein. Durch die Erstellung eines externen Schemas und den anschließenden Zugriff auf die Metadaten von Hive und Spark in Form von schema.table ist es mit normalem SQL konsistent und kann auch verwendet werden Mit GaussDB (DWS) Durch die Assoziationsanalyse interner Tabellen wird GaussDB (DWS) leistungsfähiger als Optimierer und Ausführungsmotor.

„Für Huawei Cloud wird die gesamte EI-Plattform in Zukunft einen einheitlichen Speicherverwaltungskomponentendienst von Lake Formation einrichten, der die Verwaltung aller Data Warehouses und Metadaten verschiedener Komponenten im Datensee vereinheitlicht und die Metadaten in diesem Sinne wirklich realisiert.“ von Metadaten. Das Teilen von Metadaten ist schwieriger als das Teilen von Daten, oder es ist etwas, das wirklich wertvoller ist“, sagte Qi Tian, ​​technischer Experte von Huawei Cloud Data Warehouse GaussDB (DWS) .

Um das Planungsproblem verschiedener Datenbank-Plug-Ins oder Engines zu lösen, bietet GaussDB (DWS) außerdem eine Funktion namens External Connection, mit der externe Computer-Engines direkt aufgerufen werden können, um gemeinsam genutzte Daten oder ihre eigenen Daten zu berechnen oder eine Reihe von Engines, um die Vereinheitlichung von Berechnungen zu realisieren. Datenfreigabe, Metadatenfreigabe und Computervereinheitlichung sind die drei wichtigsten technischen Merkmale der GaussDB (DWS) Data Warehouse-Integration, die den Dateninseleffekt durchbricht und die Probleme verstreuter IT-Ressourcen, Datenbarrieren und Anwendungsisolation in Unternehmen löst.

Nachdem Huawei Cloud Data Warehouse eine plattformübergreifende Datenintegration realisiert hatte, schlug Huawei Cloud Data Warehouse mit Blick auf die Zukunft das Konzept der „digitalen und intelligenten Integration“ vor. Es versteht sich, dass die Verschmelzung von Daten und Intelligenz im Wesentlichen die Verschmelzung von Daten und KI ist, zwei vollständig getrennte Produktionslinien, um die Effizienz von 1+1>2 zu erreichen.

Derzeit untersucht GaussDB (DWS) die Integration von Daten und Intelligenz hauptsächlich in zwei Szenarien:

  • Erstens kann GaussDB (DWS) Batch-Daten auf OBS speichern und den Datenaustausch mit AI über OBS realisieren, um die automatisierten Batch-Datenverarbeitungsfunktionen von AI zu integrieren, ohne das Data Warehouse-Erlebnis zu beeinträchtigen.
  • Das zweite ist das Ad-hoc-Abfrageszenario . GaussDB (DWS) wurde für Datenzugriffs-Plug-Ins optimiert, sodass die KI-Produktionslinie Daten daraus besser und schneller abrufen kann.

Wenn man sich die Entwicklung des Data Warehouse ansieht, ist es nicht schwer zu erkennen, dass es seit seiner Geburt kontinuierlich in neue Technologien und neue Szenarien integriert wurde und an Vitalität gewonnen hat, wodurch der Wert von Daten kontinuierlich freigesetzt und die industrielle Entwicklung gefördert wurde .

Die Merkmale von GaussDB (DWS), wie umfassende Serverlosigkeit, Lake-Warehouse-Integration und Integration digitaler Intelligenz, sind wichtige Urteile von Huawei Cloud über die Entwicklungsrichtung der Data-Warehouse-Technologie in der neuen Ära und auch das Ergebnis der Anpassung der Data-Warehouse-Technologie an die Zeit anzupassen und iterativ weiterzuentwickeln. Mit dem Beginn der neuen Ära der KI lohnt es sich, darauf zu blicken, welche Macht die Data-Warehouse-Technologie nach der Integration von Daten und Intelligenz entfalten wird.

 

Klicken Sie hier, um zu folgen und zum ersten Mal mehr über die neuen Technologien von Huawei Cloud zu erfahren~

Absolventen der Nationalen Volksuniversität haben die Informationen aller Schüler der Schule gestohlen, um eine Website zur Schönheitsbewertung zu erstellen, und wurden strafrechtlich festgenommen. Die neue Windows-Version von QQ basierend auf der NT-Architektur wird offiziell veröffentlicht. Die Vereinigten Staaten werden die Verwendung durch China einschränken von Amazon, Microsoft und anderen Cloud-Diensten, die Trainings-KI-Modelle bereitstellen. Open-Source-Projekte haben angekündigt, die Funktionsentwicklung zu stoppen . LeaferJS , die bestbezahlte technische Position im Jahr 2023, wurde veröffentlicht: Visual Studio Code 1.80, eine Open-Source- und leistungsstarke 2D-Grafikbibliothek , unterstützt Terminal-Image-Funktionen . Die Anzahl der Threads-Registrierungen hat 30 Millionen überschritten. „Änderung“ Deepin übernimmt Asahi Linux, um sich im Juli an das Apple M1-Datenbankranking anzupassen: Oracle steigt und öffnet die Punktzahl erneut
{{o.name}}
{{m.name}}

Supongo que te gusta

Origin my.oschina.net/u/4526289/blog/10086486
Recomendado
Clasificación