Einige Chancen und Herausforderungen in der Doris2.0-Ära!

e5265c5bd583546e950b689184498aa7.png3 Millionen Wörter! Die umfassendste Community für Big-Data-Learning-Interviews im gesamten Netzwerk wartet auf Sie!

Letzten Freitag hat Doris offiziell die Version 2.0 angekündigt. Neben der erheblichen Leistungsverbesserung gibt es einige Funktionen, die Ihre besondere Aufmerksamkeit erfordern.

Laut der Beschreibung auf der offiziellen Website hat Doris in folgenden Bereichen große Fortschritte gemacht:

  • Protokollanalyse

  • Data Lake Verbundanalyse-Szenario

  • Effizienz und Schreiben von Datenaktualisierungen

  • Ressourcenelastizität und Trennung von Speicherung und Berechnung

  • Zusätzliche Benutzerfreundlichkeitsfunktionen für Geschäftsanwender

Bevor Doris diese Fähigkeiten hatte, hatte jeder keine Chance, diese Fähigkeiten kostenlos zu nutzen. Diese Funktionen der Datenbank sind in einigen kostenpflichtigen Datenbanken auf der Cloud-Plattform konzentriert, die ohne Geldausgaben nicht genutzt werden können.

Hier gibt es einige besonders wichtige Aktualisierungen. Möglicherweise müssen Sie besonders aufpassen, wenn Sie Doris ausführlich verwenden. Viele Interviewer stellen diese Fragen gerne. Ich werde einige meiner Praktiken kombinieren und einige wichtige auswählen.

Überprüfen Sie die Unterstützung der Parallelität

Im Bereich der Datenentwicklung werden „Punktabfragen“ oder KV-Abfragen verwendet. In der Vergangenheit erforderten solche Anforderungen häufig die Einführung von KV-Systemen wie Apache HBase zur Verarbeitung von Punktabfragen oder Redis als Cache-Schicht zur Aufteilung des mitgebrachten Systemdrucks durch hohe Parallelität. In der Szene der Auftragsattributabfrage müssen wir beispielsweise einige Attributinformationen der Bestellung entsprechend der Bestellnummer korrelieren. Viele OLAPs haben in diesem Szenario ernsthafte Leistungsprobleme, daher haben wir bereits erwähnt, dass verschiedene OLAP-Bibliotheken im Hintergrund nicht gut sind -end Die MySQL-Datenbank wird für die Entwicklung verwendet, um Datenbereitstellungsabfragen zu bewältigen. Wenn unser Geschäftsumfang jedoch nach Version 2.0 klein ist, müssen wir keine zusätzlichen Komponenten wie Hbase einführen, die bestimmte Punktabfrageanforderungen in einem kleinen Bereich unterstützen können und reduzieren Sie komplexe Technologie-Stacks. Die Wartungskosten und die redundante Speicherung von Daten.

Die Prinzipien hier umfassen: Cache-Optimierung, Zeilenspeicherformat, Punktabfrage-Kurzpfadoptimierung, Anweisungsvorverarbeitung, Zeilen-Cache usw. Sie müssen es selbst verstehen. Wenn Sie diese Funktion in einer groß angelegten Produktionsumgebung nutzen, müssen Sie die Grundprinzipien und die besten Produktionspraktiken verstehen.

Protokollanalyseszenarien

Doris Version 2.0 führt einige Funktionen wie „invertierter Index“ und „halbstrukturierter Datentyp“ usw. ein. Wenn Sie mit ES vertraut sind, sollten Sie diese beiden Wörter oben verstehen.

Zuvor haben wir in großem Umfang Buckets der ELK-Familie verwendet, um das Protokollsystem zu unterstützen: FileBeat, Logstash, Kafka, Kibana, oder wir müssen auch ES DSL verstehen. Wenn unser System nicht groß ist, verursachen die Nutzung sowie Betriebs- und Wartungskosten Durch die Einführung der oben genannten Komponenten ist die Geschwindigkeit sehr hoch und es ist auch erforderlich, das Problem der ES-Lese- und Schreibstabilität usw. zu lösen.

Nach der Doris 2.0-Version können wir in einigen Szenarien versuchen, eine kostengünstige, benutzerfreundliche, vereinfachte Version des ELK-Systems basierend auf Doris zu erstellen. Darüber hinaus unterstützt Doris Standard-SQL und ist hochkompatibel mit dem MySQL-Protokoll und Syntax. Wir können ganz einfach eine Protokollanalyse durchführen.

Heiße und kalte Trennung

Ein wichtiges Feature der Version 2.0 ist die Trennung von heiß und kalt. Heiße und kalte Trennung ist ein sehr wichtiges Konzept im Big-Data-Bereich. Tatsächlich unterstützten viele Komponenten im Big-Data-Bereich vor Doris die Speicherung von kalter und heißer Trennung, wie beispielsweise die bekannte Elasticsearch, die die Fragmentzuteilungsstrategie von ES verwendet Bei gegebenem Knotenrouting kann die Speicherung kalter und heißer Daten getrennt realisiert werden, sodass heiße Datenknoten alle neuen Eingabedaten verarbeiten und die Speichergeschwindigkeit ebenfalls schneller ist, um eine schnelle Datenerfassung und -abfrage sicherzustellen. Kalte Knoten haben eine höhere Speicherdichte und können Daten für einen längeren Aufbewahrungszeitraum aufbewahren, was die Kosten erheblich senkt.

Doris kann auch die dynamische Partitionsfunktion verwenden, um den Lebenszyklus von Tabellenpartitionen zu verwalten. Durch Festlegen der Zeit für das Abkühlen heißer Daten und der Identifizierung des Speichermediums kühlen Hintergrundaufgaben automatisch heiße Daten von der SSD auf die Festplatte ab, um Benutzern dabei zu helfen, die Speicherkosten zu minimieren. kosten.

Dies ist in Szenarien mit großen Geschäften und Daten nahezu ein Muss. Denn wer hätte schon Probleme damit, Geld zu sparen?

Hucang integriertes Feld

Doris hat in einer sehr frühen Version die Zuordnung verschiedener heterogener Datenquellen wie Hive, ES usw. unterstützt. In Version 2.0 wurde der Umfang der Lake-Tabelle erweitert und Unterstützung für Hudi, Iceberg und Paimon hinzugefügt . Das wird eine gewaltige Veränderung sein. Wir können Doris jetzt ganz einfach Lake-Tabellen zuordnen, um Abfragen zu beschleunigen, und wir haben große Fortschritte bei Datenföderations-Abfrage- und Analyseszenarien gemacht.

c80cea68b7a6fd2fde4a2bcf22315621.png

In Zukunft können wir die integrierte Architektur von Seelagern problemlos in bestimmte Geschäftsszenarien implementieren. Zu diesem Zeitpunkt wird die integrierte See- und Lagerarchitektur basierend auf Flink, Doris, Hudi usw. häufig vor allen Augen erscheinen. Natürlich gibt es hier noch viel Optimierungsbedarf, aber dieser Tag wird bald kommen.

andere

Darüber hinaus hat Doris auch bestimmte Funktionen verbessert, z. B. Spaltenaktualisierungsfunktionen unter mehreren Datenmodellen, Hochfrequenz-Schreibkomprimierungsspeicheroptimierung usw. Vor diesen Optimierungen mussten wir alle Aufgaben stark optimieren, aber jetzt ist dies nicht mehr erforderlich Ja, Sie müssen es bei der Verwendung selbst erleben.

Kurz gesagt, nach Version 2.0 wird Doris' Vorsprung im Open-Source-OLAP-Bereich schrittweise erweitert, vergleichbar mit ausgereiften Produkten auf vielen Cloud-Plattformen.

Sie können sehen, wie schnell sich der Datenentwicklungsbereich in den letzten Jahren entwickelt hat. Es ist fast der einzige Technologie-Stack in allen IT-Entwicklungsrichtungen, der schnell iterativ aktualisiert wurde. Jeder Technologie-Stack muss mit der Zeit gehen! Warten Sie mit dem Aufwachen nicht, bis Sie von den Zeiten im Stich gelassen werden!

Wenn dieser Artikel für Sie hilfreich ist, vergessen Sie nicht,   dreimal „Gefällt mir“,  „Gefällt mir“  und „Favorit“ zu markieren!

f303f4dd2a2eaa47177dd267e586af3b.png

6b4b9c4f1a6ba2e3e211bdf8fbeed720.jpeg

Es wird 2022 im gesamten Netzwerk veröffentlicht | Kompetenzmodell und Lernleitfaden für Big-Data-Experten (Shengtian Banzi)

Die schlimmste Ära des Internets könnte tatsächlich angebrochen sein

Ich studiere an der Universität Bilibili mit Schwerpunkt Big Data

Was lernen wir, wenn wir Flink lernen?

193 Artikel schlagen Flink heftig, Sie müssen auf diese Sammlung achten

Top-Probleme und Optimierung der Flink-Produktionsumgebung, Alibaba Tibetan Scripture Pavilion YYDS

Flink CDC Ich bin sicher, Jesus kann ihn nicht behalten! | Flink CDC Online-Probleminventur

Was lernen wir, wenn wir Spark lernen?

Unter allen Spark-Modulen möchte ich SparkSQL als das stärkste bezeichnen!

Hard Gang Hive | Zusammenfassung des Basic-Tuning-Interviews mit 40.000 Wörtern

Eine kleine Enzyklopädie der Data-Governance-Methoden und -Praktiken

Eine kleine Anleitung zur Erstellung von Benutzerporträts unter dem Label-System

40.000 Wörter langer Text | ClickHouse-Grundlagen & -Übungen & -Tuning, vollständige Perspektivanalyse

[Interview & persönliches Wachstum] Mehr als die Hälfte des Jahres 2021, die Erfahrung mit sozialer Rekrutierung und Schulrekrutierung

Ein weiteres Jahrzehnt in Richtung Big Data beginnt | Die erste Ausgabe der „Hard Gang Series“ endet

Artikel, die ich über Wachstum/Interview/Karriereförderung geschrieben habe

Was lernen wir, wenn wir Hive lernen? „Hard Hive Fortsetzung“

Supongo que te gusta

Origin blog.csdn.net/u013411339/article/details/132288446
Recomendado
Clasificación