Was ist ein Datensee? Data Lake-Architektur und -Anwendung (Ende)

Data-Lake-Architektur

Die Data-Lake-Architektur beschreibt hauptsächlich jede Komponente und die Beziehung zwischen Komponenten und erläutert den Datenspeicher-, Verarbeitungs- und Zugriffsprozess. Die Forschung zur Data-Lake-Architektur befasst sich zunächst hauptsächlich mit der Aufteilung, Verwaltung und Nutzung von Daten. Mit fortschreitender Forschung umfasst die Data-Lake-Architektur tiefergehende Schlüsseltechnologien und -lösungen.

Partitionsarchitektur

Beim anfänglichen Data-Lake-Design spielt die Datenvorverarbeitung eine äußerst wichtige Rolle, und die Kernarchitektur besteht aus der Pool-Architektur und der Partitionsarchitektur.

Die Poolarchitektur klassifiziert Daten anhand unterschiedlicher Merkmale in fünf verschiedene Pools: Originaldatenpool, simulierter Datenpool, Anwendungsdatenpool, Textdatenpool und Archivdatenpool. In der Poolarchitektur können die in jedem Pool gespeicherten Daten nur von einem bestimmten Pool verwendet werden. Bei dieser Entwurfsmethode besteht das Problem, dass die ursprüngliche Form der Daten nicht beibehalten werden kann, was gegen das Konzept des Datensees verstößt.

Relativ gesehen ist die Leistung der Partitionsarchitektur bei der Beibehaltung der ursprünglichen Datenform besser. Im Architekturentwurf ist die Partitionsarchitektur entsprechend dem unterschiedlichen Grad der Datenverarbeitung in temporäre Ladebereiche, Originaldatenbereiche, verfeinerte Datenbereiche, vertrauenswürdige Datenbereiche, Datenexplorationsbereiche und Datenverbrauchsbereiche unterteilt. Der Name und die Anzahl der Partitionen in der Partitionsarchitektur sind nicht festgelegt. Verschiedene Partitionsarchitekturen haben ihre eigenen einzigartigen Lösungen. Sie werden basierend auf dem Grad der Datenverarbeitung in Partitionen unterteilt. Sie können auch Daten aus verschiedenen Partitionen entsprechend Ihren eigenen Anforderungen abrufen.

Obwohl die Partitionsarchitektur viele effektive Methoden und Vorschläge für die Datenvorverarbeitung des Data Lake bietet, deckt sie nicht den gesamten Umfang des Data Lake ab. Derzeit hat die Entwicklung der Data-Lake-Architektur zu einer umfassenderen technischen Architektur begonnen.

Architektur der Data Lake-Technologie

Da sich die Architektur der Data Lake-Technologie weiterentwickelt, kann sie eine detailliertere Erklärung der Beziehung zwischen den verschiedenen technischen Komponenten im Data Lake liefern. Viele Anbieter haben verschiedene Data-Lake-Architekturen vorgeschlagen. Gemeinsam ist diesen Architekturen, dass sie verschiedene Phasen der Datenverarbeitung klassifizieren und die Architekturkomponenten wie Datenerfassung, Datenspeicherung, Datenverarbeitung, Datenexploration usw. unterteilen. Da sich die technische Architektur des Data Lake weiter verbessert, wurden der Architektur auch Komponenten im Zusammenhang mit der Datenverwaltung hinzugefügt, darunter Datensicherheit, Qualitätsmanagement usw.

Aus der von Experten vorgeschlagenen technischen Architektur des Datensees ist ersichtlich, dass die technische Architektur des Datensees viele architektonische Inhalte in der Datenverarbeitungsphase und Datenverwaltung hinzugefügt hat. Seine Entwicklung befindet sich jedoch noch in einem frühen Stadium und ist daher noch weit davon entfernt, ein ausgereifter Architekturstandard zu werden.

Data Lake-Anwendung

Smart Grid

Mit der Entwicklung intelligenter Netze wurde eine große Anzahl intelligenter Messgeräte und Sensoren eingesetzt, die umfangreiche, aus mehreren Quellen stammende und heterogene Smart-Grid-Daten generieren. Der aus diesen Smart-Grid-Daten gewonnene Wert verbessert nicht nur die Managementqualität des Stromnetzes, sondern bietet auch bessere Dienstleistungen für verschiedene Arten von Stromkunden. Herkömmliche Smart-Grid-Datenmanagementsysteme sind jedoch nicht skalierbar und bieten keine ausreichenden Speicher- und Verarbeitungskapazitäten, und Data-Lake-Speichersysteme gleichen diesen Mangel lediglich aus.

Krankenversicherung

Mit der rasanten Entwicklung des Internets der Dinge wird auch die Medizinbranche mit vielen intelligenten Geräten ausgestattet und in bestehende Geschäftssysteme integriert. Gleichzeitig werden im Zuge der digitalen Transformation der Medizinbranche große Mengen medizinischer und Gesundheitsdaten gespeichert, und die Wertschöpfung dieser Gesundheitsdaten steht in direktem Zusammenhang mit der Umsetzung der personalisierten Medizin. Medizinische und Gesundheitsdaten umfassen verschiedene Arten heterogener Daten, bei denen es sich größtenteils um unstrukturierte und halbstrukturierte Daten handelt.

erziehen

Riesige Mengen an Bildungsdaten werden von Bildungsanwendungen, Schülern, Inhaltsentwicklern, Lehrern, Lernprozessen, Sensoren und Geräten generiert. Eine gemeinsame Herausforderung für viele Bildungsorganisationen besteht darin, einen effektiven Weg zu finden, diese Daten zu nutzen und zu analysieren, um sie kontinuierlich bereitzustellen Bessere Ausbildung. Gegenwärtig hat die Entwicklung von Bildungsdaten die Merkmale eines großen Volumens, einer Vielfalt und einer hohen Geschwindigkeit gezeigt. Angesichts dieser Eigenschaften von Bildungsdaten ist Data Lake eine gute Lösung zur Datenspeicherung und Datenanalyse.

andere

Der Luftfahrtbereich durchläuft im Luftverkehr einen digitalen Wandel. Der Austausch von Flugumgebungs-, Wetter-, Flugzeug- und anderen Daten sowie der Interoperabilität zwischen Systemen ist der Schlüssel zur Verbesserung der Flugeffizienz, -sicherheit und -kapazität und eine wichtige Grundlage für die Optimierung des Flugverkehrs . .

Im landwirtschaftlichen Bereich bestimmt der Grad der Reduzierung menschlicher Eingriffe den Grad der landwirtschaftlichen Intelligenz. Unter anderem standen intelligente Landwirtschaftsplattformen, die auf Big-Data-Management basieren, schon immer im Fokus vieler Forscher. Der intelligente Agrardatensee unterstützt den Entwicklungsprozess der Landwirtschaft und liefert nützliche Entscheidungsvorschläge in Bezug auf räumliche Verteilung, Wasserschutzmanagement und Wartung landwirtschaftlicher Maschinensysteme.

Die Analyse sozialer offener Daten wie sozialer Medien ist zu einem unverzichtbaren Gesichtspunkt im Entscheidungsprozess vieler Organisationen geworden. Der Schlüssel zur Analyse sozialer offener Daten besteht darin, von sozialen Akteuren generierte Rohdaten in sorgfältig gestaltete Daten umzuwandeln, die relevante Daten und Wissen extrahieren, wenn Endbenutzer Anwendungen verwenden. Data Lakes bereiten soziale Rohdaten für Big-Data-Analysen auf, indem sie diese automatisch verwalten.

Data Lakes spielen nicht nur eine immer wichtigere Rolle bei der digitalen Transformation verschiedener Branchen, sondern haben auch viele Anwendungen im Bereich der wissenschaftlichen Forschung mit Big Data, darunter Biologie, Astronomie, Archäologie und anderen Bereichen.

Zusammenfassen

Derzeit spielt der Data Lake eine unverzichtbare Rolle im eigentlichen Big-Data-Analyseanwendungsprozess. Sein Hauptvorteil besteht darin, dass er große Mengen heterogener Daten zentral speichern und verarbeiten kann. Diese Funktion ermöglicht auch Big-Data-Analyseanwendungen. Die Grundlage für große Anstrengungen Wert. Darüber hinaus können Data Lakes auch konzeptionelle Data Lakes für bestimmte Regionen, wissenschaftliche Bereiche und sogar Branchen erstellen, um verschiedene Datendienste bereitzustellen, die Menschen in einem umfassenderen und professionelleren Modell benötigen. Dies spiegelt auch die Bedeutung von Data Lakes wider. Großer Vorteil. Obwohl Data Lakes viele Vorteile haben, stehen sie in der praktischen Anwendung auch vor vielen Herausforderungen und Problemen. Aufgrund der zentralisierten Speichereigenschaften von Data Lakes stellt dies zweifellos ein Risiko für einige Branchen mit hohen Sicherheitsanforderungen dar. Die meisten Menschen, die Data Lakes nutzen, sind Profis, die hohe Datenanalysefähigkeiten benötigen, aber vielen Unternehmen und Organisationen mangelt es an Datenanalyseexperten mit fundierten Kenntnissen des Geschäftsfelds. Da sich die Data-Lake-Technologie schließlich noch in einem frühen Stadium der kontinuierlichen Entwicklung befindet, wurden viele Datenverarbeitungstechnologien noch nicht vollständig in praktischen Anwendungen verifiziert. In Verbindung mit den Szenarioeigenschaften von Industrieanwendungen können weitere technische Schwierigkeiten auftreten. Obwohl die Anwendung von Data Lakes die oben genannten Schwierigkeiten aufweist, hat sich im Kontext von Big Data der Entwicklungstrend von Data Lakes herausgebildet. Mit der kontinuierlichen Implementierung von Industrieanwendungen werden diese Probleme nach und nach effektiv gelöst.

おすすめ

転載: blog.csdn.net/WhiteCattle_DATA/article/details/132906056