„2022 Open Source Big Data Heat Power Report“ wird veröffentlicht

Am 5. November wurde auf dem Integrated Big Data Intelligence Summit der Yunqi Conference der „2022 Open Source Big Data Thermal Power Report“ veröffentlicht, der gemeinsam von der Open Atom Open Source Foundation, dem X-lab Open Laboratory und dem Alibaba Open Source Committee erstellt wurde .

Liu Jingjuan, stellvertretender Generalsekretär der Open Atom Open Source Foundation

Liu Jingjuan, stellvertretender Generalsekretär der Open Atom Open Source Foundation, gab eine ausführliche Interpretation des Berichts . Basierend auf den 102 Open-Source-Big-Data-Projekten mit der aktivsten Forschung zu öffentlichen Daten untersucht der Bericht das „Mooresche Gesetz“ hinter der Entwicklung der Open-Source-Big-Data-Technologie: Alle 40 Monate verdoppelt sich der Heizwert von Open-Source-Projekten , und die Technologie wird eine Runde von Updates iterieren. In den letzten 8 Jahren gab es 5 groß angelegte technologische thermische Übergänge, und Diversifizierung, Integration und Cloud-Native sind zu den markantesten Merkmalen des aktuellen Entwicklungstrends von Open-Source-Big-Data geworden.

Quantitative Analyse von Open-Source-Trends in der „Post-Hadoop-Ära“

Als Ursprung der Open-Source-Big-Data-Technologie entstand Hadoop im Jahr 2006 und blickt auf eine 16-jährige Geschichte zurück. Der Bericht sammelt relevante öffentliche Daten vom 10. Jahr der Hadoop-Entwicklung (d. h. 2015) bis heute, führt Korrelationsanalysen durch, definiert das Forschungsmodell des thermischen Werts von Open-Source-Projekten und verwendet quantitative Indikatoren zur Beschreibung der Entwicklungsiteration Aktivitäten von Open-Source-Projekten und der Einfluss von Entwicklern willkommene Ebene.

Die im Bericht vorgestellte Heatmap von Open-Source-Big-Data bietet Einblick in die thermische Leistung der in die engere Wahl gezogenen Projekte aus der Perspektive des Technologiepanoramas, der Klassifizierung des Technologie-Stacks und der Projektdimensionen und korreliert und analysiert Schlüsselereignisse im Projektprozess mit der thermischen Leistung. und interviewt Open-Source-Stiftungen, bekannte Experten in Bereichen wie Open-Source-Projekten versuchen, das allgemeine Gesetz der gesunden Entwicklung von Projekten zu finden, und fassen die Methodik zusammen, um den Einfluss von Projekten effektiv zu verbessern.

„Moore’s Law“ der Open-Source-Big-Data-Technologie

Der Bericht stellte fest, dass sich der Heizwert alle 40 Monate verdoppelt, Open Source Big Data eine Runde iterativer Technologie-Upgrades abgeschlossen hat und sich der Technologiezyklus immer schneller verkürzt. In 8 Jahren gab es mehrere Runden thermischer Änderungen, was den Trend widerspiegelt, die dahinter stehende Technologie zu verbessern. Die Entwickler haben eine langfristige Entwicklungsbegeisterung für "Datenabfrage und -analyse" bewahrt und stehen seit 8 Jahren in Folge an erster Stelle in der Heizwertliste. Im Jahr 2017 übertraf der thermische Wert der „Stream-Verarbeitung“ den der „Batch-Verarbeitung“, und die Big-Data-Verarbeitung trat in die Echtzeitphase ein. Der Umfang der Daten wird immer größer, die Datenstruktur vielfältiger, die „Datenintegration“ wird ab 2020 explodieren.

Drei heiße Trends: Diversifikation, Integration und Cloud Native

Die Diversifizierung der Nutzerbedürfnisse fördert die Diversifizierung der Technologie. „Data Lake“ belegt mit einer durchschnittlichen jährlichen Wachstumsrate von 34 % den ersten Platz beim Heizwertwachstum, gefolgt von „Interactive Analysis“ und „DataOps“ auf den Plätzen zwei und drei. Die Produktiteration des ursprünglichen Hadoop-Systems ist tendenziell stabil, mit einer durchschnittlichen jährlichen Wachstumsrate von 1 % für den thermischen Wert.

Seit 2015 tritt der Computing-Teil federführend in den Evolutionsprozess „Integration“ ein, und der typische Vertreter „Integration von Streaming und Batching“ hat 2019 seinen ersten thermischen Höhepunkt. Die Speicherintegration, repräsentiert durch Data Lake Storage, ist seit 2019 in eine neue Entwicklungsphase eingetreten, und heiße Projekte wie Delta Lake, Iceberg und Hudi sind entstanden.

Cloudnative groß angelegte Rekonstruktion des Open-Source-Technologie-Stacks. Open-Source-Projekte, die in der Cloud-nativen Ära geboren wurden, sind wie Pilze nach dem Regen aus dem Boden geschossen. In Bereichen wie „Datenintegration“, „Datenspeicherung“ und „Datenentwicklung und -verwaltung“ gab es größere Projektänderungen, und der thermische Wert neuer Projekte hat 80 % überschritten.

Open-Source-Big-Data-Heatlist TOP30

Dieser Bericht wählt aus den 102 nominierten Projekten die TOP30-Laufliste aus. Kibana führte die Liste mit einem Wärmewert von 989,40 an. ClickHouse (Datenabfrage und -analyse), Airflow (Datenplanung und -orchestrierung), Flink (Stream-Verarbeitung) und Airbyte (Datenintegration) gewannen jeweils TOP1 in ihren jeweiligen Segmenten. Eine Reihe von chinesischen Open-Source-Projekten wie Pulsar, Doris, StarRocks, DolphinScheduler, SeaTunnel usw. zeigten ebenfalls einen hohen Hitzetrend. Ein gemeinsames Merkmal dieser exzellenten Open-Source-Projekte ist es, das Lösen von Benutzerproblemen als zentrale Wettbewerbsfähigkeit zu betrachten.Diese Eigenschaft stellt sicher, dass sie mit der Zeit Schritt halten und im Hitzetrend zu "Evergreen Trees" werden.

Danke an Kaiyuan China, InfoQ und die Alibaba Cloud Developer Community für ihre strategische Unterstützung; danke an die 32 Experten und Mitwirkenden, die wichtige Beiträge zum Ergebnis dieses Berichts geleistet haben; danke an CSDN, DataFun, Segmentfault, Kaiyuanshe und andere Communities für ihre Zusammenarbeit.

Downloadadresse melden:

https://www.openatom.org/other/%E5%BC%80%E6%BA%90%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%83%AD%E5 %8A%9B%E6%8A%A5%E5%91%8A2022.pdf

Supongo que te gusta

Origin blog.csdn.net/OpenAtomFund/article/details/128236526
Recomendado
Clasificación