Flink ist zum De-facto-Standard für Streaming-Computing geworden

Zusammenfassung: Dieser Artikel wurde von Wang Feng (Mo Wen), Gründer der chinesischen Apache Flink-Community und Leiter der Open-Source-Big-Data-Plattform von Alibaba, zusammengestellt und am Hauptveranstaltungsort von Flink Forward Asia 2023 geteilt. Flink hat sich seit seiner Gründung im Jahr 2014 fast 10 Jahre lang weiterentwickelt, insbesondere in den letzten Jahren. Weltweit ist Flink zum De-facto-Standard für Echtzeit-Stream-Computing geworden. Aber Flink hört hier nicht auf. Angetrieben von den Benutzern entwickelt sich die Flink-Community durch technologische Innovation und Weiterentwicklung weiter in Richtung weiterer Zukunftsszenarien. Dieser Austausch wird allen über die wichtigsten technischen Errungenschaften und technologischen Entwicklungstrends von Flink im Jahr 2023 berichten.

1. Die globale Apache Flink-Community ist weiterhin aktiv

1

Flink hat in den letzten zehn Jahren weiterhin eine stabile und schnelle Entwicklung aufrechterhalten. Es gibt mehr als 1.700 globale Entwicklungsmitwirkende. Die Mitwirkenden kommen aus der ganzen Welt, nicht nur aus China, sondern auch aus Europa, Amerika und anderen Regionen. Alle fördern gemeinsam die Entwicklung der Flink-Community. Gleichzeitig erreichten auch die Flink-Downloads einen neuen Höchststand. In diesem Jahr wurden monatlich mehr als 22 Millionen Downloads durchgeführt, und mehr Benutzer und Unternehmen luden Flink zu Lern-, Test- und Produktionszwecken sowie zur Datenverarbeitung in Echtzeit herunter.

2. Apache Flink gewinnt den SIGMOD 2023 System Award

2

Mitte dieses Jahres gewann das Flink-Team außerdem den SIGMOD 2023 System Award. SIGMOD ist die Top-Konferenz im gesamten Bereich der Datenverarbeitung und eine der maßgeblichsten Konferenzen. SIGMOD wählt jedes Jahr eine innovative Systemtechnologie aus, die in der globalen Industrie weit verbreitet ist und sich bewährt hat, und verleiht ihr den System Award. In diesem Jahr verlieh SIGMOD die Auszeichnung an Apache Flink in Anerkennung der führenden Position und breiten Anwendung von Flink in der Echtzeit-Stream-Verarbeitung auf der ganzen Welt. Dies beweist einmal mehr, dass Flink nicht nur in China, sondern weltweit anerkannt ist und sich de facto zum Stream-Computing-Standard entwickelt hat.

In der Liste der Gewinner im Bild oben sieht man eine besondere Landschaft, fast 50 % von ihnen stammen aus Chinesen. Die herausragenden Beiträge chinesischer Entwickler haben die Entwicklung der Community gefördert.

3. Der fünfte Jahrestag der chinesischen Apache Flink-Community

3

Chinesische Entwickler sind bereit, der Community beizutreten und die Entwicklung von Flink voranzutreiben. Man kann sagen, dass Flink ein globales Open-Source-Big-Data-Projekt ist, das von chinesischen Ingenieuren geleitet wird. Die chinesische Apache Flink-Community ist eine lokalisierte Community, die 2018 gegründet wurde. Die ursprüngliche Absicht der Gründung der Community besteht darin, die Community-Entwicklung und Technologiepopularisierung von Flink in China zu fördern. Große inländische Unternehmen haben sich am Bau beteiligt, darunter Tencent, Kuaishou, Byte, Meituan usw., und so die schnelle Entwicklung der chinesischen Flink-Community gefördert. Flink Forward Asia (im Folgenden als FFA bezeichnet) ist ebenfalls ein wichtiges Produkt der chinesischen Community. Seit 2018 ist Alibaba Cloud Gastgeber der Flink Forward-Konferenz und veranstaltet einen jährlichen FFA-Gipfel. Durch umfangreiche Community-Aktivitäten und zahlreiche Inhaltsbeiträge haben wir viele Flink-Lernmaterialien gesammelt, die Entwickler lernen und nutzen können.

四、Apache Flink Major Releases im Jahr 2023

4

Als immergrüner Baum im Bereich Open-Source-Big-Data hat sich Flink in den letzten Jahren rasant weiterentwickelt. Neben aktiven Community-Mitwirkenden und kontinuierlicher operativer Unterstützung ist die technische Natur die wichtigste treibende Kraft. Die Flink-Community entwickelt sich in den Kernbereichen der Technologie weiter und bringt jedes Jahr verschiedene neue Funktionen und Innovationen auf den Markt, die den Benutzern neuen Geschäftswert bringen und die Benutzer bereit machen, die Entwicklung zu nutzen, beizutragen und zu fördern.

Lassen Sie mich im Folgenden über die wichtigsten technischen Fortschritte berichten, die das Flink-Team im Jahr 2023 erzielt hat:

Die Flink-Community veröffentlicht weiterhin zwei Hauptversionen pro Jahr, Flink 1.17 in der ersten Jahreshälfte und Flink 1.18 in der zweiten Jahreshälfte. In beiden Versionen brachte die Community dennoch viele neue Mitwirkende hervor. Im Kernbereich der Stream-Verarbeitung strebt das Flink-Entwicklungsteam nach Exzellenz und verfeinert und verbessert diese entsprechend den Benutzeranforderungen und Geschäftsszenarien. Im Bereich des integrierten Stream-Batch-Computings haben wir die Leistungsprobleme und die Funktionsperfektion von Flink im Batch-Verarbeitungsmodus weiter verbessert, sodass Flink zu einer hervorragenden Computer-Engine werden kann, die sowohl begrenzte als auch unbegrenzte Datensätze auf einheitliche Weise verarbeiten kann. .

Darüber hinaus entwickeln wir auch weiterhin Innovationen in Szenarien. Flink hofft, mehr Daten verarbeiten zu können und mehr Daten fließen zu lassen. Deshalb ließen wir Flink und die Lakehouse-Architektur einen kooperativen und synergistischen Effekt erzeugen. Die Lakehouse-Architektur hat sich zu einem neuen Architekturtrend im Bereich der Datenanalyse entwickelt. Immer mehr Anwender übertragen das traditionelle Hive-basierte Data-Warehouse-System auf die Lakehouse-Architektur. Wir hoffen, dass die Echtzeit-Computing-Funktionen von Flink den Datenfluss und die Datenanalyseeffekte von Lakehouse beschleunigen können.

Was die Bereitstellungsarchitektur angeht, haben wir in der Flink-Community auch viel Arbeit geleistet, um Flink so zu fördern, dass es besser in der Cloud läuft. Cloud Native ist mittlerweile nicht nur Big Data, sondern auch eine neue Basis für KI, Datenbanken und verschiedene Computersysteme. Immer mehr Projekte und Software müssen gut in der Cloud laufen können, um Benutzern ein besseres Erlebnis zu bieten.

5. Streaming SQL strebt nach Exzellenz und kontinuierlicher Verbesserung

Bild

Ich habe die sehr wertvollen technischen Features der Flink-Community in diesen beiden Hauptversionen im Jahr 2023 ausgewählt und gebe Ihnen eine Interpretation. Zunächst einmal: Welche wichtigen Verbesserungen haben wir im Kernbereich des Streaming-Computing vorgenommen?

Streaming-SQL ist das, worauf Benutzer am meisten achten, und es ist auch das, was Benutzer am häufigsten verwenden, um Benutzern das direkteste Erlebnis zu bieten. Flink SQL ist leistungsstark. Verwenden Sie Flink SQL, um verschiedene Streaming-Daten in Echtzeit zu analysieren. In diesem Jahr haben wir viele Verbesserungen an Flink SQL vorgenommen. Sie sehen, dass es Hunderte von Problemen rund um Flink SQL gibt und mehr als 40 neue Mitwirkende zu Flink SQL beitragen. Beispielsweise wurde dieses Jahr eine neue Funktion namens Plan Advice eingeführt, die Benutzern hilft, Streaming SQL intelligent zu überprüfen und potenzielle Probleme zu entdecken Semantische Risiken usw. fordern den Benutzer so schnell wie möglich auf, teilen dem Benutzer mit, dass SQL möglicherweise nicht gut genug geschrieben ist, dass bestimmte Risiken und potenziell unbekannte Situationen bestehen, und geben praktikable Vorschläge. Dies sind sehr nützliche Funktionen, um Unsicherheiten und Instabilität während der Laufzeit zu vermeiden.

Darüber hinaus haben SQL-Benutzer noch viele Bedürfnisse. Sie hoffen, dass SQL flexibler sein kann. Wie DataStream wurde Flink in den frühen Tagen in Java und anderen Sprachen geschrieben. DataStream-Daten haben viele flexible Funktionen. Wir hoffen auch, sie voranzutreiben in SQL integrieren, um es flexibler zu machen. Auch SQL-Benutzer können diese Systemflexibilität genießen und gleichzeitig die Entwicklung vereinfachen. Zum Beispiel die flexiblere Verwaltung von Watermark, die STATE TTL-Konfiguration auf Bedienerebene usw. Gleichzeitig haben wir Calcite, das Grundgerüst von SQL, erheblich verbessert, um die gesamte Optimierungsfähigkeit des SQL-Plans zu stärken und bessere Ergebnisse zu erzielen.

6. Universeller inkrementeller Checkpoint, vollständig online implementiert

6

Wir haben relativ große Upgrade-Arbeiten an der Kernarchitektur von Stream durchgeführt. Das größte Merkmal von Flink ist das zustandsorientierte Computing. Es verfügt über Statusspeicher- und Statuszugriffsfunktionen, Statusverwaltung, Checkpoint-Snapshot-Management usw. Dies sind die Kernbestandteile von Flink, und auch in diesem Bereich stellen Benutzer hohe Anforderungen. Flink erstellt regelmäßig globale Konsistenz-Snapshots. Je schneller die Snapshot-Frequenz ist, desto besser und je geringer die Kosten, desto besser. Dadurch kann das System so wenig Daten wie möglich wiedergeben, wenn Fehlertoleranz auftritt. Beispielsweise ist das Erreichen eines Checkpoints in Sekundenschnelle ein sehr guter Effekt. Deshalb haben wir hart daran gearbeitet, es zu implementieren. Die universelle inkrementelle Checkpoint-Funktion wurde in Flink1.17 und 1.18 implementiert und erreichte einen vollständig produktionsverfügbaren Zustand. Viele inländische Unternehmen haben begonnen, diese neue Technologie in der Massenproduktion einzusetzen. Diese Technologien basieren auch auf Protokollfunktionen und werden in Form von Protokollverwaltung gefördert. Da das Framework auf Prüfpunktfunktionen für die Protokollverwaltung basieren muss, ist die Arbeit relativ gering, sodass Prüfpunkte schnell implementiert werden können. Gleichzeitig entkoppelt die Architektur den Checkpoint und die Materialisierung von Statusdaten. Dadurch wird die Zeitpunkthäufigkeit der einzelnen Aufgabendaten-E/A natürlich unterbrochen. Auf diese Weise weist das gesamte System keine momentanen Schwankungen auf und das System wird gleichmäßiger. Daher ist der gesamte Checkpoint schnell und reibungslos.

7. Flink Batch – zunehmend ausgereift und für die Produktion verfügbar

7

Auch in Bezug auf Batch haben wir viel Arbeit geleistet. Als Streaming-Batch-integrierte Engine hoffen wir, dass Flink über umfassendere Rechenfunktionen verfügt und Benutzern ein Datenverarbeitungs- und Datenentwicklungserlebnis aus einer Hand bietet. Im Allgemeinen ist Batch perfekter. Aufgrund der Batch-bezogenen Arbeit startete Flink später. Im Gegensatz zu Streaming ist es bereits sehr perfekt. Nach unseren Bemühungen in diesem Jahr haben wir jedoch die Bedürfnisse der Benutzer umgesetzt. Unabhängig von der Funktionalität, der Systemstabilität oder der Benutzerfreundlichkeit haben wir all diese Dinge in der ökologischen Version von Flink umgesetzt. Jetzt ist Flink in der Lage, wirklich die Mainstream-Batch-Engine der Branche zu erreichen.

Heutzutage teilen viele Unternehmen mit, wie Flink-Funktionen in der Produktion eingesetzt werden. Darüber hinaus haben wir zahlreiche Leistungsoptimierungen an der Batch-Engine vorgenommen, die nicht nur auf den Vorteilen der Kern-Streaming-Engine basieren, sondern auch die Ausführungseffizienz im Batch-Szenario optimieren. Gleichzeitig haben wir auch einige Optimierungsmethoden im traditionellen Batch in Flink implementiert.

8

Insgesamt ist Flink Batch in Bezug auf Funktionalität und Leistung sehr vollständig. Im Batch-Modus ist im Benchmark-Testprojekt von TPC-DS 10T zu sehen, dass Flink 1.18 im Vergleich zu Flink 1.16 mehr als 50 % Leistungsoptimierungsergebnisse erzielt hat. Die kontinuierliche Leistungsoptimierung jedes Jahr ermöglicht es Flink, nicht nur im Bereich Stream Computing das stärkste Niveau der Branche zu erreichen, sondern auch erstklassige Ausführungsfähigkeiten im Bereich Batch zu erreichen. Flink entwickelt sich nach und nach zur Computer-Engine mit den umfassendsten Funktionen und der besten Gesamtleistung.

8. Neues Paradigma der effizienten elastischen Expansion und Kontraktion – weiter in Richtung Cloud Native

9

Zusätzlich zum technologischen Fortschritt der Kern-Engine von Flink haben wir auch viele Verbesserungen an der Cloud-nativen verteilten Bereitstellungsarchitektur vorgenommen. Da immer mehr Rechenlasten in die Cloud verlagert werden, sind alle besonders besorgt über das Erlebnis, in der Cloud zu laufen. Das größte Merkmal der Cloud ist ihre extrem gute Elastizität. Cloud Computing bietet unbegrenzte Ressourcen. Benutzer können basierend auf ihrer eigenen Geschäftsauslastung dynamisch auswählen, wie viele Ressourcen sie verwenden möchten, um Geschäftsanforderungen zu erfüllen. Auch Flink hat in diesem Jahr viel Arbeit geleistet, um sich an die neue Betriebsarchitektur anzupassen.

Durch die offene API unterstützen wir beispielsweise Benutzer dabei, online in Echtzeit zu expandieren und zu schrumpfen. Zeitplanaufgaben können die Parallelität ändern. Der Flink-Scheduler kann nicht den gesamten Job neu starten, sondern passt seine Parallelität nur intern an, was sehr benutzerfreundlich ist . . State Backend hat während des gesamten Prozesses kooperiert. Zustandsdaten können schneller wiederhergestellt, heruntergeladen und wiederverwendet werden, wodurch sichergestellt wird, dass der End-to-End-Prozess sehr schnell und unkompliziert ist. Darüber hinaus wissen wir, dass der automatische Expansions- und Kontraktionsprozess nicht vollständig durch manuelle Vorgänge ausgelöst werden kann, da Geschäftsänderungen kein besonders starkes Muster aufweisen und die Häufigkeit ungewiss ist. Daher hoffen wir, dass er automatisch abgeschlossen werden kann. Wir haben die auf K8S Operator basierende AutoScale-Technologie eingeführt, um die gesamte Aufgabenlast dynamisch und in Echtzeit zu überwachen. Die Aufgabenlatenz passt die Parallelität basierend auf diesen Echtzeitindikatoren automatisch und dynamisch an. In Kombination mit den Engine-Funktionen kann eine unbeaufsichtigte elastische Skalierung erreicht werden, um die Eigenschaften der Cloud besser für den Geschäftsbetrieb zu nutzen.

9. Flink beschleunigt seine Integration in die neue Architektur von Lakehouse

10

Flink hat auch viele Versuche in neuen Geschäftsszenarien unternommen. Die größte Innovation besteht darin, eine bessere Integration und Integration von Flink und Lakehouse zu erreichen. Lakehouse ist eine Datenanalysearchitektur der neuen Generation und Flink ist die beste Echtzeit-Computing-Engine. Basierend auf der Kombination der beiden kann Flink einen Mehrwert schaffen und den gesamten Lakehouse-Datenfluss beschleunigen. Wir haben dieses Jahr auch viele neue APIs hinzugefügt, um Lakehouse in den beiden Hauptversionen zu unterstützen. Durch diese neuen APIs können Sie Flink besser zur Verwaltung von Lakehouse nutzen, eine bessere Verbindung zum Lake-Speicherformat in Lakehouse herstellen und Lakehouse-Daten besser lesen und schreiben. Gleichzeitig hat Flink auch die Unterstützung für den JDBC-Treiber hinzugefügt. Entwickler, die herkömmliche BI-Tools verwenden, können sich nahtlos mit Flink verbinden und Flink verwenden, um Lakehouse-Daten besser zu analysieren.

10. Beschleunigen Sie das Upgrade von Big-Data-Diensten von Offline auf Echtzeit

11

In den letzten Jahren hat Flink jedes Jahr viele technologische Innovationen und technische Architekturverbesserungen vorgenommen, um den Bedürfnissen der Benutzer gerecht zu werden. Flink folgt einem neuen Trend: Big-Data-Geschäftsszenarien wandeln sich von Offline- zu beschleunigten Echtzeit-Upgrades. Unter der großen Welle kann jede Arbeit von Flink überprüft werden und weiterhin den Benutzerwert erfüllen. Wir können sehen, dass immer mehr Branchen wie das Internet, das Finanzwesen, die Fertigung, der Transport usw. begonnen haben, sich auf diese Weise zu entwickeln. Verschiedene Datenanalyseszenarien haben begonnen, von Offline auf Echtzeit umzusteigen und Daten weiter zu nutzen. Wert.

Flink Forward Asien 2023

Für weitere spannende Inhalte bei diesem Flink Forward Asia können Sie den QR-Code auf dem Bild scannen, um Videoaufzeichnungen aller Themen und Materialien zum FFA 2023-Gipfel anzusehen!

おすすめ

転載: blog.csdn.net/weixin_44904816/article/details/135163940