Amoro-Test- und Beitragsaktivitäten | Community-Auswahl für Oktober bekannt gegeben

Bild

Amoro ist ein Lake-Warehouse-Verwaltungssystem, das auf offenen Daten-Lake-Tabellen wie Apache Iceberg basiert. Es bietet eine Reihe steckbarer Datenselbstoptimierungsmechanismen und Verwaltungsdienste mit dem Ziel, den Benutzern eine sofort einsatzbereite Lake-Warehouse-Nutzung zu ermöglichen. Erfahrung .

Die Open-Source-Community von Amoro hat am 10. August 2023 eine Test- und Beitragsaktivität für die neue Version gestartet. Die Testaktivitäten sollen Benutzern helfen, schneller mit Amoro zu beginnen. Gleichzeitig werden während des Testprozesses Nutzungsszenarien der Benutzer erfasst und Optimierungsverbesserungen und neue funktionale Anforderungen im Projekt entdeckt. Die Beitragsaktivitäten hoffen, dass sich mehr Entwickler intensiver an Amoro-Beiträgen beteiligen, wodurch die Amoro-Community vielfältiger wird und eine langfristigere Entwicklung erreicht wird.

Derzeit nehmen insgesamt 27 Benutzer an Testaktivitäten und 20 Entwickler an Beitragsaktivitäten teil. Vielen Dank an alle Teilnehmer für Ihre enthusiastische Teilnahme und Ihren selbstlosen Einsatz. Ihr Engagement und Ihre Bemühungen sind eine wichtige Unterstützung, um Amoro dabei zu helfen, weiter voranzukommen. Gleichzeitig bereitete die Gemeinde sorgfältig Geschenke für Schüler vor, die bei den Aktivitäten herausragende Beiträge geleistet hatten. Der statistische Beitragsbereich reicht vom 1. Oktober 2023 bis zum 30. Oktober 2023. Laut Statistik haben insgesamt 3 Testbenutzer innerhalb des statistischen Zeitraums Testfeedback abgegeben, und die Community hat außerdem 2 MVC (Most Vauable Contributors) aus allen Mitwirkenden ausgewählt.

 

0 1.  OktoberMVC

zhongqishang , Amoro-Committer

Mentor: Zhong Qishang (Github-ID: zhongqishang) aus Qichacha nimmt seit November 2022 an Amoro-Community-Beiträgen teil. Er hat bisher 29 PRs (Pull Requets) beigesteuert, die während der Beitragsaktivitäten im Oktober gelöst wurden. Wenn der Optimierer automatisch optimiert B. eine Tabelle mit zu vielen Iceberg-Gleichheitslöschdateien, ist die Optimierung möglicherweise zu langsam oder der Speicher läuft über. Dies verbessert die Stabilität des Optimierers erheblich. Gleichzeitig wurde auch die Anzeige der Optimierungsseite in den Tabellendetails im Dashboard optimiert, um Benutzern das Anzeigen der Details der Optimierungsaufgabe zu erleichtern.

Persönliche Vorstellung : Ich komme aus der Abteilung für Big-Data-Architektur von Qichacha. Ich habe bereits einige kleine Beiträge zu Apache Flink, Flink CDC und Debezium geleistet, aber meine Beteiligung ist nicht hoch. Dies ist das erste Mal, dass ich intensiv an einer Open Source teilnehme Projekt.

Community-Erfahrung : Als das Unternehmen im Jahr 2022 plante, den Data Lake Iceberg intern einzuführen, stieß es auch auf Amoro Open Source. Amoro löste unser Iceberg-Komprimierungsproblem sehr gut. Gleichzeitig mit der Implementierung reichten die Beiträge der Community auch von einfachen Tippfehler-Änderungen am Anfang bis hin zu einigen Optimierungen der Zusammenführungsleistung, Verbesserungen am Planner usw.

Nachricht von der Community : Danke an Open Source, das uns daran hindert, das Rad neu zu erfinden; Danke an die Community für die Bereitstellung eines so hervorragenden Projekts wie Amoro und Danke an die Community-Mitglieder für ihre Anleitung und Vorschläge nicht nur zu Amoro. Im letzten Jahr oder so boomte die Amoro-Community, lasst uns zusammenarbeiten.

huyuanfeng2018 , Amoro-Mitwirkender

Mentor : Hu Yuanfeng (G ithub-ID: huyuanfeng2018) aus Huya nimmt seit Juli 2023 an Amoro-Community-Beiträgen teil. Er hat bisher 12 PRs (Pull Requets) beigesteuert und im Oktober seine Unterstützung für Iceberg bei den Beitragsaktivitäten zum Ausdruck gebracht. Tag&Branch-Präsentation . Gleichzeitig war er an der Entwicklung der Amoro-Metrikfunktion beteiligt und lieferte Metrikinformationen im Zusammenhang mit der Tabellenoptimierung.

Persönliche Vorstellung: Ich komme aus dem Big-Data-Plattform-Team von Huya und bin hauptsächlich für Echtzeit-Computing und den Aufbau von Data Lakes verantwortlich.

Community-Erlebnis: Als wir im Juli 2023 nach einer Lösung suchten, die Iceberg-Tische gut verwalten und benutzerfreundlich zusammenführen kann, trafen wir auf amoro. Wir haben beschlossen, Amoro zur Verwaltung unseres Eisberg-Tisches zu verwenden. Mit Hilfe der Amoro-Community haben wir Amoro nicht nur erfolgreich zur Verwaltung des Eisberg-Tisches eingesetzt, sondern waren auch maßgeblich an der Entwicklung einiger Community-Funktionen beteiligt. Wir haben einige Optimierungen vorgenommen, um die Speichernutzung von ams zu reduzieren. Wir haben uns auch an der Behebung mehrerer Fehler beteiligt sowie mehrere geplante Funktionen in der Community diskutiert und Vorschläge gemacht.

Botschaft der Community: Ich hoffe, dass sich die Amoro-Community ebenso wie der Data Lake weiterhin hervorragend entwickeln, weitere Veränderungen und Herausforderungen annehmen und dabei weiterhin Innovationen hervorbringen und Durchbrüche erzielen werden. Ich wünsche mir auch, dass immer mehr Entwickler in der Community Probleme in mehr Szenarien lösen und mit uns zusammenarbeiten können, um die Entwicklung der Amoro-Community voranzutreiben und sie stärker und besser zu machen!

02Testbenutzer   -Feedback

Während der Testaktivität übermittelten drei Benutzer von Zhejiang Telecom, Jiuzhang Data und Multipoint DMALL Testfeedback an die Community.

Zhejiang Telecom:

Zhejiang Telecom nutzte Amoro, um seine Online-Anfrage nach automatischer Optimierung von Iceberg Lake-Lagertabellen zu erfüllen. Um die Aktualität der Data Warehouse-Daten zu verbessern, wurde nach der Transformation des Systems und der Verlagerung in die Cloud das Eisbergformat eingeführt, um zu verhindern, dass die Offline-Übertragung und das Scannen der Produktionsquelldatenbank (teledb) die Datenbankleistung und die Geschäftsdaten beeinträchtigen über NetEase Youshu Echtzeitübertragung in den Eisbergtisch geschrieben. Bei der Verwendung von Iceberg bin ich auf das Problem gestoßen, dass die Ausführung der nativen Spark-Komprimierung von Iceberg aufgrund von OOM und anderen Gründen aufgrund zu vieler EQ-Delete-Dateien fehlgeschlagen ist. Nach der Verbindung mit Amoro kann die von Amoro bereitgestellte Selbstoptimierungsfunktion das Problem kleiner Dateien der Eisbergtabelle zeitnah lösen und die Leseleistung der Tabelle verbessern, während gleichzeitig die Verfügbarkeit der Tabelle aufrechterhalten wird.

Neun Kapitel mit Daten:

Jiuzhang Data erstellt einen Streaming-Batch-integrierten Datensee basierend auf dem Mixed-Iceberg-Format von Amoro. Die Daten werden über Flink CDC in den Lake synchronisiert, und die eindeutige Einschränkung des Primärschlüssels der Daten in den Lake wird durch das Mixed-Iceberg-Tabellenformat garantiert. Während der Erstellung des Testszenarios haben wir mehrere Probleme mit dem Mixed Iceberg-Format in Produktionsszenarien entdeckt und gemeldet und mit Community-Entwicklern zusammengearbeitet, um diese zu beheben und zu lokalisieren, wodurch wir wertvolle Erfahrungen für die Stabilität des Mixed Iceberg-Formats in Produktionsszenarien gesammelt haben. Derzeit wurden mehr als 1.000 ODS-Tabellen verbunden und getestet sowie die Datensynchronisierung in Echtzeit und die gleichzeitige Datenauffüllung überprüft. Der Iceberg-Katalog wird zum Lesen gemischter Iceberg-Tabellen verwendet, um BI-Berichte mit geringer Latenz und andere Szenarien zu erstellen In Zukunft freuen wir uns auf die Fertigstellung eines Echtzeit-Sees mit integrierter Streaming- und Batch-Integration. Bau eines Lagersystems.

Mehrpunkt-DMALL:

Im Kontext der Cloud-Transformation führt Multi-Point-DMALL Iceberg-Tabellen ein, um die Schwachstellen von Hive-Tabellen in Bezug auf Effektivität und Änderungen der Tabellenstruktur zu bewältigen. Amoro bietet Betriebs- und Wartungsverwaltungsfunktionen für Iceberg-Tabellen auf Produktionsebene und reduziert so die Wartungskosten für die manuelle Planung von Batch-Aufgaben zum Zusammenführen von Dateien und den Datenablauf einer großen Anzahl von Iceberg-Tabellen. Darüber hinaus implementiert Multi-Point-DMALL auch das Spark-Engine-Scheduling Amoro Optimizer, um zu vermeiden, dass der residente Flink Optimizer in Szenarien, in denen Updates nicht häufig stattfinden, weiterhin Ressourcen belegt, und nutzt die dynamische Ressourcenzuteilungsfunktion (DRA) von Spark vollständig aus, wodurch die Ressourcen weiter reduziert werden Verbrauch. .

03Willkommen,  um zu versuchen, einen Beitrag zu leisten

Die Test- und Beitragsaktivitäten werden bis Dezember 2023 fortgesetzt. Die Community zählt jeden Monat den Test- und Beitragsstatus des Vormonats. Partner mit effektivem Test-Feedback erhalten ein Community-Peripherie-Geschenkpaket. Der monatliche MVC (Most Valuable Contributor) erhält Community-Belohnungen. Bereiten Sie einen Preis aus AirPods vor.

Wenn auch Sie bereit sind, es auszuprobieren oder einen Beitrag zu leisten, können Sie die Community-Kontaktinformationen in Github finden und sich anmelden . Es gibt einen engagierten Community-Mentor, der Sie bei der Durchführung von Versionstests und Projektbeiträgen unterstützt.

Githubhttps://github.com/NetEase/amoro

Broadcom kündigte die Beendigung des bestehenden VMware-Partnerprogramms Deepin-IDE-Versionsupdate, ein neues Erscheinungsbild, an. WAVE SUMMIT feiert seine 10. Ausgabe. Wen Xinyiyan wird die neueste Enthüllung haben! Zhou Hongyi: Der gebürtige Hongmeng wird auf jeden Fall Erfolg haben. Der komplette Quellcode von GTA 5 wurde öffentlich durchgesickert. Linus: Ich werde den Code an Heiligabend nicht lesen. Ich werde eine neue Version des Java-Tool-Sets Hutool-5.8.24 veröffentlichen nächstes Jahr. Lasst uns gemeinsam über Furion klagen. Kommerzielle Erkundung: Das Boot ist vorbei. Wan Zhongshan, v4.9.1.15 Apple veröffentlicht Open-Source-Multimodal-Großsprachenmodell Ferret Yakult Company bestätigt, dass 95 G-Daten durchgesickert sind
{{o.name}}
{{m.name}}

Supongo que te gusta

Origin my.oschina.net/u/6895272/blog/10320887
Recomendado
Clasificación