Eine kurze Einführung in Apache Zeppelin und die Download-Adresse

https://zeppelin.apache.org

Zeppelin ist ein webbasiertes Notizbuch, das eine interaktive Datenanalyse ermöglicht . Es ist praktisch für Sie, schöne Dokumente zu erstellen, die datengesteuert, interaktiv und kollaborativ sind und mehrere Sprachen unterstützen, einschließlich Scala (mit Apache Spark), Python (Apache Spark), SparkSQL, Hive, Markdown, Shell usw. (Ähnlich wie bei ipython notebook können Sie Code schreiben, Notizen machen und direkt im Browser teilen). Gleichzeitig bietet Zeppelin auch vier Systembetriebsmodi: eigenständiges Docker, verteilt, K8s und Yarn, um den Anforderungen verschiedener Teams gerecht zu werden.

Zunächst einmal hat Zeppelin in Bezug auf Datenvorverarbeitung und Feature-Engineering eine vollständige Abdeckung von Datenimport, Datenverarbeitung, Datenexploration, Datensampling bis hin zum Datentraining erreicht: Der Datenimport unterstützt HDFS, S3 und RDNMS, die Datenaggregationsverarbeitung unterstützt Hive, Spark , Datenexploration ist eine der Stärken von Zeppelin, Datensampling, Modelltraining und A/B-Tests unterstützen Spark.

Zweitens umfasst es in Bezug auf das Modelltraining traditionelle maschinelle Lernmodelle wie logistische Regression (LR) und Gradient Boosting Tree (GDBT) sowie Convolutional Neural Network (CNN), Recurrent Neural Network (RNN) und Long-Term Short-Term Memory Network (LSTM) Zeppelin unterstützt verschiedene Mainstream-Bibliotheken, wie die Python-Bibliothek, Spark MLlib und XGBoost für Ersteres und TensorFlow, PyTorch und MXNet für Letzteres. Da die von Praktikern des maschinellen Lernens häufig verwendeten Sprachen Python, Scala, R usw. umfassen, stellt der Konflikt zwischen verschiedenen Umgebungen und Versionen eine große Herausforderung dar. Zeppelin verwendet Docker-Bereitstellung, um dieses Problem zu lösen.

Drittens unterstützt die Modellverwaltung in Bezug auf den Modell-Onlinedienst Hadoop, die Modellbereitstellung unterstützt Hadoop und Kubernetes, die Stapelverarbeitung der Modellbibliothek verwendet Spark und die inkrementelle Aktualisierung verwendet Flink Stream Computing mit besserer Leistung (um das Modell auf dem neuesten Stand zu halten).

Darüber hinaus hat Zeppelin in Bezug auf die Ökologie auch mit Hadoop Submarine integriert, einer von der Hadoop-Community entwickelten Engine für maschinelles Lernen, die darauf abzielt, die Batch-Job-Verarbeitung von maschinellen Lernalgorithmen auf der Kubernetes / YARN-Plattform zu lösen. Die Integration der beiden kann Zeppelin von der Unterstützung der Single-Task-Entwicklung auf die Unterstützung verteilter Task-Scheduling-Szenarien erweitern.

Herunterladen:  Herunterladen

Quelle:

1.  https://zeppelin.apache.org

Guess you like

Origin blog.csdn.net/stellao_o/article/details/129207279