Verwenden Sie AI-Datensätze wie git! Kostenlose Datenhosting-Tools sind online, sodass Modelle mit "Live" -Datensätzen trainiert werden können ...

Guhao Nan Tempel vom Ende der vertieften Non-
Qubit-Berichte | Öffentliche Nummer QbitAI

Viele Menschen, die sich mit maschinellem Lernen beschäftigen, leiden unter Datenmanagement.

Entweder ist der Datensatz alt und muss manuell überarbeitet werden.

Oder es gibt viele Versionen desselben Datensatzes, die von anderen angepasst wurden, und es gibt keine Möglichkeit, damit zu beginnen.

Oder es gibt einfach keinen geeigneten Datensatz und Sie müssen ihn selbst erstellen.

Im Ausland konnte es ein Programmierer namens Simon Lousky endlich nicht ertragen und entwickelte eine Reihe von Tools zur Datenversionskontrolle (Data Version Control, DVC) für maschinelles Lernen .

Ein Klick zum Aufrufen des Datensatzes, ein Klick zum Anzeigen des Bearbeitungsverlaufs ... Das Wichtigste ist, dass sich hinter dem DVC-Tool eine Datenhosting-Community wie GitHub befindet .

Den Datensatz "beleben"

Als Simon Lousky in seiner Studienzeit an Projekten arbeitete, spürte er bereits die Schwachstellen bei der Verwaltung von Datensätzen für maschinelles Lernen.

Zu dieser Zeit benötigte sein Modell Pflanzen- und Blumendaten für das Training, und der Open-Source-Datensatz konnte ohnehin keine vernünftigen Ergebnisse erzielen.

Er verbrachte einige Stunden alleine damit, eine große Anzahl veralteter und unvernünftiger Anmerkungen im Datensatz nacheinander zu korrigieren, und die Trainingsergebnisse waren sehr zufriedenstellend.

Zusätzlich zu diesem Projekt führte er später viele Datensatzrevisionen, -ergänzungen und -erstellungen durch. Er nannte diese zeitaufwändigen und mühsamen Prozesse "Datensatzanpassungen und -fehler" und begann, den Betriebsverlauf absichtlich aufzuzeichnen.

Allmählich stellte er fest, dass das Datenmanagement in seinen Projekten immer durcheinander ist, aber das Verlassen auf den von GitHub gehosteten Code war immer organisiert.

Warum also nicht ein Tool ähnlich GitHub erstellen, das sich auf Datenverwaltung spezialisiert hat?

DVC wurde geboren.

Dies ist eine vorinstallierte Toolbibliothek, die Funktionen wie das Aufrufen von Datensätzen, das Anzeigen historischer Betriebsinformationen usw. implementiert.

Aufgrund seines Erscheinungsbilds hat sich die Art und Weise, wie Forscher Modelle auf lokalen "toten" Datensätzen trainieren, grundlegend geändert.

Sie können das Projekt mit einem Datensatz (oder einer beliebigen Datei) verknüpfen, der online gehostet wird, um Echtzeit- und genaue Verbindungen herzustellen. Jede Aktualisierung und Änderung des Datensatzes kann rechtzeitig mitgeteilt werden, um die Entwicklung des Projekts zu erleichtern.

Beispielsweise gibt es jetzt ein Repository A, bei dem es sich um einen "Live" -Datensatz handelt, in dem Metadatendateien auf sehr große Dateien verweisen, die auf einem dedizierten Server gespeichert sind.

Benutzer können Datensatzdateien in Verzeichnissen organisieren und Codedateien mit Utils-Funktionen hinzufügen, um das Aufrufen zu erleichtern.

Darüber hinaus gibt es ein Repository B, das einem maschinellen Lernprojekt entspricht. Der Projektcode enthält Anweisungen zum Importieren von Datensätzen mit DVC.

Solange eine Datenregistrierung erstellt wird, kann die Verbindung zwischen A und B hergestellt werden:

mkdir my-dataset && cd my-dataset
git init
dvc init

Zu diesem Zeitpunkt sieht das Datensatzverzeichnis folgendermaßen aus:

Wenn Sie Informationen zum Datensatz anzeigen müssen, geben Sie den folgenden Befehl ein:

dvc add annotations
dvc add images
git add . && git commit -m “Starting to manage my dataset”

Die Vorschau des Datensatzes wird in einem Verzeichnis gespeichert, das auch von DVC verfolgt wird.

Dann müssen Benutzer nur noch den Code und die Daten in das verwaltete Warehouse übertragen, damit sie jederzeit und überall darauf zugreifen und sie für andere freigeben können.

Damit DVC funktioniert, ist der dahinter stehende DAGsHub natürlich unverzichtbar .

DAGsHub ist eine Datenverwaltungsversion von GitHub, die aus drei Teilen besteht: Git Warehouse, DVC und mlflow für die Plattform für maschinelles Lernen.

Benutzer können ihre eigenen Projekte einreichen. DAGsHub scannt die Einreichung automatisch und extrahiert nützliche Informationen wie experimentelle Parameter, Datendateien und Modellverknüpfungen und kombiniert sie zu einer einfachen Oberfläche.

DAGsHub kann Code, Daten, Modelle und Experimente durchsuchen und vergleichen, ohne etwas herunterladen zu müssen.

Darüber hinaus können visuelle Daten-Pipelines, Datenoperationsverlauf und die Leistung des aufgezeichneten Modells generiert werden, was automatisch und ansprechend ist.

Verwendung von "Live" -Datensätzen in maschinellen Lernprojekten

Um DAGsHub zu verwenden, registrieren Sie sich einfach und melden Sie sich an.

Installieren Sie DVC mit den folgenden Anweisungen:

pip3 install dvc

Suchen Sie einen Datensatz auf DAGsHub. Wie können Sie ihn in Ihrem eigenen Modell verwenden?

Importieren Sie zunächst ein Verzeichnis aus dem gehosteten Datensatz und behandeln Sie es als Originaldatei:

mkdir -p data/raw
dvc import -o data/raw/images \
https://dagshub.com/Simon/baby-yoda-segmentation-dataset \
data/images
dvc import -o data/raw/annotations \
https://dagshub.com/Simon/baby-yoda-segmentation-dataset \
data/annotations

Anschließend werden die Bilder und Notizen in Ihr eigenes Projekt heruntergeladen und die historischen Informationen bleiben erhalten.

Wenn Sie den Änderungsverlauf des Datensatzes wissen möchten, führen Sie einfach den folgenden Befehl aus:

dvc update

Sie können die Visualisierungsergebnisse in das Standardverzeichnis zurücksetzen, um sie zu speichern:

Ist es bequem?

Übrigens, sowohl DVC als auch DAGsHub sind Open Source und kostenlos

Portal:

DVC-Tutorial: https://dagshub.com/docs/experiment-tutorial/2-data-versioning/
DAGsHub-Homepage: https://dagshub.com/

- Endet -

Dieser Artikel ist der Originalinhalt des NetEase News • NetEase-Kontos für das Incentive-Programm für empfohlene Inhalte [Qubit]. Das nicht autorisierte Nachdrucken ist untersagt.

Treten Sie der KI-Community bei und erweitern Sie Ihr Netzwerk in der KI-Branche

Qubit "AI Community" rekrutiert! KI-Praktiker und Freunde, die sich Sorgen um die KI-Industrie machen, können gerne den QR- Code scannen, um Mitglied zu werden, und mit mehr als 50.000 Freunden die Entwicklung der KI- Industrie und den technologischen Fortschritt verfolgen :

Qubit QbitAI · Schlagzeilen über die Unterzeichnung von

վ'ᴗ 'ի Verfolgen Sie neue Trends in der KI-Technologie und -Produkte

Ein Klick drei aufeinanderfolgende "Teilen", "Gefällt mir" und "Schauen"

Die Grenzen von Wissenschaft und Technologie sehen sich jeden Tag ~