Comparaison récapitulative de la plate-forme d'hébergement de jeux de données

introduction

  • Récemment, j'ai envisagé de créer des repères d'évaluation d'ensembles de données de test pour évaluer l'effet des algorithmes sur les ensembles de données.
  • Différent des jeux de données publics utilisés dans le papier, les jeux de données construits ici sont plus ciblés, les utilisateurs peuvent en ajouter ou en supprimer en fonction des besoins spécifiques de l'entreprise, afin que les indicateurs sur les jeux de données soient plus proches des scénarios réels de l'entreprise.
  • Je fournis juste une plate-forme de référence ici, et certains ensembles de données étiquetés seront donnés par défaut. Bien sûr, c'est juste mon idée pour le moment, et je le fais tout le temps, alors restez à l'écoute pour les futures mises à jour.

La plate-forme d'hébergement de jeux de données doit remplir les conditions :

  1. Il peut être facilement téléchargé et utilisé avec du code. Par exemple, si vous téléchargez un jeu de données public, vous devez vous connecter au compte concerné, ce qui n'est pas pratique.
  2. Fournir une interface de prévisualisation des données, pratique pour évaluer rapidement si c'est ce dont vous avez besoin ;
  3. Il est pratique d'ajouter, de supprimer, de modifier et de vérifier les ensembles de données existants, ce qui est pratique pour tout le monde à maintenir ensemble.

☆☆☆ Plate-forme magique

  • site officiel
  • La plate-forme Mota semble être une version domestique de Hugging Face, et les grands blocs fonctionnels de base sont similaires à Hugging Face. Cela peut être considéré comme la conscience de l'industrie, de quoi de plus avons-nous besoin de vélos ?
  • Après recherche, la plateforme Mota a également la fonction de gestion de jeux de données. À l'exception de la condition 1 ci-dessus, les autres sont toutes satisfaites.
  • ✓La condition 1 n'est pas remplie : téléchargez légèrement le package du jeu de données.
    • En regardant le guide d'utilisation du jeu de données dans modelscope , on constate msdatasetsqu'il s'agit modelscopedu module de gestion de base, ce qui signifie : si vous souhaitez modelscopetélécharger le jeu de données sur Internet, vous devez d'abord installer modelscopecet énorme package.
    • Ceci est sans aucun doute très gênant, modelscopes'appuyant sur de nombreux packages, notamment torch, mmcv-full, tensorflowetc.
    • À cet égard, j'ai déjà modelscopesoulevé le problème #369 , espérant devenir indépendant et léger. → La recherche a révélé que l'installation directe modelscopen'installera pas les dépendances ci-dessus, et vous pouvez l'utiliser avec plaisir maintenant.
  • ✓ Satisfaire la condition 2 : Fournir une interface de prévisualisation des données. Prenons l'exemple de l'OCR-Optical Character Recognition-Fudan-Chinese :
    insérez la description de l'image ici
  • ✓ Satisfait la condition 3 : facile à ajouter, supprimer, modifier et rechercher. Il est également construit et géré sur la base de Git, comme ci-dessus, sans plus de détails.

☆☆☆ Ensemble de données de visage étreignant

  • site officiel
  • La plate-forme répond actuellement à tous les critères ci-dessus. Le seul inconvénient est qu'il n'est pas pratique pour les utilisateurs domestiques de télécharger.
  • ✓ La condition 1 est remplie : deux lignes de code sont faciles à télécharger et à utiliser. En même temps, il ne dépend pas de transformerscette énorme bibliothèque et est très léger.
    # pip install datasets
    from datasets import load_dataset
    dataset = load_dataset("SWHL/TableRecognition")
    
  • ✓ Satisfaire la condition 2 : Fournir une interface de prévisualisation des données. Ce qui suit prend zh-plus/tiny-imagenet comme exemple. Sur l'interface de la carte Dataset , l'interface Dataset Viewer est fournie . La capture d'écran est la suivante (vous pouvez la vérifier par vous-même) :
    insérez la description de l'image ici
  • ✓ Satisfait la condition 3 : Il est pratique d'ajouter, de supprimer, de modifier et d'interroger des ensembles de données existants. Étant donné que toutes les fonctions de Hugging Face sont construites sur la base de Git + Git LFS, il a naturellement la capacité de contrôler la version des ensembles de données. Après avoir créé un nouveau jeu de données dans l'onglet Jeux de données de Hugging Face, vous pouvez télécharger le jeu de données sur l'interface, ce qui est très pratique. Similaire à l'image ci-dessous :
    insérez la description de l'image ici

☆ OpenDataLab

  • site officiel
  • Plate-forme nationale, téléchargement convivial. Cependant, la gestion des droits sur les ensembles de données est trop étendue et tous doivent se connecter et s'enregistrer avant de pouvoir être utilisés.
  • ✗ Ne remplit pas la condition 1 : Le code peut être facilement téléchargé et utilisé. Si vous souhaitez utiliser un ensemble de données spécifié sur la plate-forme, que vous soyez le mainteneur ou l'utilisateur de l'ensemble de données, vous devez vous inscrire et demander un compte.
  • ✓ Satisfaire la condition 2 : Fournir une interface de prévisualisation. Après une inspection réelle, certains ensembles de données ne sont pas fournis, mais cela n'affecte pas le jugement d'avoir cette fonction. Prenez MNIST-M comme exemple :
    insérez la description de l'image ici
  • ✗ Ne répond pas à la condition 3 : Il est pratique pour ajouter, supprimer, modifier et vérifier. Cette plate-forme semble supposer que l'ensemble de données n'est pas modifié aussi fréquemment. Il semble qu'il n'y ait pas trop d'interfaces pour éditer l'ensemble de données. La figure suivante est tirée du document officiel :
    insérez la description de l'image ici

Résumer

  • Bien sûr, en plus des trois ci-dessus, il peut y avoir d'autres plates-formes avec des fonctions similaires. Les amis qui l'ont vu sont les bienvenus pour le signaler.
  • En résumé, je préfère toujours Hugging Face. ~~ Si Mota peut créer un package de gestion d'ensemble de données léger, je me tournerai immédiatement vers Mota. ~~ s'est tourné vers la magie.

Je suppose que tu aimes

Origine blog.csdn.net/shiwanghualuo/article/details/131620246
conseillé
Classement