Comparação resumida da plataforma de hospedagem do conjunto de dados

introdução

  • Recentemente, considerei a construção de alguns benchmarks de avaliação de conjunto de dados de teste para avaliar o efeito de algoritmos em conjuntos de dados.
  • Diferentemente dos conjuntos de dados públicos utilizados no artigo, os conjuntos de dados aqui construídos são mais direcionados, podendo os usuários adicioná-los ou excluí-los de acordo com as necessidades específicas do negócio, de modo que os indicadores dos conjuntos de dados fiquem mais próximos dos cenários reais de negócios.
  • Eu apenas forneço uma plataforma de referência aqui, e alguns conjuntos de dados rotulados serão fornecidos por padrão. Claro, é apenas minha ideia no momento, e tenho feito isso o tempo todo, então fique atento para futuras atualizações.

A plataforma de hospedagem do conjunto de dados precisa atender às condições:

  1. Ele pode ser facilmente baixado e usado com código. Por exemplo, se você baixar um conjunto de dados público, precisará fazer login na conta relevante, o que é inconveniente.
  2. Forneça uma interface de visualização de dados, conveniente para avaliar rapidamente se é o que você precisa;
  3. É conveniente adicionar, excluir, modificar e verificar os conjuntos de dados existentes, o que é conveniente para todos manterem juntos.

☆☆☆ Plataforma mágica

  • website oficial
  • A plataforma Mota parece ser uma versão doméstica do Hugging Face, e os grandes blocos de funções básicas são semelhantes ao Hugging Face. Isso pode ser considerado como a consciência da indústria, de que mais bicicletas precisamos?
  • Após a pesquisa, a plataforma Mota também tem a função de gerenciamento de conjuntos de dados. Com exceção da condição 1 acima, todas as demais estão satisfeitas.
  • ✓A condição 1 não é atendida: baixe levemente o pacote do conjunto de dados.
    • Olhando para o guia de uso do conjunto de dados no modelscope , descobre- msdatasetsse que é modelscopeo módulo de gerenciamento principal, o que significa: se você deseja modelscopebaixar o conjunto de dados na Internet, deve primeiro instalar modelscopeeste pacote enorme.
    • Sem dúvida, isso é muito inconveniente, modelscopepois depende de muitos pacotes, incluindo torch, mmcv-fulle tensorflowassim por diante.
    • A esse respeito, já levantei modelscopea questão nº 369 , na esperança de me tornar independente e leve. → A pesquisa descobriu que a instalação direta modelscopenão instalará as dependências acima e você pode usá-la sem problemas agora.
  • ✓ Satisfazer a condição 2: Fornecer uma interface de visualização de dados. Tomemos o OCR-Optical Character Recognition-Fudan-Chinese como um exemplo:
    insira a descrição da imagem aqui
  • ✓ Satisfaz a condição 3: fácil de adicionar, excluir, modificar e pesquisar. Também é construído e gerenciado com base no Git, o mesmo que acima, sem mais detalhes.

☆☆☆ Conjunto de dados de rosto abraçado

  • website oficial
  • A plataforma atualmente atende a todos os critérios acima. A única desvantagem é que é inconveniente para usuários domésticos fazer o download.
  • ✓ Condição 1 atendida: duas linhas de código são fáceis de baixar e usar. Ao mesmo tempo, não depende transformersdessa enorme biblioteca e é muito leve.
    # pip install datasets
    from datasets import load_dataset
    dataset = load_dataset("SWHL/TableRecognition")
    
  • ✓ Satisfazer a condição 2: Fornecer interface de visualização de dados. O seguinte usa zh-plus/tiny-imagenet como exemplo. Na interface do cartão Dataset , a interface Dataset Viewer é fornecida . A captura de tela é a seguinte (você pode verificar por si mesmo):
    insira a descrição da imagem aqui
  • ✓ Satisfaz a condição 3: É conveniente adicionar, excluir, modificar e consultar conjuntos de dados existentes. Como todas as funções do Hugging Face são construídas com base no Git + Git LFS, ele naturalmente tem a capacidade de controlar a versão dos conjuntos de dados. Depois de criar um novo conjunto de dados na guia Datasets de Hugging Face, você pode carregar o conjunto de dados na interface, o que é muito conveniente. Semelhante a imagem abaixo:
    insira a descrição da imagem aqui

☆ OpenDataLab

  • website oficial
  • Plataforma doméstica, download amigável. No entanto, o gerenciamento de direitos de conjuntos de dados é muito extenso e todos eles precisam fazer login e se registrar antes de poderem ser usados.
  • ✗ Não atende à condição 1: O código pode ser facilmente baixado e usado. Se você deseja usar um conjunto de dados especificado na plataforma, seja você o mantenedor ou o usuário do conjunto de dados, você deve se registrar e solicitar uma conta.
  • ✓ Satisfazer a condição 2: fornecer uma interface de visualização. Após a inspeção real, alguns conjuntos de dados não são fornecidos, mas isso não afeta o julgamento de ter essa função. Tome o MNIST-M como exemplo:
    insira a descrição da imagem aqui
  • ✗ Não atende à condição 3: É conveniente para adicionar, excluir, modificar e verificar. Esta plataforma parece assumir que o conjunto de dados não é alterado com tanta frequência. Parece que não há muitas interfaces para editar o conjunto de dados. A figura a seguir é do documento oficial :
    insira a descrição da imagem aqui

Resumir

  • Obviamente, além das três anteriores, podem existir outras plataformas com funções semelhantes. Amigos que o viram são bem-vindos para apontar.
  • Resumindo, ainda prefiro o Hugging Face. ~~ Se o Mota puder criar um pacote de gerenciamento de conjunto de dados leve, irei imediatamente para o Mota. ~~ voltou-se para a magia.

Acho que você gosta

Origin blog.csdn.net/shiwanghualuo/article/details/131620246
Recomendado
Clasificación