Recentemente, considerei a construção de alguns benchmarks de avaliação de conjunto de dados de teste para avaliar o efeito de algoritmos em conjuntos de dados.
Diferentemente dos conjuntos de dados públicos utilizados no artigo, os conjuntos de dados aqui construídos são mais direcionados, podendo os usuários adicioná-los ou excluí-los de acordo com as necessidades específicas do negócio, de modo que os indicadores dos conjuntos de dados fiquem mais próximos dos cenários reais de negócios.
Eu apenas forneço uma plataforma de referência aqui, e alguns conjuntos de dados rotulados serão fornecidos por padrão. Claro, é apenas minha ideia no momento, e tenho feito isso o tempo todo, então fique atento para futuras atualizações.
A plataforma de hospedagem do conjunto de dados precisa atender às condições:
Ele pode ser facilmente baixado e usado com código. Por exemplo, se você baixar um conjunto de dados público, precisará fazer login na conta relevante, o que é inconveniente.
Forneça uma interface de visualização de dados, conveniente para avaliar rapidamente se é o que você precisa;
É conveniente adicionar, excluir, modificar e verificar os conjuntos de dados existentes, o que é conveniente para todos manterem juntos.
A plataforma Mota parece ser uma versão doméstica do Hugging Face, e os grandes blocos de funções básicas são semelhantes ao Hugging Face. Isso pode ser considerado como a consciência da indústria, de que mais bicicletas precisamos?
Após a pesquisa, a plataforma Mota também tem a função de gerenciamento de conjuntos de dados. Com exceção da condição 1 acima, todas as demais estão satisfeitas.
✓A condição 1 não é atendida: baixe levemente o pacote do conjunto de dados.
Olhando para o guia de uso do conjunto de dados no modelscope , descobre- msdatasetsse que é modelscopeo módulo de gerenciamento principal, o que significa: se você deseja modelscopebaixar o conjunto de dados na Internet, deve primeiro instalar modelscopeeste pacote enorme.
Sem dúvida, isso é muito inconveniente, modelscopepois depende de muitos pacotes, incluindo torch, mmcv-fulle tensorflowassim por diante.
A esse respeito, já levantei modelscopea questão nº 369 , na esperança de me tornar independente e leve. → A pesquisa descobriu que a instalação direta modelscopenão instalará as dependências acima e você pode usá-la sem problemas agora.
✓ Satisfaz a condição 3: fácil de adicionar, excluir, modificar e pesquisar. Também é construído e gerenciado com base no Git, o mesmo que acima, sem mais detalhes.
A plataforma atualmente atende a todos os critérios acima. A única desvantagem é que é inconveniente para usuários domésticos fazer o download.
✓ Condição 1 atendida: duas linhas de código são fáceis de baixar e usar. Ao mesmo tempo, não depende transformersdessa enorme biblioteca e é muito leve.
✓ Satisfazer a condição 2: Fornecer interface de visualização de dados. O seguinte usa zh-plus/tiny-imagenet como exemplo. Na interface do cartão Dataset , a interface Dataset Viewer é fornecida . A captura de tela é a seguinte (você pode verificar por si mesmo):
✓ Satisfaz a condição 3: É conveniente adicionar, excluir, modificar e consultar conjuntos de dados existentes. Como todas as funções do Hugging Face são construídas com base no Git + Git LFS, ele naturalmente tem a capacidade de controlar a versão dos conjuntos de dados. Depois de criar um novo conjunto de dados na guia Datasets de Hugging Face, você pode carregar o conjunto de dados na interface, o que é muito conveniente. Semelhante a imagem abaixo:
Plataforma doméstica, download amigável. No entanto, o gerenciamento de direitos de conjuntos de dados é muito extenso e todos eles precisam fazer login e se registrar antes de poderem ser usados.
✗ Não atende à condição 1: O código pode ser facilmente baixado e usado. Se você deseja usar um conjunto de dados especificado na plataforma, seja você o mantenedor ou o usuário do conjunto de dados, você deve se registrar e solicitar uma conta.
✓ Satisfazer a condição 2: fornecer uma interface de visualização. Após a inspeção real, alguns conjuntos de dados não são fornecidos, mas isso não afeta o julgamento de ter essa função. Tome o MNIST-M como exemplo:
✗ Não atende à condição 3: É conveniente para adicionar, excluir, modificar e verificar. Esta plataforma parece assumir que o conjunto de dados não é alterado com tanta frequência. Parece que não há muitas interfaces para editar o conjunto de dados. A figura a seguir é do documento oficial :
Resumir
Obviamente, além das três anteriores, podem existir outras plataformas com funções semelhantes. Amigos que o viram são bem-vindos para apontar.
Resumindo, ainda prefiro o Hugging Face. ~~ Se o Mota puder criar um pacote de gerenciamento de conjunto de dados leve, irei imediatamente para o Mota. ~~ voltou-se para a magia.