Um estudo conjunto do Google e da Universidade de Washington: Por que há um problema com a classificação no conjunto de dados padrão

Um estudo conjunto do Google e da Universidade de Washington: Por que há um problema com a classificação no conjunto de dados padrão

imagem
Fonte da imagem: unsplash.com

Autor: REN

Na pesquisa de aprendizado de máquina, os conjuntos de dados formam a base do design e implantação do modelo e são as principais ferramentas para benchmarking e avaliação. Sem ele, a grande maioria das pesquisas de aprendizado de máquina se tornou uma fonte de água e uma árvore sem raízes.

A coleta, construção e compartilhamento de conjuntos de dados podem refletir os problemas perseguidos no campo do aprendizado de máquina e os métodos explorados no desenvolvimento de algoritmos. No entanto, muitos trabalhos nos últimos anos revelaram as limitações da atual "cultura de conjuntos de dados", e as discussões sobre especificações e melhorias de conjuntos de dados surgiram gradualmente.

Geoffrey Hinton, o padrinho da aprendizagem profunda, disse certa vez que a atual cultura de benchmarking do conjunto de dados "pode ​​impedir o desenvolvimento do pensamento inovador".

Em consonância com essa visão, a equipe de pesquisa conjunta da Universidade de Washington e do Google Research publicou a pesquisa Dados e seus (dis) conteúdos: Um levantamento do desenvolvimento e uso de conjuntos de dados em pesquisas de aprendizado de máquina , que os resumiu e analisou um por um. Vários problemas expostos pelos métodos práticos de conjuntos de dados no campo do aprendizado de máquina.

O artigo concluiu que os modelos de linguagem em grande escala têm a capacidade de perpetuar preconceitos (especialmente contra uma série de comunidades marginalizadas) e que conjuntos de dados mal anotados são parte do problema, exigindo, assim, que os pesquisadores desta área sejam mais cautelosos. conjunto de dados e desenvolver em conformidade.

Questão representativa

Nos últimos anos, muitos conjuntos de dados de aprendizado de máquina convencionais têm problemas mais ou menos representativos, principalmente com foco no grau e na forma de representação de diferentes grupos sociais demográficos, incluindo raça, gênero, cor da pele, estereótipos, etc.

Por exemplo, um grande número de estudos apontou que a sub-representação de objetos de pele escura em conjuntos de dados de análise de rosto convencionais, enquanto em conjuntos de dados de reconhecimento de objetos, as imagens usadas são principalmente de países ocidentais.

Um fenômeno semelhante também apareceu no conjunto de dados de resolução co-referencial em inglês, mas os sujeitos tornaram-se pronomes femininos, como ela / ela, cuja proporção era significativamente menor do que a de pronomes masculinos, como ele / ela.

A prevalência de estereótipos na sociedade também tem impacto no conjunto de dados. No conjunto de dados de processamento de linguagem natural, algumas palavras comuns refletirão o preconceito prevalecente na sociedade e, no conjunto de dados de visão computacional, também refletirão o estereótipo sobre gênero.

Em 2018, em um conjunto de dados usado para classificar palavrões, os pesquisadores descobriram que palavras que descrevem minorias de gênero, como Queer, têm maior probabilidade de estar associadas a rótulos "nocivos / tóxicos", o que significa que são mais propensos a serem rotulados como "palavrões" etiqueta.

imagem
Coleção de imagens ImageNet. Fonte: ImageNet

Mesmo o famoso conjunto de dados ImageNet tem problemas semelhantes. Vários estudos mostraram que ele rotulou milhões de fotos humanas de forma ofensiva e usou palavras racialmente discriminatórias ou depreciativas. Sob certas categorias, fotos sem licença e pornográficas de mulheres também apareceram.

Para resolver os problemas acima, o ImageNet excluiu várias fotos e outro conjunto de dados, o TinyImages, foi completamente removido.

"Atalhos" usados ​​pela modelo

Embora os modelos de aprendizado profundo tenham alcançado um desempenho excelente em algumas tarefas bastante desafiadoras, muitos estudos mostraram que seu desempenho pode ser apenas superficial, obtido por meio de alguns "truques baratos", em vez de usar recursos de raciocínio semelhantes aos humanos.

Um estudo em 2020 mostrou que redes neurais profundas podem contar com "atalhos" para realizar tarefas. Os atalhos geralmente são devidos a artefatos de anotação (dados criados artificialmente) no conjunto de dados que fazem o modelo se ajustar aos dados de treinamento e dependem de heurísticas sem sentido para "resolver" a tarefa.

Os chamados artefatos de anotação referem-se aos dados criados e adicionados artificialmente no conjunto de dados. Uma vez que todo mundo tem certos pensamentos e hábitos fixos, é fácil ser encontrado pelo modelo, como julgar se a hipótese e o fato são contraditórios pelo número de palavras negativas.

Este é um "atalho" para o modelo. Embora os humanos às vezes usem métodos semelhantes, eles corrigem erros com base na semântica. Se o modelo só pode usar esse método, seus julgamentos não são baseados no entendimento da semântica.

A pesquisa mostrou que existem atalhos em muitos conjuntos de dados comumente usados, e a realização desses atalhos é considerada a prova de habilidades específicas. Por exemplo, o modelo realiza "compreensão de leitura" e "compreensão de linguagem".

A razão para este tipo de problemas são as suposições seguidas durante o design da tarefa, o que faz com que os identificadores de dados não obtenham instruções claras e específicas. Para resolver esses problemas, você precisa repensar o formato usado ao construir o conjunto de dados. Alguns estudos recentes sugerem que uma nova estrutura de anotação pode ser projetada para fazer uso do "bom senso" humano. Existem também alguns novos métodos para evitar falsas correlações da criação e aplicação de conjuntos de dados.

Racionalize alguns problemas irracionais

Conforme mencionado anteriormente, a associação entre entradas e rótulos no conjunto de dados pode não ser 100% significativa - a estrutura de tarefas problemáticas pode fazer com que o modelo use heurísticas erradas para fazer previsões.

Algumas tarefas podem não ser resolvidas de jeito nenhum, ou não podem ser resolvidas com IA, mas quando o modelo de aprendizado de máquina consegue atingir uma precisão que excede a linha de base do teste por "atalho", o pesquisador pode pensar que a tarefa é razoável, mas na verdade o modelo é usado para completar a tarefa. As habilidades obtidas não correspondem aos requisitos do mundo real.

Nos últimos anos, muitos estudos tentaram prever atributos como gênero e outras características pessoais subjetivas a partir de fotos de rostos. As pessoas presumiram que a IA pode fazer previsões. No entanto, alguns estudos de acompanhamento indicaram que o conjunto de dados que usaram era mais ou menos problemático, fazendo com que o modelo adotasse atalhos sem sentido.

Por exemplo, um modelo de IA parece ser capaz de reconhecer a homossexualidade com base na aparência e nas características pessoais, mas na verdade ele só aprendeu a reconhecer estereótipos homossexuais no conjunto de dados, incluindo estilos de cabelo e outras autoexpressões.

De fato, identificar a homossexualidade por meio de características de aparência é em si uma tarefa factível e polêmica, que implica essencialmente na existência de "características homossexuais", mas esse conceito ainda precisa de verificação científica.

Problemas semelhantes também aparecem no campo do processamento de linguagem natural, como a pesquisa de IA que prevê o QI dos alunos por meio de respostas de dissertações. A tarefa em si é baseada na premissa de que "as informações contidas no conteúdo da dissertação são suficientes para refletir o QI" - o racionalidade da premissa Dúvidas levaram a problemas na construção da tarefa.

Portanto, antes de construir a tarefa e avaliar se a tarefa pode ser concluída, os pesquisadores precisam esclarecer duas questões primeiro para confirmar se a premissa ou suposição é razoável.

1. Se esta tarefa deve ser resolvida;

2. Se esta tarefa deve ser resolvida por IA;

Evitando assim o uso e construção de conjuntos de dados para racionalizar problemas irracionais.

Não deveria "deixar pra lá"

No campo do aprendizado de máquina, a coleta, rotulagem e registro de conjuntos de dados por pesquisadores parecem estar se movendo na direção de "tudo incluído". Uma grande quantidade de dados vem de mecanismos de pesquisa on-line, plataformas de mídia social e outros fontes de informação online.

Essa atitude de “laissez-faire” é diferente do estilo cauteloso adotado por outras disciplinas baseadas em dados e também causou alguns problemas.

O primeiro é a coleta de conjuntos de dados. O artigo anterior mencionou a coleta de dados não autorizada. Da mesma forma, um novo estudo em 2020 mostrou que vários conjuntos de dados convencionais de visão computacional e análise facial contêm milhões de imagens pornográficas retiradas da plataforma Flickr. Autorizado pelo usuário.

imagem

A segunda é a rotulagem. Os conjuntos de dados contam com anotações manuais e os anotadores projetarão intencionalmente ou não valores subjetivos, julgamentos e tendências nos resultados da anotação. A consequência é que o conjunto de dados é tendencioso.

Como a rotulagem de dados pode ser feita por meio de crowdsourcing, alguns pesquisadores encontraram um erro mais comum, ou seja, os anotadores tratam a rotulagem como um trabalho explicativo, fazendo com que o "rótulo dourado" no conjunto de dados seja confundido com objetos do mundo real, porque pode não ser a única "verdade fundamental" no mundo real.

Finalmente, há o método de registro do conjunto de dados.A falta de uma prática estrita e padronizada de registro do conjunto de dados leva ao problema da reprodutibilidade.

Alguns pesquisadores tentaram reconstruir o ImageNet para testar a capacidade de generalização de seu classificador. Embora eles tenham seguido métodos conhecidos de coleta de dados e rotulagem, e até mesmo tenham coletado fotos do mesmo período em que o conjunto de dados foi criado, a proporção de distribuição dos dois ainda existe uma grande lacuna, uma das razões é o desvio na rotulagem de "verdade fundamental".

Há uma solução?

O tamanho do conjunto de dados de aprendizado de máquina torna muito difícil revisar completamente seu conteúdo, portanto, é difícil saber por onde começar a procurar e descobrir os problemas mencionados acima.

O método comum atual é confiar na intuição e em especialistas no domínio, mas as pesquisas mais recentes também propuseram novas ferramentas que podem revelar pistas falsas (atalhos) e outros problemas de conteúdo por meio das propriedades estatísticas dos conjuntos de dados.

Uma equipe de pesquisa propôs o algoritmo AFLITE, que pode identificar sistematicamente conjuntos de dados que são fáceis de serem "buracos" por modelos e difíceis de serem descobertos por humanos. O algoritmo é aplicado a alguns conjuntos de dados de processamento de linguagem natural e os resultados mostram que o modelo treinado no conjunto de dados filtrado tem melhor capacidade de generalização.

Além disso, adicionar artificialmente alguns elementos de interferência ou amostras contrafactuais também pode obter um melhor limite de decisão, aumentando assim a robustez e a capacidade de generalização do modelo. Mas às vezes, os "elementos perturbadores" cuidadosamente projetados para fortalecer a capacidade de generalização do modelo podem acabar seguindo o mesmo padrão dos dados originais, e o resultado é contraproducente.

Isso mostra que os pesquisadores precisam olhar e repensar como construir conjuntos de dados para tarefas de uma perspectiva mais ampla. Por exemplo, aceite que os conjuntos de dados não podem representar perfeitamente a realidade das tarefas do mundo real. Em vez disso, eles precisam reduzir o impacto dos dados viés e deliberadamente Comece com os vieses do conjunto de dados de “aprendizagem” (como o algoritmo DRiFT).

Finalmente, alguns estudos recentes apontaram que às vezes o ruído no conjunto de dados pode não ser viés estatístico ou erros de rótulo, mas refletir a variabilidade do julgamento humano, então o modelo também deve refletir essas mudanças, em vez de ignorá-las ou descartá-las.

Cultura de conjunto de dados

Por fim, a cultura geral do conjunto de dados no campo do aprendizado de máquina também merece atenção contínua.

1. Prática de benchmarking

A importância do benchmarking no campo do aprendizado de máquina é inquestionável, mas a tendência de "apenas heróis voltados para a realização" também é controversa. Geoffrey Hinton, o padrinho do aprendizado profundo, disse certa vez que a cultura de benchmarking atual "pode ​​atrapalhar o desenvolvimento do pensamento inovador".

Uma das razões é que os benchmarks não podem demonstrar totalmente os prós e os contras de um modelo. Por exemplo, muitos pesquisadores no campo do processamento de linguagem natural estão pedindo a adição de mais critérios de avaliação, incluindo consumo de energia, tamanho do modelo, indicadores de justiça e análise de erro, etc., de modo a refletir mais completamente o desempenho do modelo.

2. Gerenciamento e distribuição de dados

O armazenamento seguro e a distribuição adequada de dados são questões que devem ser observadas no campo do aprendizado de máquina hoje. Em comparação com as ciências sociais e a pesquisa médica, o campo do aprendizado de máquina ainda não estabeleceu práticas de gerenciamento de dados que possam ser promovidas e seguidas.

Quando a pesquisa envolve informações biológicas pessoais confidenciais, como dados faciais e dados médicos, se não houver um padrão de gerenciamento de dados correspondente, todos que têm a oportunidade de contatá-los podem infringir os direitos dos proprietários dos dados, intencionalmente ou não.

Problemas semelhantes também ocorrem em conjuntos de dados excluídos. A pesquisa mostra que depois que alguns conjuntos de dados são removidos pelos desenvolvedores, ainda existem muitos estudos que citam ou usam cópias dos conjuntos de dados. Na ausência de um mecanismo de gestão eficaz hoje, é difícil parar ou responsabilizar tal comportamento.

3. Reutilização de dados

A reutilização de dados de pesquisa e a reprodutibilidade dos resultados da pesquisa, incluindo códigos, também são pontos-chave que merecem atenção por pesquisadores de aprendizado de máquina.

O chamado reaproveitamento de dados refere-se aos dados coletados para um projeto de pesquisa científica sendo utilizados para outros fins. Isso envolve ética de dados e pode até mesmo remontar à questão fundamental de "quem é o proprietário dos dados". As discussões sobre este tópico também ajudarão a construir um mecanismo de gerenciamento de conjunto de dados mais completo.

4. Questões legais

Conforme mencionado anteriormente, os conjuntos de dados no campo do aprendizado de máquina dependem fortemente dos recursos da Internet, mas questões legais podem estar envolvidas em todos os links, desde a coleta até a rotulagem, do treinamento à avaliação.

Por exemplo, as imagens ImageNet vêm de mecanismos de pesquisa e as informações de copyright e licença de muitas imagens são desconhecidas. ImageNet afirma que seu modelo operacional é semelhante ao de um mecanismo de busca, portanto, não envolverá questões de direitos autorais. No entanto, etapas posteriores, como distribuição, uso e modificação de fotos, ainda envolvem conceitos legais como o direito à privacidade, o direito de saber e o direito de retratar.

No momento, as leis de direitos autorais de vários países do mundo não definem estritamente o escopo do uso de conjuntos de dados e não há muitos precedentes a que se referir. Portanto, a comunidade acadêmica de IA só pode contar com um amplo consenso sobre coleta, uso e distribuição de dados.

Como lidar e lidar com essas questões legais no futuro está diretamente relacionado aos direitos e interesses dos gerentes de conjuntos de dados, pesquisadores de IA, proprietários de direitos autorais, objetos de dados e outras partes interessadas.

Referência:

https://arxiv.org/pdf/2012.05345.pdf

Conta oficial: Facção de combate de dados, entre em contato com o editor para reimpressão ~

Acho que você gosta

Origin blog.csdn.net/shujushizhanpai/article/details/112624054
Recomendado
Clasificación