Eine gemeinsame Studie von Google und der University of Washington: Warum gibt es ein Problem mit dem Ranking im Standarddatensatz?

Eine gemeinsame Studie von Google und der University of Washington: Warum gibt es ein Problem mit dem Ranking im Standarddatensatz?

Bild
Bildquelle: unsplash.com

Verfasser: REN

In der Forschung zum maschinellen Lernen bilden Datensätze die Grundlage für Modelldesign und -bereitstellung und sind die Hauptwerkzeuge für das Benchmarking und die Bewertung. Ohne sie ist die überwiegende Mehrheit der Forschung zum maschinellen Lernen zu einer Wasserquelle und einem Baum ohne Wurzeln geworden.

Das Sammeln, Erstellen und Teilen von Datensätzen kann die im Bereich des maschinellen Lernens verfolgten Probleme und die bei der Algorithmusentwicklung untersuchten Methoden widerspiegeln. Viele Arbeiten in den letzten Jahren haben jedoch die Grenzen der aktuellen "Datensatzkultur" aufgezeigt, und nach und nach wurden Diskussionen über Datensatzspezifikationen und -verbesserungen geführt.

Geoffrey Hinton, der Pate des tiefen Lernens, sagte einmal, dass die aktuelle Benchmarking-Kultur für Datensätze "die Entwicklung innovativen Denkens behindern könnte".

In Übereinstimmung mit dieser Ansicht veröffentlichte das gemeinsame Forschungsteam der University of Washington und Google Research die Forschungsdaten und ihre (Dis-) Inhalte: Eine Übersicht über die Entwicklung und Verwendung von Datensätzen in der Forschung zum maschinellen Lernen , in der sie einzeln zusammengefasst und analysiert wurden. Verschiedene Probleme, die durch die praktischen Methoden von Datensätzen im Bereich des maschinellen Lernens aufgedeckt werden.

Das Papier kam zu dem Schluss, dass groß angelegte Sprachmodelle in der Lage sind, Vorurteile aufrechtzuerhalten (insbesondere gegenüber einer Reihe von marginalisierten Gemeinschaften), und dass schlecht kommentierte Datensätze Teil des Problems sind, und fordert daher die Forscher auf diesem Gebiet auf, vorsichtiger vorzugehen Datensatz und entsprechend entwickeln.

Repräsentative Frage

In den letzten Jahren haben viele gängige Datensätze zum maschinellen Lernen mehr oder weniger repräsentative Probleme, die sich hauptsächlich auf den Grad und die Art der Repräsentation verschiedener sozialdemografischer Gruppen konzentrieren, einschließlich Rasse, Geschlecht, Hautfarbe, Stereotypen usw.

Eine große Anzahl von Studien hat beispielsweise gezeigt, dass die Unterrepräsentation dunkelhäutiger Objekte in gängigen Gesichtsanalysedatensätzen, während in Objekterkennungsdatensätzen die verwendeten Bilder hauptsächlich aus westlichen Ländern stammen.

Ein ähnliches Phänomen trat auch im englischen Datensatz für die co-referenzielle Auflösung auf, aber die Probanden wurden zu weiblichen Pronomen wie sie / er, deren Anteil signifikant niedriger war als der von männlichen Pronomen wie er / sie.

Die Verbreitung von Stereotypen in der Gesellschaft wirkt sich auch auf den Datensatz aus. Im Datensatz zur Verarbeitung natürlicher Sprache spiegeln einige gebräuchliche Wörter die in der Gesellschaft vorherrschenden Vorurteile wider, und im Computer-Vision-Datensatz spiegeln sie auch das Stereotyp über das Geschlecht wider.

Im Jahr 2018 stellten die Forscher in einem Datensatz zur Klassifizierung schlechter Wörter fest, dass Wörter, die geschlechtsspezifische Minderheiten wie Queer beschreiben, eher mit „schlechten / toxischen“ Bezeichnungen assoziiert werden, was bedeutet, dass sie eher als „schlechte Wörter“ bezeichnet werden. . Etikett.

Bild
ImageNet-Bildersammlung. Quelle: ImageNet

Sogar der berühmte ImageNet-Datensatz hat ähnliche Probleme. Mehrere Studien haben gezeigt, dass Millionen von menschlichen Fotos offensiv gekennzeichnet und rassendiskriminierende oder abfällige Wörter verwendet wurden. Unter bestimmten Kategorien sind auch nicht lizenzierte und pornografische Bilder von Frauen erschienen.

Um die oben genannten Probleme zu lösen, hat ImageNet viele Bilder gelöscht und ein weiteres Dataset, TinyImages, wurde vollständig entfernt.

Vom Modell verwendete "Verknüpfungen"

Obwohl Deep-Learning-Modelle bei einigen eher herausfordernden Aufgaben hervorragende Leistungen erbracht haben, haben viele Studien gezeigt, dass ihre Leistung möglicherweise nur oberflächlich ist und durch einige "billige Tricks" erzielt wird, anstatt menschliche Denkfähigkeiten zu verwenden.

Eine Studie aus dem Jahr 2020 hat gezeigt, dass tiefe neuronale Netze möglicherweise auf "Verknüpfungen" beruhen, um Aufgaben zu erfüllen. Verknüpfungen sind normalerweise auf Anmerkungsartefakte (künstlich erstellte Daten) im Datensatz zurückzuführen, die das Modell an die Trainingsdaten anpassen und sich auf bedeutungslose Heuristiken stützen, um die Aufgabe zu "lösen".

Die sogenannten Annotationsartefakte beziehen sich auf die künstlich erzeugten und hinzugefügten Daten im Datensatz. Da jeder bestimmte feste Gedanken und Gewohnheiten hat, ist es leicht, das Modell zu finden, beispielsweise zu beurteilen, ob die Hypothese und die Tatsache durch die Anzahl der negativen Wörter widersprüchlich sind.

Dies ist eine "Verknüpfung" für das Modell. Obwohl Menschen manchmal ähnliche Methoden anwenden, korrigieren sie Fehler basierend auf der Semantik. Wenn das Modell nur diese Methode verwenden kann, basieren seine Beurteilungen nicht auf dem Verständnis der Semantik.

Untersuchungen haben gezeigt, dass es in vielen häufig verwendeten Datensätzen Verknüpfungen gibt, und die Realisierung dieser Verknüpfungen wird als Beweis für bestimmte Fähigkeiten angesehen. Beispielsweise realisiert das Modell "Leseverständnis" und "Sprachverständnis".

Der Grund für diese Art von Problemen sind die Annahmen, die während des Aufgabendesigns getroffen wurden, was dazu führt, dass die Daten-Tagger keine klaren und spezifischen Anweisungen erhalten. Um solche Probleme zu lösen, müssen Sie das Format überdenken, das beim Erstellen des Datensatzes verwendet wird. Einige neuere Studien legen nahe, dass ein neues Annotations-Framework entworfen werden kann, um den menschlichen "gesunden Menschenverstand" zu nutzen. Es gibt auch einige neue Methoden, um falsche Korrelationen bei der Erstellung und Anwendung von Datensätzen zu verhindern.

Rationalisieren Sie einige unvernünftige Probleme

Wie bereits erwähnt, ist die Zuordnung zwischen Eingaben und Beschriftungen im Datensatz möglicherweise nicht zu 100% sinnvoll. Eine problematische Aufgabenstruktur kann dazu führen, dass das Modell falsche Heuristiken verwendet, um Vorhersagen zu treffen.

Einige Aufgaben können möglicherweise überhaupt nicht oder nicht mit KI gelöst werden. Wenn das maschinelle Lernmodell jedoch eine Genauigkeit erreichen kann, die die Testbasislinie durch "Verknüpfung" überschreitet, hält der Forscher die Aufgabe möglicherweise für angemessen, aber tatsächlich Das Modell wird verwendet, um die Aufgabe zu erfüllen. Die erworbenen Fähigkeiten entsprechen nicht den Anforderungen der realen Welt.

In den letzten Jahren haben viele Studien versucht, Attribute wie Geschlecht und andere subjektive persönliche Merkmale anhand von Gesichtsfotos vorherzusagen. Die Menschen haben angenommen, dass KI Vorhersagen treffen kann. Einige Folgestudien wiesen jedoch darauf hin, dass der von ihnen verwendete Datensatz mehr oder weniger problematisch war, was dazu führte, dass das Modell bedeutungslose Verknüpfungen verwendete.

Zum Beispiel scheint ein KI-Modell in der Lage zu sein, Homosexualität anhand des Aussehens und der persönlichen Merkmale zu erkennen, aber tatsächlich hat es nur gelernt, homosexuelle Stereotypen im Datensatz zu erkennen, einschließlich Frisuren und anderer Selbstausdrücke.

Tatsächlich ist die Identifizierung von Homosexualität anhand von Erscheinungsmerkmalen selbst eine machbare und kontroverse Aufgabe, die im Wesentlichen die Existenz von "homosexuellen Merkmalen" impliziert, aber dieses Konzept muss noch wissenschaftlich überprüft werden.

Ähnliche Probleme treten auch im Bereich der Verarbeitung natürlicher Sprache auf, beispielsweise bei der KI-Forschung, die den IQ der Schüler anhand von Aufsatzantworten vorhersagt. Die Aufgabe selbst basiert auf der Prämisse, dass "die im Aufsatzinhalt enthaltenen Informationen ausreichen, um den IQ widerzuspiegeln" Rationalität der Prämisse Zweifel führten zu Problemen bei der Konstruktion der Aufgabe.

Bevor die Aufgabe erstellt und bewertet wird, ob die Aufgabe abgeschlossen werden kann, müssen die Forscher zunächst zwei Fragen klären, um zu bestätigen, ob die Prämisse oder Annahme angemessen ist.

1. ob diese Aufgabe gelöst werden soll;

2. ob diese Aufgabe von AI gelöst werden soll;

Dadurch wird die Verwendung und Konstruktion von Datensätzen vermieden, um unangemessene Probleme zu rationalisieren.

Sollte nicht "loslassen"

Im Bereich des maschinellen Lernens scheinen sich die Erfassung, Kennzeichnung und Aufzeichnung von Datensätzen durch Forscher in Richtung "All-Inclusive" zu bewegen. Eine große Datenmenge stammt von Online-Suchmaschinen, Social-Media-Plattformen und anderen offenen Online-Informationsquellen.

Diese „Laissez-Faire“ -Haltung unterscheidet sich von dem vorsichtigen Stil anderer datengesteuerter Disziplinen und hat auch einige Probleme verursacht.

Der erste ist die Sammlung von Datensätzen. Der vorherige Artikel erwähnte die nicht autorisierte Datenerfassung. In ähnlicher Weise zeigte eine neue Studie im Jahr 2020, dass mehrere gängige Datensätze für Computer Vision und Gesichtsanalyse Millionen von pornografischen Bildern enthalten, die von der Flickr-Plattform aufgenommen wurden. Vom Benutzer autorisiert.

Bild

Der zweite ist die Kennzeichnung. Datensätze basieren auf manueller Annotation, und die Annotatoren projizieren absichtlich oder unbeabsichtigt subjektive Werte, Beurteilungen und Verzerrungen in die Annotationsergebnisse. Die Folge ist, dass der Datensatz verzerrt ist.

Da die Datenkennzeichnung durch Crowdsourcing erfolgen kann, haben einige Forscher einen häufigeren Fehler festgestellt, dh Annotatoren behandeln die Kennzeichnung als erklärende Arbeit, was dazu führt, dass das „goldene Etikett“ im Datensatz mit realen Objekten verwechselt wird, da dies möglicherweise der Fall ist nicht die einzige "Grundwahrheit" in der realen Welt sein.

Schließlich gibt es das Aufzeichnungsverfahren des Datensatzes. Das Fehlen einer strengen und standardisierten Datensatzaufzeichnungspraxis führt zu dem Problem der Reproduzierbarkeit.

Einige Forscher haben versucht, ImageNet neu zu erstellen, um die Verallgemeinerungsfähigkeit seines Klassifikators zu testen. Obwohl sie bekannten Methoden zur Datenerfassung und -beschriftung gefolgt sind und sogar Bilder aus derselben Zeit gesammelt haben, als der Datensatz erstellt wurde, ist das Verteilungsverhältnis der beiden noch vorhanden Eine große Lücke, einer der Gründe ist die Abweichung bei der Bezeichnung "Grundwahrheit".

Gibt es eine Lösung?

Die schiere Größe des Datensatzes für maschinelles Lernen macht es sehr schwierig, seinen Inhalt gründlich zu überprüfen, sodass es schwierig ist zu wissen, wo man anfangen soll, die oben genannten Probleme zu suchen und zu entdecken.

Die derzeit übliche Methode besteht darin, sich auf Intuitions- und Domänenexperten zu verlassen. Die neuesten Forschungsergebnisse haben jedoch auch neue Tools vorgeschlagen, die durch die statistischen Eigenschaften von Datensätzen falsche Hinweise (Verknüpfungen) und andere inhaltliche Probleme aufdecken können.

Ein Forschungsteam schlug den AFLITE-Algorithmus vor, mit dem Datensätze systematisch identifiziert werden können, die von Modellen leicht als "Löcher" und von Menschen nur schwer zu entdecken sind. Der Algorithmus wird auf einige Datensätze zur Verarbeitung natürlicher Sprache angewendet, und die Ergebnisse zeigen, dass das auf dem gefilterten Datensatz trainierte Modell eine bessere Generalisierungsfähigkeit aufweist.

Darüber hinaus kann das künstliche Hinzufügen einiger Interferenzelemente oder kontrafaktischer Proben auch eine bessere Entscheidungsgrenze erhalten, wodurch die Robustheit und Verallgemeinerungsfähigkeit des Modells verbessert wird. Aber manchmal folgen die "störenden Elemente", die sorgfältig entwickelt wurden, um die Generalisierungsfähigkeit des Modells zu stärken, dem gleichen Muster wie die Originaldaten, und das Ergebnis ist kontraproduktiv.

Dies zeigt, dass Forscher die Erstellung von Datensätzen für Aufgaben aus einer breiteren Perspektive betrachten und überdenken müssen. Akzeptieren Sie beispielsweise, dass Datensätze die Realität realer Aufgaben nicht perfekt darstellen können. Stattdessen müssen sie die Auswirkungen von Daten reduzieren Voreingenommenheit und bewusst Beginnen Sie mit den Verzerrungen des Lerndatensatzes (z. B. des DRiFT-Algorithmus).

Schließlich haben einige neuere Studien darauf hingewiesen, dass das Rauschen im Datensatz manchmal keine statistischen Verzerrungen oder Beschriftungsfehler sind, sondern die Variabilität des menschlichen Urteils widerspiegeln. Dann sollte das Modell auch diese Änderungen widerspiegeln, anstatt sie zu ignorieren oder zu verwerfen.

Datensatzkultur

Schließlich verdient auch die gesamte Datensatzkultur im Bereich des maschinellen Lernens weitere Aufmerksamkeit.

1. Benchmarking-Praxis

Die Bedeutung des Benchmarking im Bereich des maschinellen Lernens steht außer Frage, aber auch der Trend "nur leistungsorientierte Helden" ist umstritten. Geoffrey Hinton, der Pate des tiefen Lernens, sagte einmal, dass die derzeitige Benchmarking-Kultur "die Entwicklung innovativen Denkens behindern könnte".

Einer der Gründe ist, dass Benchmarks die Vor- und Nachteile eines Modells nicht vollständig demonstrieren können. Beispielsweise fordern viele Forscher auf dem Gebiet der Verarbeitung natürlicher Sprache die Hinzufügung weiterer Bewertungskriterien, einschließlich Energieverbrauch, Modellgröße, Fairnessindikatoren und Fehleranalyse usw., um die Modellleistung vollständiger widerzuspiegeln.

2. Datenverwaltung und -verteilung

Die sichere Speicherung und ordnungsgemäße Verteilung von Daten sind Themen, die im Bereich des maschinellen Lernens heute beachtet werden müssen. Im Vergleich zu Sozialwissenschaften und medizinischer Forschung hat das Gebiet des maschinellen Lernens noch keine Datenmanagementpraktiken etabliert, die gefördert und befolgt werden können.

Wenn die Forschung sensible persönliche biologische Informationen wie Gesichtsdaten und medizinische Daten umfasst und kein entsprechender Datenverwaltungsstandard vorhanden ist, kann jeder, der die Möglichkeit hat, sich mit ihnen in Verbindung zu setzen, absichtlich oder unbeabsichtigt die Rechte der Dateneigentümer verletzen.

Ähnliche Probleme treten auch bei gelöschten Datensätzen auf. Die Umfrage zeigt, dass es nach dem Entfernen einiger Datensätze durch die Entwickler immer noch viele Studien gibt, die Kopien der Datensätze zitieren oder verwenden. In Ermangelung eines wirksamen Verwaltungsmechanismus ist es heute schwierig, ein solches Verhalten zu stoppen oder zur Rechenschaft zu ziehen.

3. Wiederverwendung von Daten

Die Wiederverwendung von Forschungsdaten und die Reproduzierbarkeit von Forschungsergebnissen, einschließlich Codes, sind ebenfalls wichtige Punkte, die von Forschern des maschinellen Lernens beachtet werden sollten.

Die sogenannte Datenwiederverwendung bezieht sich auf die Daten, die für ein wissenschaftliches Forschungsprojekt gesammelt wurden, das für andere Zwecke verwendet wird. Dies beinhaltet Datenethik und kann sogar auf die grundlegende Frage zurückgeführt werden, "wer der Eigentümer der Daten ist". Diskussionen zu diesem Thema werden auch dazu beitragen, einen vollständigeren Datensatzverwaltungsmechanismus aufzubauen.

4. Rechtliche Fragen

Wie bereits erwähnt, hängen Datensätze im Bereich des maschinellen Lernens stark von Internetressourcen ab. Bei jedem Link von der Erfassung bis zur Kennzeichnung, von der Schulung bis zur Bewertung können jedoch rechtliche Probleme auftreten.

Beispielsweise stammen ImageNet-Bilder von Suchmaschinen, und die Copyright- und Lizenzinformationen vieler Bilder sind unbekannt. ImageNet behauptet, dass sein Betriebsmodell dem einer Suchmaschine ähnelt, sodass keine Urheberrechtsprobleme auftreten. Nachgelagerte Schritte wie die Verbreitung, Verwendung und Änderung von Bildern beinhalten jedoch weiterhin rechtliche Konzepte wie das Recht auf Privatsphäre, das Recht auf Wissen und das Recht auf Porträt.

Gegenwärtig definieren die Urheberrechtsgesetze verschiedener Länder der Welt den Umfang der Verwendung von Datensätzen nicht streng, und es gibt nicht viele Präzedenzfälle, auf die Bezug genommen werden kann. Daher kann sich die akademische Gemeinschaft der KI nur auf einen breiten Konsens verlassen Datenerfassung, -nutzung und -verteilung.

Der künftige Umgang mit diesen rechtlichen Fragen hängt direkt mit den Rechten und Interessen von Datensatzmanagern, KI-Forschern, Copyright-Inhabern, Datenobjekten und anderen Interessengruppen zusammen.

Referenz:

https://arxiv.org/pdf/2012.05345.pdf

Offizieller Account: Datenkampffraktion, bitte kontaktieren Sie den Herausgeber zum Nachdruck ~

Ich denke du magst

Origin blog.csdn.net/shujushizhanpai/article/details/112624054
Empfohlen
Rangfolge