Wenn weniger mehr ist: Untersuchung der Datenbereinigung für das Vortraining von LLMs im großen Maßstab

Dieser Artikel ist ein Artikel in der LLM-Reihe und konzentriert sich auf die Übersetzung von „When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale“.

Wenn weniger mehr ist: Untersuchung der Datenbereinigung für groß angelegte vorab trainierte LLM

Zusammenfassung

In den letzten Jahren haben große Mengen an Textdaten erheblich zur Entwicklung großer Sprachmodelle (LLMs) beigetragen. Diese Daten werden typischerweise durch Scraping des Internets gewonnen, was zu einem Pre-Training-Datensatz führt, der aus verrauschtem Webtext besteht. Bisher stützten sich Bemühungen, diese Datensätze auf Teilmengen höherer Qualität zu reduzieren, auf handgefertigte Heuristiken, die als regelbasierte Filter kodiert waren. In dieser Arbeit nehmen wir eine breitere Perspektive ein und untersuchen skalierbare Datenqualitätsschätzungen, die zur systematischen Messung der Qualität von Pre-Training-Daten verwendet werden können. Wir führen strenge Vergleiche auf der Skala eines einfachen Datenqualitätsschätzers für Perplexität sowie komplexerer und rechenintensiverer Schätzungen der Fehler-L2-Norm und des Speichers durch. Diese Metriken werden verwendet, um den vorab trainierten Korpus zu bewerten und zu bereinigen, und dann vergleichen wir LLMs, die auf diesen bereinigten Datensätzen trainiert wurden. Überraschenderweise stellten wir fest, dass eine einfache Ratlosigkeitstechnik unsere rechenintensivere Bewertungsmethode übertraf. Wir verbessern die ungekürzte Basislinie, während wir mit 30 % des ursprünglichen Trainingsdatensatzes trainieren. Unsere Arbeit legt den Grundstein für unerforschte Strategien zur automatischen Kuratierung hochwertiger Korpora und zeigt, dass die meisten Pre-Training-Daten unter Beibehaltung der Leistung entfernt werden können.

1. Einleitung

2 Methoden

3 Experimente

4. Ergebnisse und Diskussion

5 verwandte Arbeiten

6 Fazit

In dieser Studie werfen wir einen detaillierten Blick auf verschiedene Datenbereinigungsmethoden für das Vortraining von LLMs mit Milliarden von Parametern und Datensätzen, die Milliarden von Tokens enthalten. Wir zeigen, dass die Datenbereinigung bei korrekter Anwendung die Modellleistung kontinuierlich verbessern kann. Wir haben auch festgestellt, dass das Training an den „einfachsten“ Beispielen im Datensatz, wobei „am einfachsten“ als das Beispiel mit der niedrigsten Bewertung gemäß einer auf dem Referenzmodell basierenden Metrik definiert ist, die Leistung beeinträchtigt. Einfache Methoden, die Instanzen nach Ratlosigkeit ordnen, zeigen eine höhere Leistung im Vergleich zu aufwändigeren Methoden wie dem Auswendiglernen. Modelle, die nur auf der Hälfte der perplexity-selektierten Daten trainiert wurden, können im Vergleich zu Modellen, die auf dem gesamten Datensatz trainiert wurden, Verbesserungen von bis zu 1,5 % erzielen. Darüber hinaus haben wir die Konsistenz unserer Ergebnisse mit zunehmender Modellgröße festgestellt. Während die Erweiterung der Datenmenge für das LLM-Training nach wie vor ein beliebter Weg zur Verbesserung von Modellen ist, zeigt unsere Arbeit, dass die sorgfältige Bereinigung dieser großen Trainingskorpora auch eine fruchtbare Richtung zur Verbesserung von Modellen ist.

Guess you like

Origin blog.csdn.net/c_cpp_csharp/article/details/132859196