Große Sprachmodelle in Kryptowährungen

Große Sprachmodelle in Kryptowährungen

Ursprünglich veröffentlicht von Satoru Morimoto  No data is not smart  2023-08-14 20:57  in den Vereinigten Staaten

In der Sammlung #Paper Express 264 enthalten

Überblick

In diesem Artikel werden die potenziellen Anwendungen untersucht, die große Sprachmodelle (LLMs) im Bereich der Kryptowährungen bieten, mit dem Ziel, die Zugänglichkeit des Rechtssystems zu verbessern. Allerdings gibt es derzeit nur begrenzte empirische Belege für die Wirksamkeit von LLMs bei juristischen Aufgaben.

Es gibt einige Probleme mit früheren Methoden, und die in diesem Artikel vorgeschlagene Methode hat eine gute Motivation. Frühere Ansätze nutzten die KI-Technologie nicht vollständig zur Unterstützung des Rechtsprozesses, während die Anwendung großer Sprachmodelle möglicherweise eine wirksame Unterstützung bei der rechtlichen Argumentation und Ausarbeitung bieten kann.

Der in diesem Artikel vorgeschlagene Forschungsansatz besteht darin, die Sachmuster realer Fälle in GPT-3.5 einzuspeisen und seine Fähigkeit zu bewerten, potenzielle Verstöße genau zu identifizieren und unechte Verstöße vom Tatort auszuschließen. Zweitens haben wir Scheinjurys, die Beschwerden bewerten, die von großen Sprachmodellen und Anwälten verfasst wurden.

Die Methode in diesem Artikel schneidet bei der rechtlichen Argumentation nur schwach ab, schneidet jedoch bei der juristischen Formulierung gut ab. Die Urheberschaft der Beschwerde hatte keinen statistisch signifikanten Einfluss auf die Entscheidung der Jury. Obwohl die von GPT-3.5 angezeigten Verstöße häufig korrekt sind (andere korrekte Verstöße werden lediglich übersehen), gehen wir davon aus, dass sich die Leistung zukünftiger Modelle verbessern wird.

Diskussion zu wichtigen Themen

1. Glauben Sie, dass diese Methode gemäß der im Artikel beschriebenen Bewertungsmethode die Leistung von GPT-3.5 genau bewerten kann? Warum?

Gemäß der im Artikel beschriebenen Bewertungsmethode verwendeten die Forscher die Vorwürfe in realen Fällen als „grundlegende Fakten“, um die Leistung von GPT-3.5 zu bewerten. Sie führten als „Grundwahrheit“ mehrere Verstöße ein, die in realen Fällen vorliegen, und GPT-3.5 kann auch mehrere Verstöße identifizieren, aber die Anzahl der Verstöße ist möglicherweise nicht konsistent. Auf dieser Grundlage entwickelten die Autoren Leistungsmetriken, um das Ausmaß der durch GPT-3.5 identifizierten richtigen und falschen Verstöße zu bewerten. Obwohl es einige Einschränkungen in der Bewertungsmethodik gibt, wie z. B. die Behandlung zusätzlicher Behauptungen, die durch GPT-3.5 als „Fehler“ hervorgerufen werden, kann es sein, dass Fehler von Anwälten ignoriert werden oder bestimmte Behauptungen aus strategischen Gründen ausgeschlossen werden, in dieser Studie betrachteten die Autoren die Behauptungen der Anwälte als „ richtig“ und anhand relevanter Fakten bewertet. Obwohl die Bewertungsmethode möglicherweise Einschränkungen aufweist, kann sie die Leistung von GPT-3.5 dennoch genauer bewerten.

2. Im Artikel wird erwähnt, dass die anwendbaren Leistungsmetriken die Anzahl der wahren Fälle (TP), die Anzahl der falsch-positiven Ergebnisse (FP) und die Anzahl der falsch-negativen Ergebnisse (FN) umfassen. Bitte erläutern Sie die Rolle dieser Leistungsmetriken bei der Bewertung der Leistung von GPT-3.5.

Bei der Bewertung der Leistung von GPT-3.5 verwendeten die Forscher Leistungsmetriken wie die Anzahl der wahren Fälle (TP), die Anzahl der falsch-positiven Ergebnisse (FP) und die Anzahl der falsch-negativen Ergebnisse (FN). Die wahre Zahl ist die Anzahl der von GPT-3.5 korrekt identifizierten Verstoßvorwürfe, was die Fähigkeit von GPT-3.5 zur korrekten Identifizierung widerspiegelt. Die Anzahl der Falsch-Positiv-Ergebnisse ist die Anzahl zusätzlicher Verstoßvorwürfe, die GPT-3.5 falsch identifiziert, und misst die Falsch-Positiv-Fähigkeit von GPT-3.5. Die Anzahl der falsch-negativen Ergebnisse ist die Anzahl der Verstoßvorwürfe, die GPT-3.5 nicht identifizieren konnte, was die unzureichende Meldefähigkeit von GPT-3.5 widerspiegelt. Mithilfe dieser Leistungsmetriken können wir die Genauigkeit, die Falsch-Positiv-Rate und die Falsch-Negativ-Rate von GPT-3.5 bei der Identifizierung von Verstößen bewerten und so die Leistung umfassend bewerten.

3. Der Artikel erwähnt zwei Bewertungsregeln (Regel 1 und Regel 2). Bitte erläutern Sie die Rolle dieser Regeln bei der Bewertung und wie sie sich auf die Bewertung von GPT-3.5 auswirken.

Die Rolle der beiden in der Bewertung eingeführten Bewertungsregeln (Regel 1 und Regel 2) besteht darin, die Nuancen des rechtlichen Kontexts zu erfassen und einen Einfluss auf die Bewertung von GPT-3.5 zu haben. Regel 1 sieht vor, dass Verstöße, die oft gleichzeitig behauptet werden (z. B. Abschnitt 10(b) des Securities Exchange Act und Abschnitt 10b-5 in diesem Abschnitt), als ein einziger Verstoß behandelt und entsprechend gewertet werden. Wenn GPT-3.5 jedoch nur einen Verstoß gegen Abschnitt 10b-5, nicht aber gegen Abschnitt 10(b) feststellte, wäre die angegebene Punktzahl 0,5. Regel 2 besagt, dass eine Punktzahl von 0,5 auch dann vergeben wird, wenn die Ausgabe das richtige Gesetz enthält, aber nicht den spezifischen Abschnitt, gegen den der Beklagte verstoßen hat. Beispielsweise würde eine Punktzahl von 0,5 vergeben, wenn die Ausgabe auf einen Verstoß gegen die Wertpapiergesetze hindeutet, aber nicht angibt, dass die Vorwürfe unter Abschnitt 5(a) und Abschnitt 5(c) des Gesetzes fallen. Wenn hingegen in der Ausgabe lediglich ein Verstoß gegen den Federal Securities Act festgestellt wird, beträgt die Punktzahl 0. Die Verwendung dieser Regeln bei der Bewertung der GPT-3.5-Punktzahl soll die Identifizierung von Verstößen durch GPT-3.5 genau erfassen und bewerten.

4. Warum wird bei der Auswertung die Anzahl der wahren und negativen Fälle (TN) nicht in die Analyse einbezogen? Wie kann man das erklären und verstehen?

True-Negative Numbers (TN) sind für die Auswertung in dieser Analyse nicht anwendbar, da es sinnlos ist, die Anzahl der möglicherweise nicht anwendbaren Gesetze zu zählen und sie zu zählen. In diesem Zusammenhang geht es uns um die Richtigkeit der Vorwürfe von Verstößen und wir können daher nicht alle nicht anwendbaren Gesetze als echte Gegenbeispiele betrachten. Daher werden in dieser Bewertung keine wahren und negativen Beispiele gezählt und gezählt, sondern der Schwerpunkt liegt nur auf der Identifizierung korrekter Verstöße, falsch positiver und falsch negativer Ergebnisse.

5. Gibt es aus Sicht des Methodendesigns mögliche Abweichungen oder Einschränkungen bei dieser Bewertungsmethode? Bitte erläutern Sie dies ausführlich.

Aus Sicht des Methodendesigns kann diese Bewertungsmethode bestimmte Vorurteile oder Einschränkungen aufweisen. Erstens betrachtet der Ansatz die Behauptungen des Anwalts als „richtig“, der Anwalt hat jedoch möglicherweise Fehler bei der Auswahl und Entscheidung über die Anklagepunkte gemacht oder bestimmte Anklagepunkte aus strategischen Gründen ausgeschlossen. Dies könnte dazu führen, dass die von GPT-3.5 vorgeschlagenen zusätzlichen Anschuldigungen als „falsch“ angesehen werden, was zu einer gewissen Verzerrung in der Bewertung führt. Darüber hinaus übernimmt diese Methode bei der Identifizierung von Verstößen einige Regeln (Regel 1 und Regel 2), die möglicherweise nicht vollständig auf alle Situationen anwendbar sind und bestimmte Auswirkungen und Einschränkungen auf die Bewertungsergebnisse haben können. Trotz dieser Vorurteile und Einschränkungen bietet diese Bewertungsmethode jedoch immer noch ein wirksames Mittel zur Bewertung der Leistung von GPT-3.5.

Link zum Papier: https://arxiv.org/abs/2308.06032.pdf

おすすめ

転載: blog.csdn.net/sinat_37574187/article/details/132296850