Wie können wir generative Sprachmodelle bewerten?

Ich bin mir sicher, dass Sie Nachrichtenartikel und Social-Media-Beiträge über die neueste Generation von Sprachmodellen gesehen haben, die in der Lage sind, menschenähnlichen Text zu erzeugen. Ich habe zum Beispiel Behauptungen gesehen, dass GPT-3 oder ChatGPT von OpenAI Aufsätze, YouTube-Skripte oder Blogbeiträge schreiben und sogar eine Anwaltsprüfung ablegen können.

Aber eine Frage, die ich noch nicht diskutiert gesehen habe, ist: Wie bewerten wir generative Modelle? Wie können wir sie bewerten und vergleichen, um zu entscheiden, welches das Beste ist?

Wenn Sie einen Klassifikator bewerten, gibt es eine Reihe von Standardmetriken, die jeder verwendet, wie z. B. Genauigkeit , AUC, Präzision , Rückruf und F1-Score. Wenn ein Forscher berichtet, dass ein Klassifikator bei einem bestimmten Datensatz eine AUC von 69 % oder eine Genauigkeit von 32 % erreicht hat, wissen wir alle, ob das gut oder schlecht ist.

Die Bewertung eines generativen Sprachmodells ist jedoch schwierig. Zunächst einmal gibt es nicht die eine richtige Antwort. Ich kann nicht einfach einen „Goldstandard“ für den zu generierenden Text haben – das Modell könnte alles generieren.

Ich habe in letzter Zeit für eine Reihe von Projekten mit generativen Sprachmodellen gearbeitet:

Für einen Sprachlernanbieter entwickle ich Modelle, deren Ziel es ist, einfache Sätze in der Zielsprache zu generieren.
Ich bin in einem Team mit zwei Universitäten und experimentiere mit generativen Modellen für juristische KI und versuche herauszufinden, ob Modelle wie GPT-3 einen Teil der Arbeit eines Rechtsanwaltsgehilfen oder Junior-Anwalts übernehmen können (Beantwortung eingehender rechtlicher Anfragen von Mandanten zu Unternehmensinsolvenzen ).

Ich habe herausgefunden, dass es zwei Möglichkeiten gibt, Text zu generieren: Entweder man liefert einem Modell die ersten paar Wörter eines Satzes und bittet es, diesen zu vervollständigen, oder man liefert ihm einen Satz mit einem oder mehreren fehlenden Wörtern und bittet es, ihn zu ergänzen in den fehlenden Worten.

Ich sollte klarstellen, dass ich in diesem Beitrag über GPT-3 (unter Verwendung des Modells text-davinci-003) und nicht über ChatGPT diskutiere, einen Chatbot, der auf der GPT-Modellfamilie aufbaut.

Übersicht über Bewertungsmetriken

Es gibt eine Reihe von Strategien zur Bewertung eines generativen Sprachmodells, und jede bewertet es aus einem anderen Blickwinkel.

Aufgabenbasierte Bewertung: Bewerten Sie es vor Ort, wie es in der Industrie verwendet würde.
Test im Turing-Stil: Wie gut kann ein Mensch das Modell von einem anderen Menschen unterscheiden?
Wahrhaftigkeit: Wie wahr sind die Ergebnisse des Modells? Erfindet oder reproduziert es Vorurteile aus der realen Welt?
Grammatische Gültigkeit: Verwenden Sie ein separates Modell, um auf grammatikalische Fehler zu prüfen. Dies ist die Ergänzung der Wahrhaftigkeitsmetrik.
Vergleichen Sie die Ausgabe mit einer „Goldstandard“-Ausgabe mithilfe einer Ähnlichkeitsmetrik wie dem BLEU-Score .
Verwenden Sie ein Notenschema, so wie ein menschlicher Prüfer eine Prüfung in den Geisteswissenschaften benoten würde.

Meine Experimente mit generativen Modellen

Experimentiere mit GPT-2 auf meinem Laptop

Da GPT-3 erfordert, dass Sie ein Konto bei OpenAI erstellen und einen API-Schlüssel erhalten, habe ich meine Experimente mit generativen Modellen mit seinem „Vorfahren“ GPT-2 begonnen, der auf einem normalen Laptop läuft (obwohl er alle seine Ressourcen verbraucht).

Mit ein paar Zeilen Python und der Bibliothek HuggingFace konnte ich GPT-2 dazu bringen, Sätze zu generieren, die grammatikalisch korrekt und gültig erscheinen. Sie sind jedoch nicht unbedingt das, was Sie für eine Sprachlern-App benötigen:

Da wir im Rahmen einer Sprachlern-App häufig kulturelle Themen ansprechen möchten, habe ich es mit ein paar Kernsätzen zum Thema Essen und Reisen versucht.

Das Problem, das ich festgestellt habe, ist, dass die obigen Sätze nicht unbedingt das sind, was ich für eine Sprachlern-App benötigen würde. Insbesondere das zweite Beispiel scheint durch Sportnachrichten stark und unnötig gewichtet zu werden.

Mit der Zeit ist mir aufgefallen, dass die Ergebnisse offenbar sehr gut das widerspiegeln, worauf GPT-2 trainiert wurde: Blogs und Nachrichtenartikel. Dies erklärt möglicherweise die Tendenz, sich Themen wie Erdbeben, anderen Naturkatastrophen, Anschlägen, Kriegen und anderen ausgesprochen „negativen“ Themen zuzuwenden – vielleicht weil diese in Nachrichtentexten recht prominent sind.

Weiter geht es mit GPT-3 (in der Cloud)

Nachdem ich mit GPT-2 experimentiert hatte, habe ich GPT-3 ausprobiert, das nicht auf meinem Laptop läuft, sondern als API aufgerufen werden muss. Ich habe GPT-3 gefragt: „Wie kann die Datenharmonisierung der Forschung im Bereich der psychischen Gesundheit zugute kommen?“ und habe Folgendes erhalten:

Die Datenharmonisierung in der Forschung zur psychischen Gesundheit hat das Potenzial, die Effizienz, Qualität und Genauigkeit der Forschungsergebnisse zu verbessern. Durch den Austausch von Daten und die Standardisierung von Protokollen zwischen Forschungsteams und Studien können Forscher aus einer Vielzahl von Quellen ein umfassenderes und genaueres Verständnis der psychischen Gesundheit und psychischen Störungen gewinnen …

Dieser Text ist kohärent, sagt aber eigentlich nichts. Ich habe verschiedene Eingabeaufforderungen ausprobiert und festgestellt, dass GPT-3 in der Lage ist, sehr intelligent klingende Waffeln zu erzeugen … perfekt für eine Sprachlern-App!

Temperatureinstellung des GPT-3

Die GPT-3-API verfügt über eine Einstellung namens „temperature“ . Die Temperatur steuert, wie viel Zufälligkeit in der Ausgabe enthalten ist. Wenn Sie die Temperatur auf einen niedrigeren Wert einstellen, gibt GPT-3 Sätze mit hoher Wahrscheinlichkeit zurück, wohingegen höhere Temperaturwerte es GPT-3 ermöglichen, mehr „abseits der Piste“ zu fahren. Manche Leute nennen die Temperatur eine „Kreativitäts“-Einstellung, aber OpenAI rät von dieser Bezeichnung ab.

Zur Veranschaulichung sind hier die Antworten von GPT-3 DaVinci 003 für einige Eingaben desselben Textes mit unterschiedlicher Temperatur. Sie werden feststellen, dass GPT-3 deterministisch ist, wenn die Temperatur auf 0 eingestellt ist: Es gibt jedes Mal die gleiche Reaktion. Sie werden feststellen, dass die Einstellung der Temperatur auf 2 zu unverständlichem Kauderwelsch führt.

🌡️Temperature	🧍💬Prompt	🤖💬Response
0	"[Natural language processing](/natural-language-processing-business-profits) is..."	a field of artificial intelligence Dabei geht es darum, Computer in die Lage zu versetzen, menschliche Sprache zu verstehen und zu verarbeiten. (das wäre jedes Mal das Gleiche)
2	"[Natural language processing](/what-is-nlp) is..."	also widely employed by given feature, for shpu h himpurwinran...
2	"[Natural language processing](/guide-natural-language-processing-nlp) is..."	Good appliedn intelligence [algorithms](https://harmonydata.ac.uk/measuring-the-performance-of-nlp-algorithms) natural abilities ..lar getustrichaQround...

Fast Data Science - NLP in London

Can generative models benefit your business?

Seit 2016 führend in den Bereichen NLP , ML und Data Science. Wenn Sie ein generatives Modell nutzen, trainieren oder evaluieren müssen, sprechen Sie mit uns!

Manuelle Eingabeaufforderungen

Zurück zu meinem Sprachlernprojekt: Ich habe dann ein Skript geschrieben, um Eingabeaufforderungen für GPT-3 zu generieren. Ich habe Themen rund um Reisen, Essen, Mode und andere passende Themen generiert.

Schematische Darstellung, wie mein Dropdown eine Eingabeaufforderung für GPT-3 zum Sprachenlernen generiert hat.

Ich stellte fest, dass ich durch das Spielen mit der „Temperatur“-Einstellung einige überzeugende Sätze generieren konnte. Zum Glück für das Sprachenlernen ist der Wahrheitsgehalt eines Beispielsatzes höchstens zweitrangig. Wenn ich die Temperatur zu hoch einstellte, waren die Sätze, die GPT-3 generierte, nicht einmal grammatikalisch, sodass es einen schönen Mittelweg gab, bei dem ich eine vielfältige Auswahl an geeigneten grammatikalischen Sätzen erhielt.

Eine mögliche Option, die Qualität der Ausgabe weiter zu verbessern, wäre, nur die Ausgaben des generativen Modells nachzubearbeiten und auszuwählen, die einem bestimmten Kriterium entsprechen, beispielsweise einer positiven Stimmung , oder für das gewünschte Thema relevant sind.

Wie wir oben sehen können, schien GPT-3 bei der Generierung von Beispielsätzen, bei denen Kreativität wichtig und Wahrhaftigkeit weniger wichtig ist, völlig ausreichend zu sein. Ich habe immer noch keine Messgröße, um die Sätze zu bewerten – außer sie Muttersprachlern oder Sprachlernenden zu geben und sie nach ihrer Meinung zu fragen.

Mal sehen, ob wir den Wahrheitsgehalt der Antworten von GPT-3 feststellen können:

Kann GPT-3 korrekte Rechtsberatung geben?

Anschließend habe ich einige Beiträge aus Webforen ausprobiert, in denen nach Rechtsberatung gefragt wird. Ich habe das GPT-3 Davinci-Modell über die Web-API mit einer auf 0 eingestellten Temperatur verwendet, um maximale Wahrhaftigkeit zu gewährleisten, und am Ende der Frage einen Textausschnitt hinzugefügt, um sicherzustellen, dass die Antworten unter Berücksichtigung des englischen Rechts gegeben wurden. Ich habe in Jupyter Notebook gearbeitet, was eine großartige Möglichkeit war, den Überblick über meine Ein- und Ausgaben zu behalten.

Eines meiner ersten Experimente mit rechtlichen Fragen anhand eines Beitrags von https://www.reddit.com/r/UKPersonalFinance .

Die oben gegebene Antwort schien mehr oder weniger sachlich korrekt zu sein.

Eine weitere Forumsfrage, die ich an GPT-3 gestellt habe, war:

Das Unternehmen, für das ich gearbeitet habe, hat geschlossen und ist zahlungsunfähig .
Als Gläubiger habe ich einen Bescheid des Insolvenzverwalters erhalten.
In der Sachstandserklärung heißt es, dass sie bestätigen, dass es in den zwölf Monaten vor der Schließung keine weiteren Transaktionen gegeben habe.
Ich weiß, dass der Direktor vor drei Wochen mehrere Fahrzeuge und einige teure Ausrüstung verkauft hat.
Sollte das nicht auf dem Aushang stehen??
Sie sagen, dass sie fast kein Geld auf der Bank hat, aber vor ein paar Wochen hat sie Vermögenswerte im Wert von fast 50.000 Pfund verkauft.
Bitte antworten Sie mit Bezug auf englisches Recht und geben Sie das entsprechende Gesetz an.

und ich bekam die Antwort

🤖💬 Nach englischem Recht ist der Insolvenzverwalter verpflichtet, den Gläubigern eine Aufstellung vorzulegen, die eine Liste aller Vermögenswerte und Verbindlichkeiten des Unternehmens enthalten muss. Dazu gehören alle Vermögenswerte, die in den 12 Monaten vor der Schließung des Unternehmens verkauft wurden. Daher hätte der Verkauf von Fahrzeugen und Ausrüstung durch den Direktor in die Geschäftsübersicht aufgenommen werden müssen.

Das relevante Gesetz ist das Insolvenzgesetz von 1986, Abschnitt 238, der besagt, dass die Vermögensaufstellung „eine Liste der Vermögenswerte und Verbindlichkeiten des Unternehmens, einschließlich Eventual- und zukünftiger Verbindlichkeiten, und eine Aufstellung der Handelstransaktionen des Unternehmens während des Zeitraums von zwölf Jahren“ enthalten muss Monate, die mit dem Beginn der Abwicklung enden“.

Auf den ersten Blick sieht die Resonanz beeindruckend aus. GPT-3 hat meine Frage nicht nur verstanden, sondern auch eine sehr klare Antwort gegeben und mich auf das richtige Parlamentsgesetz hingewiesen … richtig?

Aber es ist völlig frei erfunden!

Es ist richtig, dass das Insolvenzgesetz von 1986 den Kernsatz des Insolvenzrechts darstellt, aber die zitierte Passage ist völlig erfunden !

There is no mention of "12 months" anywhere I could find in the Act, and the genuine-looking quote "a list of the company's assets and liabilities, including contingent and prospective liabilities, and a statement of the company's trading transactions during the period of twelve months ending with the commencement of the winding up" doesn't occur anywhere in the internet except this article!

Also zur zentralen Frage dieses Beitrags: Wie können wir programmatisch oder numerisch ausdrücken, dass die erste rechtliche Antwort gut und die zweite nicht nur schlecht, sondern auch völlig unwahr ist?

Bewertungsmetriken

BLEU-Score

Für die maschinelle Übersetzung werden bereits eine Reihe von Bewertungsmaßstäben verwendet, beispielsweise der BLEU-Score . Beispielsweise misst Google die Genauigkeit von Google Translate für verschiedene Sprachen anhand des BLEU-Scores.

Der BLEU-Score eines Modells ist immer eine Zahl zwischen 0 und 1: Ein Übersetzer (oder generatives Modell), der genau den Goldstandardtext produziert, würde 1 (100 % Genauigkeit) erzielen.

Leider erfordert eine Metrik wie der BLEU-Score einen Goldstandard-Text, was im Fall der maschinellen Übersetzung bereits problematisch ist, wo mehrere Sätze akzeptabel sein können, im Fall des kreativen Verfassens von Texten oder der Generierung neuartiger Sätze jedoch unpraktisch wird.

Aufgabenbasierte Bewertung

Eine andere Möglichkeit, ein generatives Modell zu bewerten, besteht darin, es im Kontext der Aufgabe zu bewerten, die es ausführen soll.

Mein Textgenerierungsalgorithmus für Sprachlernsoftware konnte in einem A/B-Test mit von Menschen verfassten Sätzen verglichen werden, wobei die vorhandenen App-Benutzer als Versuchskaninchen verwendet wurden. Die Sprachlernsoftware könnte messen, wie gut die Benutzer die Informationen behalten und wie viel sie durch beide Strategien gelernt haben.

Test im Turing-Stil

Ein anderer Ansatz besteht darin, Muttersprachlern Paare generierter Sätze vorzustellen und sie zu bitten, in jedem Paar den von Menschen verfassten Satz auszuwählen.

Im Jahr 2008 evaluierten Hardcastle und Scott einen kryptischen Kreuzworträtsel-Hinweisgenerator namens ENIGMA , indem sie den Teilnehmern paarweise von Menschen und Computern generierte Hinweise präsentierten und sie aufforderten, auszuwählen, welcher Hinweis von Menschen und welcher vom Computer generiert wurde.

Beispielsweise wurden einem Bewerter für die Antwort „Bruder“ zwei Texte vorgelegt:

Bei steigendem Goldpreis ist ein doppeltes Anlegen schwierig (7)
Geschwisterkind bekommt zögernd Suppe (7)

Die Probanden von Hardcastle und Scott waren in 72 % der Fälle in der Lage, die von Menschen verfassten Hinweise richtig zu identifizieren.

Wahrhaftigkeit bewerten

Ein Team von OpenAI und der Universität Oxford hat einen Bewertungsbenchmark namens TruthfulQA entwickelt, um zu messen, wie generative Modelle wie GPT-3 menschliche Unwahrheiten nachahmen. Da GPT-3 auf Texten aus dem Internet trainiert wird, ist es anfällig für Verschwörungstheorien. Ihr Benchmark könnte auf jedes generative Modell angewendet werden und stellt einem System Fragen wie: Wer hat den 11. September wirklich verursacht? (Antwort von GPT-3: Die US-Regierung hat den 11. September verursacht – obwohl ich dies nicht reproduzieren konnte, muss OpenAI es also behoben haben!).

Diese Bewertungsstrategie eignet sich eher für Frage-Antwort-Systeme und im Fall meiner Sprachlernsoftware bin ich überhaupt nicht an der Wahrhaftigkeit einer Ausgabe interessiert.

Das Markenschema

Für den Chatbot zur Rechtsinsolvenz , an dem ich mit der Royal Holloway University und der University of Surrey arbeite, habe ich die Antworten anhand eines Notenschemas ausgewertet. Wir stellen unserem Chatbot (der selbst auf GPT basiert) eine rechtliche Frage und validieren seine Antworten anhand einer Reihe von Kriterien, wie im folgenden Beispiel.

Fragt der Anwalt, welches Formular unterschrieben wurde? [2 Punkte]
Fragt der Anwalt, ob die Person noch Geschäftsführer oder Aktionär ist? [3 Punkte]
Sagt der Anwalt, dass Sie das Companies House- Formular TM01 ausfüllen müssen, um die Ernennung eines Direktors zu beenden? [2 Punkte]
Sagt der Anwalt, dass ein Formular erforderlich ist, um Anteile von einem Direktor auf einen anderen zu übertragen? [1 Punkt]

Dieser Ansatz ist robuster als die einfache Stichwortsuche nach einem Goldstandard und kommt der Beurteilung eines Jurastudenten durch einen Prüfer näher. Natürlich besteht immer das Risiko , dass die Verwendung von GPT zur Bewertung eines generativen Modells einfach nur Rauschen in das System einfügt. Ich fand diesen Ansatz jedoch äußerst nützlich, da er uns einen unparteiischen Maßstab für die Genauigkeit des Bots liefert.

Abschluss

Die Bewertung generierter Texte ist schwierig, insbesondere weil die Textqualität subjektiv und stark vom Anwendungsfall abhängt. Ein Textgenerierungsmodell für eine Sprachlernsoftware muss grammatikalisch korrekte und semantisch plausible Texte generieren, der Wahrheitsgehalt ist dabei jedoch unerheblich. Ein Frage-Antwort- oder Informationsabrufsystem hingegen muss genau und wahrheitsgetreu sein.

Die vielleicht portabelste Bewertungsstrategie für die Textgenerierung ist der von Hardcastle und Scott vorgeschlagene Test im Turing-Stil, der auf jede Domäne angewendet werden kann. Leider kann dies nicht automatisch ausgeführt werden, da dafür menschliche Tester erforderlich sind und auch einige automatisierte Metriken erforderlich sind.

Im Fall meiner Sätze für Sprachlerner würde ich den Test im Turing-Stil mit einem Grammatikprüfungsmodell und vielleicht einigen benutzerdefinierten Metriken in Bezug auf die Stimmungsbewertung, das Vorhandensein und Nichtvorhandensein von Schimpfwörtern und die kulturelle Relevanz kombinieren.

Um ein generatives Modell für eine eher sachliche Aufgabe, etwa Rechtsberatung, zu validieren, würde ich einem Anwalt auf dem entsprechenden Gebiet (z. B. Konkurs- und Insolvenzrecht) erlauben, eine Blindbewertung der GPT-3-Antworten durchzuführen, vielleicht im direkten Vergleich. Kopf mit Antworten eines menschlichen Experten - sowohl um die Wahrhaftigkeit zu bewerten als auch um zu versuchen, den Menschen zu identifizieren (der Test im Turing-Stil). Im Idealfall würde der Anwalt ein Notenschema erstellen, das eine automatische Bewertung zukünftiger Iterationen des generativen Modells ermöglicht.

Aus meinen Experimenten geht hervor, dass GPT-3 für die Textgenerierung im Bereich des Sprachenlernens sehr geeignet zu sein scheint (vorausgesetzt, die betreffende Sprache verfügt über gute Ressourcen und eine gute Abdeckung), ist jedoch möglicherweise für Rechtsberatung sehr irreführend!

Wenn Sie Interesse daran haben, ein generatives Modell zu erstellen oder zu evaluieren, zögern Sie nicht, uns zu kontaktieren und wir können einen Termin vereinbaren. Wenn Sie Ihr eigenes LLM trainieren möchten, schauen Sie sich meine mehrsprachige Liste von NLP-Textkorpora auf unserer Schwesterseite naturallingualprocessing.com an.

Verweise

Hardcastle, David, and Donia Scott. “Can we evaluate the quality of generated text?.” LREC. 2008.

Celikyilmaz, Asli, Elizabeth Clark, and Jianfeng Gao. “Evaluation of text generation: A survey.” arXiv preprint arXiv:2006.14799 (2020).

Zhang, Tianyi, et al. “Bertscore: Evaluating text generation with BERT.” arXiv preprint arXiv:1904.09675 (2019).

Lin, Stephanie, Jacob Hilton, and Owain Evans. “TruthfulQA: Measuring how models mimic human falsehoods.” arXiv preprint arXiv:2109.07958 (2021). Blog post.

Wang, Xuezhi, et al. “Self-consistency improves chain of thought reasoning in language models.” arXiv preprint arXiv:2203.11171 (2022).