Demo zur Autorenanalyse (forensische Stilometrie und Linguistik)

Fast Data Science hat ein einzigartiges forensisches Stilometriemodell entwickelt, mit dem Sie den Autor eines Textes anhand seines einzigartigen stilistischen und linguistischen „Fingerabdrucks“ identifizieren können. Für eine genaue Identifizierung ist ein relativ langer Text erforderlich, beispielsweise einige Kapitel eines Buches.

[enter a text and the identified author will be shown here]

For best results try entering at least two or three paragraphs of text. You can get some free writing samples by visiting Project Gutenberg, or the contemporary authors' websites (Pottermore, Dan Brown, Philip Pullman). JK Rowling wrote some books under the pseudonym Robert Galbraith. Try testing if the model can correctly identify the author. If the text has no resemblance to any of the known author’s works, the model will output some very small probabilities.

Authors

Was weiß das forensische Stilometriemodell?

Das Modell wurde anhand der folgenden Bücher trainiert. Wenn Sie ihm also ein Buch wie Villette von Charlotte Brontë geben, das nicht auf der Liste steht, wird es hoffentlich Brontë als die richtige Autorin identifizieren, obwohl es das Buch nie gesehen hat.

Jane Austen: Emma, Northanger Abbey, Überredung, Stolz und Vorurteil
Charlotte Bronte: Shirley, Jane Eyre Lewis Carroll: Alice im Wunderland
Conan Doyle: Die Abenteuer des Sherlock Holmes
Dan Brown: Illuminati, Da Vinci Code
Charles Dickens: David Copperfield, Oliver Twist, Eine Weihnachtsgeschichte, Große Erwartungen, Bleak House
JK Rowling: Der Feuerkelch, Stein der Weisen, Der Orden des Phönix, Der Ruf des kleinen Kuckucks (unter Pseudonym)
Philip Pullman: Das subtile Messer, Belle Sauvage
Jonathan Swift: Ein bescheidener Vorschlag

Jane Austen (1775-1817) war vor allem für „Stolz und Vorurteil“ bekannt, schrieb aber tatsächlich sechs Romane. Das forensische Stilometriemodell wurde anhand von drei ihrer Romane trainiert. Kann es die anderen erkennen?

Erste Schritte mit der forensischen Stilometrie

Ich habe hier ein Tutorial zur Verwendung der forensischen Stilometrie mit der Python-Bibliothek Faststylometrie geschrieben: Fast Stylometrie-Tutorial .

Eine hervorragende Einführung in verschiedene Stilometrietechniken finden Sie hier: Einführung in die Stilometrie mit Python .

Ich empfehle außerdem die Lektüre des Aufsatzes „Stylometry with R: A Package for Computational Text Analysis“ von Maciej Eder, Jan Rybicki und Mike Kestemont, der einen Überblick darüber bietet, wie man mit dem Grafikpaket Stylo in R wissenschaftlich fundierte stilometrische Analysen von Texten durchführt.

Mithilfe von Stylo und anderen wissenschaftlichen Paketen können Linguisten und Geisteswissenschaftler Texte in verschiedenen Sprachen auf Fälle umstrittener historischer Urheberschaft analysieren. Ich hatte beispielsweise eine Anfrage zu einer Reihe lateinischer Texte, bei denen sich die Wissenschaftler nicht einig waren, welcher Historiker der wahre Autor ist! Die Technik wird auch von forensischen Linguisten für Rechtsfälle eingesetzt.

Hinweis zu Wahrscheinlichkeiten und der Softmax-Schicht

Die von diesem Stilometriemodell ausgegebenen Wahrscheinlichkeiten werden aus einem Wahrscheinlichkeitskalibrierungsprozess abgeleitet, der die Burrows-Delta-Statistik in einen Wahrscheinlichkeitswert umwandelt, der auf der Verteilung der Burrows-Delta-Werte in den Trainingsdaten basiert. Das bedeutet, dass allen Autoren eine Wahrscheinlichkeit nahe Null zugewiesen wird, wenn der von Ihnen eingegebene Text keinem der bekannten Autoren ähnelt. Umgekehrt können die Wahrscheinlichkeiten eine Zahl größer als 1 ergeben, da jede Wahrscheinlichkeit unabhängig berechnet wird.

Viele Modelle des maschinellen Lernens, die Sie ausprobieren können (beispielsweise die iPhone-Apps, die Sie herunterladen können und die Ihnen sagen, welcher Hunderasse Ihr Hund angehört oder wie alt Ihr Gesicht aussieht), neigen dazu, unangemessene Wahrscheinlichkeiten auszugeben, weil sie auf einer Softmax-Schicht basieren, die alle Ausgabewerte so zwingt, dass die Summe 1 ergibt. Eine Softmax-Schicht neigt dazu, Wahrscheinlichkeiten auszugeben, die entweder sehr nahe bei 0 oder sehr nahe bei 1 liegen.

Ich habe mich für die Verwendung einer Wahrscheinlichkeitskalibrierungstechnik für diese Demo entschieden, um die merkwürdigen Effekte zu vermeiden, die mit der (Fehl-)Interpretation einer Softmax-Ausgabe als Wahrscheinlichkeit verbunden sind.

Was ist mit generativen Modellen (GenAI)?

Wir können die Wahrscheinlichkeit berechnen, dass ein Text von einem generativen KI-Modell wie BARD oder ChatGPT verfasst wurde, indem wir die Perplexität des Modells berechnen (wie überrascht es von dem Dokument ist). In letzter Zeit kommt es im Hochschulbereich häufig zu Streitigkeiten, bei denen ein Student beschuldigt werden kann, KI zum Schreiben einer Arbeit verwendet zu haben.

Probieren Sie unseren generativen KI-Detektor aus .

✍️ Zitieren der Fast Stylometrie-Bibliothek

Wenn Sie in den Bereichen KI, NLP oder anderen Bereichen forschen und Ihre Ergebnisse veröffentlichen, wäre ich Ihnen dankbar, wenn Sie das Projekt zitieren könnten.

Wood, TA, Fast Stylometry [Computersoftware] (1.0.4). Data Science Ltd. DOI: 10.5281/zenodo.11096941, abgerufen unter https://fastdatascience.com/fast-stylometry-python-library , Fast Data Science (2024)

Ein BibTeX-Eintrag für LaTeX-Benutzer lautet:

@software{faststylometrie,

author = {Wood, T.A.},

title = {Fast Stylometry (Computer software), Version 1.0.4},

year = {2024},

url = {https://fastdatascience.com/fast-stylometry-python-library/},

doi = {10.5281/zenodo.11096941},