Demo zur Autorenanalyse (forensische Stilometrie und Linguistik)

Demo zur Autorenanalyse (forensische Stilometrie und Linguistik)

Fast Data Science hat ein einzigartiges forensisches Stilometriemodell entwickelt, das es Ihnen ermöglicht, den Autor eines Textes anhand seines einzigartigen stilistischen und sprachlichen „Fingerabdrucks“ zu identifizieren. Für eine genaue Identifizierung ist ein relativ langer Text erforderlich, beispielsweise einige Kapitel eines Buches.





[enter a text and the identified author will be shown here]

For best results try entering at least two or three paragraphs of text. You can get some free writing samples by visiting Project Gutenberg, or the contemporary authors' websites (Pottermore, Dan Brown, Philip Pullman). JK Rowling wrote some books under the pseudonym Robert Galbraith. Try testing if the model can correctly identify the author. If the text has no resemblance to any of the known author’s works, the model will output some very small probabilities.

Authors

Was weiß das forensische Stilometriemodell?

Das Modell wurde anhand der folgenden Bücher trainiert. Wenn Sie ihm also ein Buch wie Villette von Charlotte Brontë geben, das nicht auf der Liste steht, wird Brontë hoffentlich als der richtige Autor identifiziert, obwohl er das Buch noch nie gesehen hat.

  1. Jane Austen: Emma, Northanger Abbey, Überzeugung, Stolz und Vorurteil
  2. Charlotte Brontë: Shirley, Jane Eyre Lewis Carroll: Alice im Wunderland
  3. Conan Doyle: Die Abenteuer des Sherlock Holmes
  4. Dan Brown: Engel und Dämonen, Da Vinci Code
  5. Charles Dickens: David Copperfield, Oliver Twist, A Christmas Carol, Great Expectations, Bleak House
  6. JK Rowling: Feuerkelch, Stein der Weisen, Orden des Phönix, Cuckoos Calling (unter Pseudonym)
  7. Philip Pullman: Subtiles Messer, Belle Sauvage
  8. Jonathan Swift: Ein bescheidener Vorschlag

Jane Austen (1775-1817) war vor allem für „Stolz und Vorurteil“ bekannt, schrieb aber tatsächlich sechs Romane. Das forensische Stilometriemodell wurde an drei ihrer Romane trainiert. Kann es die anderen erkennen?

Erste Schritte mit der forensischen Stilometrie

Ich habe hier ein Tutorial zur Verwendung der forensischen Stilometrie mit der Python-Bibliothek faststylometry geschrieben: Fast Stylometry Tutorial .

Eine hervorragende Einführung in verschiedene Stilometrietechniken gibt es hier: Einführung in die Stilometrie mit Python .

Ich empfehle außerdem die Lektüre des Artikels Stylometry with R: A Package for Computational Text Analysis von Maciej Eder, Jan Rybicki und Mike Kestemont, der einen Überblick darüber gibt, wie man wissenschaftlich valide stilometrische Analysen von Texten mit einem Grafikpaket Stylo in R durchführt.

Mithilfe von Stylo und anderen wissenschaftlichen Programmen können Forscher in der Linguistik und den Geisteswissenschaften Texte in verschiedenen Sprachen auf Fälle umstrittener historischer Urheberschaft analysieren. Ich hatte zum Beispiel eine Frage zu einer Reihe lateinischer Texte, bei denen sich Wissenschaftler nicht einig sind, welcher Historiker der wahre Autor ist! Die Technik wird auch von forensischen Linguisten für Rechtsfälle eingesetzt.

Hinweis zu Wahrscheinlichkeiten und der Softmax-Schicht

Die von diesem Stilometriemodell ausgegebenen Wahrscheinlichkeiten werden aus einem Wahrscheinlichkeitskalibrierungsprozess abgeleitet, der die Burrows-Delta-Statistik in einen Wahrscheinlichkeitswert umwandelt, der auf der Verteilung der Burrows-Delta-Werte in den Trainingsdaten basiert. Dies bedeutet, dass allen Autoren eine Wahrscheinlichkeit nahe Null zugewiesen wird, wenn der von Ihnen eingegebene Text anders ist als der Text eines der bekannten Autoren. Umgekehrt kann die Summe der Wahrscheinlichkeiten eine Zahl größer als 1 ergeben, da jede Wahrscheinlichkeit unabhängig berechnet wird.

Viele Modelle für maschinelles Lernen, die Sie ausprobieren können (z. B. die iPhone-Apps, die Sie herunterladen können und die Ihnen sagen, welche Rasse Ihr Hund hat oder wie alt Ihr Gesicht aussieht), neigen dazu, unangemessene Wahrscheinlichkeiten auszugeben, da sie auf einer Softmax-Ebene basieren Erzwingt, dass sich alle Ausgabewerte auf 1 summieren. Eine Softmax-Ebene neigt dazu, Wahrscheinlichkeiten auszuspucken, die entweder sehr nahe bei 0 oder sehr nahe bei 1 liegen.

Ich habe mich für die Verwendung einer Wahrscheinlichkeitskalibrierungstechnik für diese Demo entschieden, um die seltsamen Effekte zu vermeiden, die mit der (falschen) Interpretation einer Softmax-Ausgabe als Wahrscheinlichkeit verbunden sind.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us