Wie forensische Stilometrie den Autor eines Dokuments identifizieren kann

· Thomas Wood
Wie forensische Stilometrie den Autor eines Dokuments identifizieren kann

Ihre NLP-Karriere wartet!

Bereit für den nächsten Schritt in Ihrer NLP-Reise? Vernetzen Sie sich mit Top-Arbeitgebern, die Talente in der natürlichen Sprachverarbeitung suchen. Entdecken Sie Ihren Traumjob!

Finden Sie Ihren Traumjob

Klicken Sie hier, um eine Live-Online-Demo des in diesem Artikel beschriebenen forensischen Stilometriemodells mit neuronalen Netzwerken anzuzeigen.

2013 veröffentlichte JK Rowling, die Autorin der Harry Potter-Reihe, einen neuen Kriminalroman unter dem Pseudonym Robert Galbraith. Sie wollte ein Buch veröffentlichen, das nicht den Hype auslöste, der durch den Erfolg der Harry Potter-Bücher entstanden war.

Zwei Professoren der Computerlinguistik zeigten jedoch nach einem Hinweis eines Journalisten über Twitter auf, dass es sich mit hoher Wahrscheinlichkeit um JK Rowling als Autorin des neuen Kriminalromans handelt.

Fast Data Science - London

Need a business solution?

Führend in den Bereichen NLP, ML und Data Science seit 2016 – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Wie ist ihnen das gelungen? Natürlich spielt der Kriminalroman in einer absolut nicht-magischen Welt und hat oberflächlich betrachtet wenig mit der berühmten Zaubererserie gemeinsam.

Einer der an der Analyse beteiligten Professoren sagte, er errechne von allen für ihn interessanten Autoren einen „Fingerabdruck“ , der typische Muster in den Werken des jeweiligen Autors zeige.

Was ist mein sprachlicher Fingerabdruck? Unbewusst neigen wir dazu, bestimmte Wortmuster anderen vorzuziehen. Liegt Ihre Salatgabel „auf“ der linken Seite des Tellers oder „links“ vom Teller? Bevorzugen Sie lange oder kurze Wörter? Durch den Vergleich des Fingerabdrucks eines Kriminalromans mit den Fingerabdrücken einiger bekannter Autoren ist es möglich, eine Übereinstimmung zu finden.

Hier sind einige (teilweise) Fingerabdrücke, die ich von drei bekannten Autorinnen gemacht habe, die männliche Pseudonyme verwendeten:

Die Identifizierung des Autors eines Textes ist ein Bereich der Computerlinguistik, der als forensische Stilometrie bezeichnet wird.

Mit dem Aufkommen von „Deep Learning“-Software und Rechenleistung ist die forensische Stilometrie viel einfacher geworden. Sie müssen das Rezept für Ihren Fingerabdruck nicht mehr definieren, Sie benötigen nur eine Menge Daten.

Ich gehe dieses Problem am liebsten mit einem Convolutional Neural Network an. Dabei handelt es sich um eine Deep-Learning-Technik, die für die Fotoerkennung entwickelt wurde, sich aber auch sehr gut für natürliche Sprache eignet!

Die Technologie, die ich beschrieben habe, hat viele kommerzielle Anwendungen, wie zum Beispiel

  • Identifizierung des Autors einer terroristischen Broschüre
  • Extrahieren von Informationen aus Finanzberichten von Unternehmen
  • Erkennen von Spam-E-Mails, Werbeanzeigen, Stellenausschreibungen
  • Sichtung eingehender E-Mails
  • Analyse von Präzedenzfällen in einem Common Law-System

Wenn Sie in diesem Bereich ein geschäftliches Problem haben und Hilfe bei der Entwicklung und Bereitstellung oder einfach nur eine Beratung benötigen, wenden Sie sich bitte über das Kontaktformular an mich.

Am 5. Juli 2018 leite ich im Rahmen der Digital Humanities Summer School der Oxford University einen Workshop zur forensischen Stilometrie für Anfänger und Programmierer. Sie können sich hier anmelden: http://www.dhoxss.net/from-text-to-tech .

Update: Klicken Sie hier , um die Präsentation des Workshops herunterzuladen.

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Generative KI
Generative ki

Generative KI

Generative KI Einführung Generative KI , ein Teilbereich der KI, verändert Branchen grundlegend und gestaltet die Zukunft. Durch die Nutzung fortschrittlicher Algorithmen kann generative KI Inhalte, Designs und Lösungen erstellen, die zuvor undenkbar waren.

Große Daten
Große daten

Große Daten

Große Daten Das Aufkommen von Big Data hat ganze Branchen revolutioniert und traditionelle Geschäftsmodelle und Entscheidungsprozesse verändert. In dieser umfassenden Untersuchung gehen wir der Frage nach, was Big Data ist, welche erheblichen Auswirkungen es auf die Geschäftsstrategie hat und wie Unternehmen riesige Datenmengen nutzen können, um Innovationen voranzutreiben und sich einen Wettbewerbsvorteil zu verschaffen.

KI im Finanzwesen
Ki im finanzwesen

KI im Finanzwesen

KI im Finanzwesen Die Integration künstlicher Intelligenz (KI) in den Finanzsektor hat die Arbeitsweise von Institutionen revolutioniert, von der Automatisierung von Abläufen bis hin zur Verbesserung der Kundenbindung und des Risikomanagements.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us