Wie forensische Stilometrie den Autor eines Dokuments identifizieren kann

· Thomas Wood
Wie forensische Stilometrie den Autor eines Dokuments identifizieren kann

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Klicken Sie hier, um eine Live-Online-Demo des in diesem Artikel beschriebenen forensischen Stilometriemodells für neuronale Netze anzusehen .

Im Jahr 2013 veröffentlichte JK Rowling, die Autorin der Harry-Potter-Reihe, unter dem Pseudonym Robert Galbraith einen neuen Kriminalroman. Sie wollte ein Buch ohne den Hype veröffentlichen, der durch den Erfolg der Harry-Potter-Bücher entstanden war.

Doch nach einem Hinweis eines Journalisten auf Twitter zeigten zwei Professoren für Computerlinguistik, dass JK Rowling mit hoher Wahrscheinlichkeit der Autor des neuen Kriminalromans sei.

Fast Data Science - London

Need a business solution?

Seit 2016 führend in den Bereichen NLP, ML und Data Science – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Wie haben sie das geschafft? Es versteht sich von selbst, dass der Kriminalroman in einer streng nicht-magischen Welt spielt und oberflächlich betrachtet wenig mit der berühmten Zaubererserie gemein hat.

Einer der an der Analyse beteiligten Professoren sagte, er errechne einen „Fingerabdruck“ aller Autoren, an denen er interessiert sei, der die typischen Muster in den Werken dieses Autors aufzeige.

Was ist mein sprachlicher Fingerabdruck? Unterbewusst neigen wir dazu, bestimmte Wortmuster anderen vorzuziehen. Befindet sich Ihre Salatgabel „auf“ der linken Seite des Tellers oder „auf“ der linken Seite des Tellers? Bevorzugen Sie lange oder kurze Wörter? Durch den Vergleich des Fingerabdrucks eines Kriminalromans mit den Fingerabdrücken einiger bekannter Autoren ist es möglich, eine Übereinstimmung zu erzielen.

Hier sind einige (Teil-)Fingerabdrücke, die ich für drei bekannte Autorinnen gemacht habe, die männliche Pseudonyme verwendeten:

Die Identifizierung des Autors eines Textes ist ein Teilgebiet der Computerlinguistik, das als forensische Stilometrie bezeichnet wird.

Mit dem Aufkommen von „Deep-Learning“-Software und Rechenleistung ist die forensische Stilometrie viel einfacher geworden. Sie müssen das Rezept für Ihren Fingerabdruck nicht mehr definieren, Sie benötigen lediglich viele Daten.

Mein Lieblingsansatz, dieses Problem anzugehen, ist ein Convolutional Neural Network, eine Deep-Learning-Technik, die für die Erkennung von Fotos entwickelt wurde, aber sehr gut für natürliche Sprache funktioniert!

Die von mir beschriebene Technologie hat viele kommerzielle Anwendungen, wie z

  • Identifizierung des Autors einer Terrorbroschüre
  • Extrahieren von Informationen aus Unternehmensfinanzberichten
  • Identifizierung von Spam-E-Mails, Anzeigen und Stellenausschreibungen
  • Triage eingehender E-Mails
  • Analyse rechtlicher Präzedenzfälle in einem Common-Law-System

Wenn Sie ein geschäftliches Problem in diesem Bereich haben und Hilfe bei der Entwicklung und Bereitstellung oder einfach nur einen Beratungsrat benötigen, nehmen Sie bitte über das Kontaktformular Kontakt mit mir auf.

Am 5. Juli 2018 werde ich im Rahmen der Digital Humanities Summer School an der Universität Oxford einen Workshop zum Thema forensische Stilometrie leiten, der sich an Anfänger und Programmierer richtet. Sie können sich hier anmelden: http://www.dhoxss.net/from-text-to-tech .

Update: Klicken Sie hier , um die Präsentation vom Workshop herunterzuladen.

Finden Sie Top-NLP-Talente!

Suchen Sie Experten in Natürlicher Sprachverarbeitung? Veröffentlichen Sie Ihre Stellenangebote bei uns und finden Sie heute Ihren idealen Kandidaten!

Veröffentlichen Sie einen Job

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us