Bereit für den nächsten Schritt in Ihrer NLP-Reise? Vernetzen Sie sich mit Top-Arbeitgebern, die Talente in der natürlichen Sprachverarbeitung suchen. Entdecken Sie Ihren Traumjob!
Finden Sie Ihren TraumjobKlicken Sie hier, um eine Live-Online-Demo des in diesem Artikel beschriebenen forensischen Stilometriemodells mit neuronalen Netzwerken anzuzeigen.
2013 veröffentlichte JK Rowling, die Autorin der Harry Potter-Reihe, einen neuen Kriminalroman unter dem Pseudonym Robert Galbraith. Sie wollte ein Buch veröffentlichen, das nicht den Hype auslöste, der durch den Erfolg der Harry Potter-Bücher entstanden war.
Zwei Professoren der Computerlinguistik zeigten jedoch nach einem Hinweis eines Journalisten über Twitter auf, dass es sich mit hoher Wahrscheinlichkeit um JK Rowling als Autorin des neuen Kriminalromans handelt.
Fast Data Science - London
Wie ist ihnen das gelungen? Natürlich spielt der Kriminalroman in einer absolut nicht-magischen Welt und hat oberflächlich betrachtet wenig mit der berühmten Zaubererserie gemeinsam.
Einer der an der Analyse beteiligten Professoren sagte, er errechne von allen für ihn interessanten Autoren einen „Fingerabdruck“ , der typische Muster in den Werken des jeweiligen Autors zeige.
Was ist mein sprachlicher Fingerabdruck? Unbewusst neigen wir dazu, bestimmte Wortmuster anderen vorzuziehen. Liegt Ihre Salatgabel „auf“ der linken Seite des Tellers oder „links“ vom Teller? Bevorzugen Sie lange oder kurze Wörter? Durch den Vergleich des Fingerabdrucks eines Kriminalromans mit den Fingerabdrücken einiger bekannter Autoren ist es möglich, eine Übereinstimmung zu finden.
Hier sind einige (teilweise) Fingerabdrücke, die ich von drei bekannten Autorinnen gemacht habe, die männliche Pseudonyme verwendeten:
Die Identifizierung des Autors eines Textes ist ein Bereich der Computerlinguistik, der als forensische Stilometrie bezeichnet wird.
Mit dem Aufkommen von „Deep Learning“-Software und Rechenleistung ist die forensische Stilometrie viel einfacher geworden. Sie müssen das Rezept für Ihren Fingerabdruck nicht mehr definieren, Sie benötigen nur eine Menge Daten.
Ich gehe dieses Problem am liebsten mit einem Convolutional Neural Network an. Dabei handelt es sich um eine Deep-Learning-Technik, die für die Fotoerkennung entwickelt wurde, sich aber auch sehr gut für natürliche Sprache eignet!
Die Technologie, die ich beschrieben habe, hat viele kommerzielle Anwendungen, wie zum Beispiel
Wenn Sie in diesem Bereich ein geschäftliches Problem haben und Hilfe bei der Entwicklung und Bereitstellung oder einfach nur eine Beratung benötigen, wenden Sie sich bitte über das Kontaktformular an mich.
Am 5. Juli 2018 leite ich im Rahmen der Digital Humanities Summer School der Oxford University einen Workshop zur forensischen Stilometrie für Anfänger und Programmierer. Sie können sich hier anmelden: http://www.dhoxss.net/from-text-to-tech .
Update: Klicken Sie hier , um die Präsentation des Workshops herunterzuladen.
Suchen Sie Experten in Natürlicher Sprachverarbeitung? Veröffentlichen Sie Ihre Stellenangebote bei uns und finden Sie heute Ihren idealen Kandidaten!
Veröffentlichen Sie einen JobGenerative KI Einführung Generative KI , ein Teilbereich der KI, verändert Branchen grundlegend und gestaltet die Zukunft. Durch die Nutzung fortschrittlicher Algorithmen kann generative KI Inhalte, Designs und Lösungen erstellen, die zuvor undenkbar waren.
Große Daten Das Aufkommen von Big Data hat ganze Branchen revolutioniert und traditionelle Geschäftsmodelle und Entscheidungsprozesse verändert. In dieser umfassenden Untersuchung gehen wir der Frage nach, was Big Data ist, welche erheblichen Auswirkungen es auf die Geschäftsstrategie hat und wie Unternehmen riesige Datenmengen nutzen können, um Innovationen voranzutreiben und sich einen Wettbewerbsvorteil zu verschaffen.
What we can do for you