Verarbeitung natürlicher Sprache

Einführung

Was ist Natural Language Processing und wohin entwickelt sich NLP in den nächsten Jahren? Vom britischen NLP- Beratungsunternehmen Fast Data Science .

Natural Language Processing ist die Technologie, die es uns ermöglicht, mit unseren Telefonen, Uhren oder intelligenten Lautsprechern zu sprechen und ihnen zu antworten. Im Grunde geht es bei der Verarbeitung natürlicher Sprache darum, wie Computerprogramme Wörter und den sie umgebenden Kontext verstehen können. Sie könnten zum Beispiel ein Computerprogramm schreiben, um Sarkasmus wie „Das ist lustig … nicht“ aufzugreifen. Oder um zu verstehen: „Die Welt wird untergehen!“ als Ausruf versus „Die Welt wird untergehen?“ als Frage. Aber Maschinen können Sprache nicht einfach von Natur aus lesen und interpretieren, wie es Menschen tun. Wie können Maschinen also Sarkasmus oder die Formulierung eines Satzes als Frage verstehen oder auch nur das Hauptthema und wiederkehrende Themen in den Worten finden? Die Antwort heißt Natural Language Processing ( NLP ).

Sie wissen es vielleicht nicht, aber NLP hat sich still und heimlich in die Struktur unseres Lebens eingenistet, in Bereichen wie E-Mail-Filtern, Texterkennung und Übersetzungssoftware wie Google Translate . All dies hängt von der Fähigkeit einer Maschine ab, Wörter und Textmerkmale zu verstehen, und obwohl dies heute alltäglich ist, hat NLP sicherlich die Geschichte durchlaufen, um so weit zu kommen.

Eine kurze Geschichte der Verarbeitung natürlicher Sprache

Der geschickte Gebrauch der Sprache ist ein wesentlicher Teil dessen , was uns zu Menschen macht , und aus diesem Grund besteht seit ihrer Erfindung der Wunsch, dass Computer unsere Sprache verstehen und sprechen können. Die frühesten Programme zur Verarbeitung natürlicher Sprache basierten hauptsächlich auf Regeln , bei denen Experten Hunderte von Regeln kodierten, die abbildeten, was ein Benutzer sagen könnte, und wie das Programm antworten sollte.

Ein berühmtes Beispiel in der Geschichte der Verarbeitung natürlicher Sprache war ELIZA, das Mitte der 1960er Jahre am MIT entwickelt wurde. 1 ELIZA war ein Chatbot, der die Rolle eines Therapeuten übernahm und grundlegende syntaktische Regeln nutzte, um Inhalte im schriftlichen Austausch zu identifizieren. Manchmal waren die Ergebnisse ziemlich überzeugend, aber manchmal wurden einfache und sogar komische Fehler gemacht.

Ein Screenshot eines Gesprächs mit ELIZA, einem frühen System zur Verarbeitung natürlicher Sprache, das einen Psychotherapeuten nachahmte. Das Bild ist gemeinfrei.

In den letzten 50 Jahren haben Chatbots und fortschrittlichere Dialogsysteme einen langen Weg zurückgelegt. Moderne Ansätze basieren auf maschinellem Lernen , bei dem Gigabytes an echten Gesprächen von Mensch zu Mensch genutzt werden, um Chatbots zu trainieren. Heutzutage findet die Technologie Verwendung in Kundendienstanwendungen , die mit Millionen von Beispielgesprächen, aus denen man lernen kann, die meisten menschlichen Eingaben beantworten und die meisten Kundenprobleme lösen können.

Eine der neueren Demonstrationen des NLP-Fortschritts bestand darin, dass Ingenieure bei Facebook Chatbots dazu brachten, miteinander zu kommunizieren. In diesem Experiment begannen Chatbots schnell, ihre eigene Sprache zu erstellen und weiterzuentwickeln. 2 Während dieses Experiment in der Presse viel Negativ hervorrief, waren es nur die Computer, die ein vereinfachtes Protokoll erstellten, um miteinander zu kommunizieren – es war nicht böse, sondern nur effizient!

Eine andere Seite der Geschichte der Verarbeitung natürlicher Sprache ist der Bereich der Spracherkennung, der seit vielen Jahrzehnten ein zentraler Forschungsschwerpunkt ist. Bell Labs stellte 1952 das erste Spracherkennungssystem vor: die Automatic Digit Recognition Machine, kurz „Audrey“. 3 Diese Maschine könnte alle zehn Ziffern erkennen – wenn man sie langsam genug sagt. Das Projekt scheiterte, da die Eingabe von Telefonnummern mit dem Finger viel schneller ging.

Leider ging der Fortschritt in den nächsten drei Jahrzehnten nur langsam voran: 1962 stellte IBM eine schuhkartongroße Maschine vor, die riesige sechzehn Wörter (!) erkennen konnte, während 1971 DARPA (eine Forschungs- und Entwicklungsabteilung des US-Verteidigungsministeriums) an den Start ging Start einer ehrgeizigen fünfjährigen Finanzierungsinitiative, die zur Entwicklung des HARPY-Spracherkennungssystems an der Carnegie Mellon University führt. Dies war das erste System, das mehr als 1.000 Wörter erkennen konnte, aber die Computer der 70er Jahre konnten das Gesagte nur etwa zehnmal langsamer als natürliche Sprache transkribieren. 4

Fast Data Science - London

Need a business solution?

Seit 2016 führend in den Bereichen NLP, ML und Data Science – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Dank der enormen Fortschritte bei der Rechenleistung in den 80er und 90er Jahren machte die kontinuierliche Echtzeit-Spracherkennung glücklicherweise größere Fortschritte bei der Verwirklichung. Gleichzeitig bedeutete die gleichzeitige Innovation der Algorithmen zur Verarbeitung natürlicher Sprache, dass die Systeme von zeitaufwändigen und unhandlichen handgefertigten Regeln zu maschinellen Lerntechniken übergehen konnten, die automatisch aus vorhandenen Datensätzen lernen konnten.

Wie funktioniert also die Verarbeitung natürlicher Sprache? Die Grundlagen von NLP.

Die grundlegende Grundlage von NLP basiert auf Berechnungen. Wenn es eine Sache gibt, die Maschinen besonders gut können, dann sind es Berechnungen. Durch Berechnungen von Wörtern und Textmerkmalen können Maschinen feststellen, ob ein Text Sarkasmus enthält, negative von positiven Gefühlen unterscheiden und entscheiden, ob ein Text eher Rhetorik als sachliche Aussagen enthält.

Die Grundlagen der Verarbeitung natürlicher Sprache: Ein Überblick über einige regelbasierte Programme zur Verarbeitung natürlicher Sprache mit einer Liste englischer Stoppwörter, die aus der Eingabe entfernt werden müssen. Dies ist typisch für NLP-Ansätze der ersten Generation, bevor Deep Learning die Oberhand gewann.

Der erste Schritt im NLP besteht darin, den Rohtext zu bereinigen, mit dem der Computer arbeiten muss, und ihn dann in Tabellen zu organisieren, sodass ein strukturierteres Datenformat entsteht. Danach zählt die Maschine die Häufigkeit der Wörter, berücksichtigt den umgebenden Kontext und führt dann ihre Berechnungen durch, um „das Problem zu lösen“. Der „Verarbeitungs“-Teil von NLP ist ein wesentlicher Bestandteil der Verarbeitung natürlicher Sprache. Ohne Verarbeitung bleibt nur die natürliche Sprache übrig, die Maschinen nicht so einfach interpretieren können wie Menschen.

Beispiele für die Verarbeitung natürlicher Sprache

Heutzutage sind die Sprach- und Texterkennungssysteme der natürlichen Sprachverarbeitung in zahlreichen Alltagsanwendungen oder Verbrauchersoftware zu finden.

Virtuelle Assistenten wie Siri und Alexa

Die Verarbeitung natürlicher Sprache ist eine Schlüsselkomponente jedes Spracherkennungs-, Sprachsynthese- oder Fragebeantwortungsprogramms wie Siri, Alexa oder bei dem Sie mit einem Computerprogramm sprechen können, das versteht, was Sie sagen, und anschließend relevante Antworten zurückgibt.

Diese Modelle werden auf großen, sehr unterschiedlichen Datensätzen trainiert, sodass Siri und Alexa eine Vielzahl von Akzenten und Sprachen erkennen können. Wenn man die Verfügbarkeit riesiger Datenmengen mit den extrem leistungsstarken Hardwarefunktionen des 21. Jahrhunderts verbindet, ist es kein Wunder, dass die Fehlerraten von Spracherkennungssoftware auf weniger als 10 % gesunken sind.

Suchmaschinen

Suchmaschinen sind bemerkenswert geschickt darin, Ihre Suchabsicht zu ermitteln und die relevanten Ergebnisse zurückzugeben, selbst wenn Sie etwas falsch buchstabieren, Wörter in einer zusammenhangslosen Reihenfolge setzen oder gar keine Frage stellen, sondern nur ein Schlüsselwort eingeben. NLP ist der magische Feenstaub, der dies ermöglicht. Google kombiniert eine Reihe von Elementen, um über die genauen eingegebenen Suchbegriffe hinaus zu erkennen, was Sie suchen, und berücksichtigt dabei beliebte Suchanfragen, den Kontext und den individuellen Suchverlauf. Auf diese Weise könnten Sie eingeben: „Können Sie Medikamente für jemanden aus der Apotheke besorgen?“ und Google erkennt „für jemanden“ als eine Frage, ob Sie das Rezept einer anderen Person abholen können, anstatt diese Wörter zu ignorieren und einfach Ergebnisse für Standorte von Apotheken in der Nähe zurückzugeben.

Google nutzt die Verarbeitung natürlicher Sprache, um Ihre Eingabe intelligent zu interpretieren. Screenshot: Google

Bedenken hinsichtlich der Verarbeitung natürlicher Sprache

Die subtile Integration, mit der NLP in unser Leben eingeführt wurde, könnte den Eindruck erwecken, dass die gesellschaftlichen Vorteile und gesellschaftlichen Übel, die es bewirken kann, von geringerem Ausmaß sind. Die daraus resultierenden sozialen Auswirkungen können jedoch sowohl in positiver als auch in negativer Hinsicht weitreichend sein.

Es besteht kein Zweifel, dass NLP den Mitgliedern der Gesellschaft bereits in vielerlei Hinsicht Vorteile bringt. Im Alltag erleichtert es uns das Online-Leben und liefert die Suchergebnisse, nach denen wir tatsächlich suchen, ohne dass wir uns auf die Suche nach Suchbegriffen machen müssen. Dies ist für die ältere Generation nützlicher und technisch weniger leistungsfähig, aber unabhängig von Ihren Computerkenntnissen ermöglicht es dennoch eine schnelle und bequeme Suche nach dem, was Sie suchen.

Auf einer wirkungsvolleren Ebene kann NLP dabei helfen, emotionale Zustände zu signalisieren, die andernfalls zu konfrontativen und gewalttätigen Vorfällen wie Bandengewalt, öffentlichen Unruhen oder Schießereien in der Schule führen könnten. Das Erkennen und Vergleichen des Stimmungstons , des kontextuellen Wortgebrauchs und der individuellen Benutzerhistorie mithilfe von NLP könnte durchaus dazu beitragen, die oben genannten Störungen zu verhindern, indem ein Abfangen ermöglicht wird, bevor sie auftreten, oder die Bereitschaft bei der Vorbereitung erhöht wird. 5

Ebenso wie NLP hoch aufgeladene emotionale Zustände für potenzielle Gewaltsituationen interpretieren kann, könnte es eine leicht zugängliche Therapie für alle darstellen, insbesondere aber für diejenigen, die möglicherweise nicht die Zeit oder die Ressourcen haben, einen menschlichen Therapeuten aufzusuchen. Tatsächlich haben sich viele Chat-basierte Interventionen für die psychische Gesundheit als besser erwiesen als keine, und NLP kann dabei helfen, Ihren individuellen emotionalen Zustand zu überwachen und auf eine Weise zu reagieren, die ihn verbessert. 6

Allerdings hat NLP auch seine Tücken.

Die Fähigkeit eines Modells zur Verarbeitung natürlicher Sprache basiert größtenteils auf dem Datensatz, den es liefert. Wenn dieser Datensatz also eine demografische Tendenz aufweist, verfügen Sie möglicherweise über NLP-Programme, die demografische Fehldarstellungen bestimmter Personen oder Gruppen liefern. Die bereits bestehenden menschlichen Vorurteile könnten möglicherweise ihren Weg in ein NLP-Modell finden und dann zu äußerst schädlichen Konsequenzen führen. Beispielsweise war Amazon in der Vergangenheit so daran gewöhnt, weibliche Kandidaten nicht zu akzeptieren, dass bei der Entwicklung eines Rekrutierungstools, das NLP nutzte, automatisch alle Frauen abgelehnt wurden, die sich beworben hatten.

NLP kann auch zur Erkennung von Fake News eingesetzt werden, was in der heutigen Gesellschaft offensichtlich einen großen gesellschaftlichen Nutzen darstellt. Allerdings können dadurch Fake News entstehen, die nicht nur sehr überzeugend, sondern auch sehr überzeugend sind. Da NLP immer besser analysieren kann, auf welche Inhalte bestimmte Bevölkerungsgruppen reagieren, kann es den Stil echter Nachrichten genauer nachahmen und virale Inhalte generieren, um Millionen Menschen falsch zu informieren.

Die Zukunft der Verarbeitung natürlicher Sprache

Was können wir also in den nächsten 10 Jahren vom Fortschritt der Verarbeitung natürlicher Sprache erwarten?

1. Fortgeschritteneres NLP

Die Verarbeitung natürlicher Sprache ist ein zentraler Bestandteil der künstlichen Intelligenz , die selbst jetzt und in den kommenden Jahren nur ein wachsendes Feld darstellt. Daher werden große Branchenakteure im KI-Bereich danach streben, schnellere, genauere und authentischere Chatbots, intelligente Assistenten und Maschinen zu entwickeln.

2. Maschinelle Entscheidungsfindung soll eher auf Intelligenz als auf Daten basieren

Die Entscheidungsfindung in Industrie und Unternehmen steht vor einem dramatischen Wandel, bei dem Erkenntnisse, die nicht nur auf Daten, sondern auf echter NLP-gestützter Intelligenz basieren, die Art und Weise revolutionieren werden, wie Unternehmen die Kundenstimmung und Marktveränderungen interpretieren. Anstatt Branchenentscheidungen auf der Grundlage großer, aber allgemeiner oder spezifischer, aber kleiner Umfragesätze zu treffen, können sie riesige Datenmengen nutzen und Produkte entwickeln, die genau auf jeden Einzelnen zugeschnitten sind.

3. NLP wird in allem vorkommen

Im Laufe des letzten halben Jahrzehnts hat sich NLP langsam in viele unserer täglichen Geräte integriert. Möglicherweise haben Sie jedoch bemerkt, dass die Dinge an Fahrt gewinnen: mehr Spracherkennung in unseren Autos, besser vorausschauendes Texten und verbesserte Suchergebnisse. Wenn die letzten fünf Jahre langsam waren, werden die nächsten fünf ein Wirbelsturm sein, zumal wir diese Technologie offenbar (weitgehend) klaglos in unser Leben aufgenommen haben. Es gibt keine Grenzen dafür, wo NLP in der Zukunft eingesetzt werden könnte, aber es ist auf dem besten Weg, eher eine viel größere Verbreitung als eine geringere Verbreitung zu finden.

Weitere Informationen zur Verarbeitung natürlicher Sprache

Wenn Sie mehr über die Verarbeitung natürlicher Sprache erfahren möchten, sind hier einige Bücher, die sehr zu empfehlen sind:

Einführung in die Verarbeitung natürlicher Sprache von Jacob Eisenstein ( https://www.amazon.co.uk/Introduction-Language-Processing-Adaptive-Computation/dp/0262042843 ). Lesen Sie mehr über die Geschichte der Verarbeitung natürlicher Sprache und die Grundlagen von NLP.
Grundlagen der statistischen Verarbeitung natürlicher Sprache, von Christopher D. Manning und Hinrich Schütze ( https://www.amazon.com/Foundations-Statistical-Natural-Language-Processing )

Verweise

Ireland, Corydon, Alan Turing at 100, 2012, Harvard Gazette
Bradley, Tony, Facebook AI Creates Its Own Language In Creepy Preview Of Our Potential Future, 2017, Forbes
Moskvitch, Katia, The Machines the Learned to Listen, 2017, Hidden Histories: Artificial Intelligence
Moskvitch, Katia, The Machines the Learned to Listen, 2017, Hidden Histories: Artificial Intelligence
Bell, Terena, How Software is Taking On School Shootings, 2017, The Fast Company
Rickwood Debra, Application of Synchronous Text-Based Dialogue Systems in Mental Health Interventions: Systematic Review, 2017, Journal of Medical Internet Research