Verarbeitung natürlicher Sprache

Einführung

Was ist Natural Language Processing und wohin geht die Entwicklung von NLP in den nächsten Jahren? Von der britischen NLP -Beratungsfirma Fast Data Science .

Natural Language Processing (NLP) ist eine Technologie, die es uns ermöglicht, mit unseren Telefonen, Uhren oder intelligenten Lautsprechern zu kommunizieren und ihnen zu ermöglichen, zu antworten. Im Grunde ist Natural Language Processing die Methode, mit der Computerprogramme Wörter und ihren umgebenden Kontext verstehen können. Sie könnten zum Beispiel ein Computerprogramm schreiben, das Sarkasmus wie „Das ist komisch … nicht“ erkennt. Oder das „Die Welt wird untergehen!“ als Ausruf versteht im Gegensatz zu „Die Welt wird untergehen?“ als Frage. Maschinen können Sprache jedoch nicht so einfach von Natur aus lesen und interpretieren wie Menschen. Wie können Maschinen also Sarkasmus verstehen oder ob ein Satz als Frage gestellt ist, oder auch nur das Hauptthema und wiederkehrende Motive in den Wörtern finden? Die Antwort lautet Natural Language Processing ( NLP ).

Sie wissen es vielleicht nicht, aber NLP hat sich still und leise in unser Leben eingeschlichen, beispielsweise in E-Mail-Filtern, Texterkennung und Übersetzungssoftware wie Google Translate . All diese Technologien basieren auf der Fähigkeit einer Maschine, Wörter und Textmerkmale zu verstehen. Und obwohl dies heute alltäglich ist, hat NLP sicherlich einiges an Geschichte hinter sich, um so weit zu kommen.

Eine kurze Geschichte der Verarbeitung natürlicher Sprache

Der geschickte Umgang mit Sprache ist ein wesentlicher Teil dessen, was uns zu Menschen macht . Aus diesem Grund besteht seit der Erfindung von Computern der Wunsch, unsere Sprache zu verstehen und zu sprechen. Die ersten Programme zur Verarbeitung natürlicher Sprache waren hauptsächlich regelbasiert . Experten kodierten Hunderte von Regeln, die das, was ein Benutzer sagen könnte, mit der Antwort des Programms abbildeten.

Ein berühmtes Beispiel in der Geschichte der Verarbeitung natürlicher Sprache war ELIZA, das Mitte der 1960er Jahre am MIT entwickelt wurde. 1 ELIZA war ein Chatbot, der die Rolle eines Therapeuten übernahm und einfache syntaktische Regeln verwendete, um Inhalte in schriftlichen Dialogen zu identifizieren. Manchmal waren die Ergebnisse ziemlich überzeugend, aber manchmal machte er einfache und sogar komische Fehler.

Ein Screenshot einer Konversation mit ELIZA, einem frühen System zur Verarbeitung natürlicher Sprache, das einen Psychotherapeuten nachahmte. Das Bild ist gemeinfrei.

In den letzten 50 Jahren haben Chatbots und fortschrittlichere Dialogsysteme große Fortschritte gemacht. Moderne Ansätze basieren auf maschinellem Lernen , wobei Gigabyte an echten Gesprächen zwischen Menschen verwendet werden, um Chatbots zu trainieren. Heute wird die Technologie in Kundendienstanwendungen eingesetzt, die nun auf Millionen von Beispielgesprächen zurückgreifen können, um von ihnen zu lernen, und so die meisten menschlichen Eingaben beantworten und die Mehrheit der Kundenprobleme lösen können.

Eine der jüngsten Demonstrationen von NLP-Fortschritten umfasste Ingenieure bei Facebook , die Chatbots dazu brachten, miteinander zu sprechen. In diesem Experiment begannen Chatbots schnell, ihre eigene Sprache zu entwickeln und weiterzuentwickeln. 2 Obwohl dieses Experiment viel negative Presse bekam, waren es nur die Computer, die ein vereinfachtes Protokoll erstellten, um miteinander zu kommunizieren – es war nicht böse … nur effizient!

Ein weiterer Aspekt der Geschichte der Verarbeitung natürlicher Sprache ist der Bereich der Spracherkennung, der seit Jahrzehnten ein Schwerpunkt der Forschung ist. Bell Labs stellte 1952 das erste Spracherkennungssystem vor: die Automatic Digit Recognition Machine, kurz „Audrey“. 3 Diese Maschine konnte alle zehn Ziffern erkennen – wenn sie langsam genug ausgesprochen wurden. Das Projekt kam jedoch nicht voran, da es viel schneller ging, Telefonnummern mit dem Finger einzugeben.

Leider ging es in den nächsten drei Jahrzehnten nur langsam voran: 1962 präsentierte IBM eine Maschine in Schuhkartongröße, die sagenhafte sechzehn Wörter (!) erkennen konnte, während 1971 die DARPA (eine Forschungs- und Entwicklungsabteilung des US-Verteidigungsministeriums) eine ehrgeizige, fünfjährige Finanzierungsinitiative startete, die zur Entwicklung des Spracherkennungssystems HARPY an der Carnegie Mellon University führte. Dies war das erste System, das über 1.000 Wörter erkennen konnte, aber die Computer der 70er Jahre konnten das Gesagte nur etwa zehnmal langsamer transkribieren als die natürliche Sprachgeschwindigkeit. 4

Fast Data Science - London

Need a business solution?

Führend in den Bereichen NLP, ML und Data Science seit 2016 – nehmen Sie Kontakt für eine NLP-Beratungssitzung auf.

Dank enormer Fortschritte bei der Computerleistung in den 80er und 90er Jahren wurde die kontinuierliche Spracherkennung in Echtzeit zum Glück immer realistischer. Gleichzeitig ermöglichte die gleichzeitige Innovation der Algorithmen zur Verarbeitung natürlicher Sprache, dass die Systeme von zeitaufwändigen und schwerfälligen, von Hand erstellten Regeln zu maschinellen Lerntechniken übergehen konnten, die automatisch aus vorhandenen Datensätzen lernen konnten.

Wie funktioniert also die Verarbeitung natürlicher Sprache? Die Grundlagen der NLP.

Die grundlegende Grundlage von NLP basiert auf Berechnungen. Wenn es etwas gibt, was Maschinen sehr gut können, dann sind es Berechnungen. Berechnungen von Wörtern und Textmerkmalen ermöglichen es Maschinen, festzustellen, ob ein Textstück Sarkasmus enthält, negative von positiven Gefühlen zu unterscheiden und zu entscheiden, ob ein Text eher rhetorische als sachliche Aussagen enthält.

Die Grundlagen der Verarbeitung natürlicher Sprache: eine Übersicht über ein regelbasiertes Programm zur Verarbeitung natürlicher Sprache, das eine Liste englischer Stoppwörter zeigt, die aus der Eingabe entfernt werden müssen. Dies ist typisch für Ansätze der ersten Generation der natürlichen Sprachverarbeitung, bevor Deep Learning die Oberhand gewann.

Der erste Schritt bei NLP besteht darin, den Rohtext, mit dem der Computer arbeiten muss, zu bereinigen und ihn dann in Tabellen zu organisieren, sodass ein strukturierteres Datenformat entsteht. Danach zählt die Maschine die Häufigkeit von Wörtern, berücksichtigt den umgebenden Kontext und führt dann ihre Berechnungen durch, um „das Problem zu lösen“. Der „Verarbeitungs“-Teil von NLP ist integraler Bestandteil der Verarbeitung natürlicher Sprache. Ohne Verarbeitung bleibt nur natürliche Sprache übrig, die Maschinen nicht so leicht interpretieren können wie Menschen.

Beispiele für die Verarbeitung natürlicher Sprache

Heute sind Sprach- und Texterkennungssysteme der natürlichen Sprachverarbeitung in zahlreichen Alltagsanwendungen und Verbrauchersoftware zu finden.

Virtuelle Assistenten wie Siri und Alexa

Die Verarbeitung natürlicher Sprache ist eine Schlüsselkomponente aller Programme zur Spracherkennung, Sprachsynthese oder Frage-Antwort wie Siri oder Alexa. Auch wenn Sie mit einem Computerprogramm sprechen können, versteht dieses, was Sie sagen, und gibt Ihnen entsprechende Antworten.

Diese Modelle werden anhand großer, sehr vielfältiger Datensätze trainiert, sodass Siri und Alexa eine Vielzahl von Akzenten und Sprachen erkennen können. Wenn man die Verfügbarkeit riesiger Datenmengen mit den extrem leistungsstarken Hardwarefunktionen des 21. Jahrhunderts kombiniert, ist es kein Wunder, dass die Fehlerraten von Spracherkennungssoftware auf weniger als 10 % gesunken sind.

Suchmaschinen

Suchmaschinen sind bemerkenswert gut darin, Ihre Suchabsicht zu ermitteln und die relevanten Ergebnisse zurückzugeben, selbst wenn Sie etwas falsch schreiben, Wörter in einer unzusammenhängenden Reihenfolge eingeben oder nicht einmal eine Frage stellen, sondern nur ein Schlüsselwort eingeben. NLP ist der magische Feenstaub, der dies ermöglicht. Google kombiniert eine Reihe von Elementen, um zu erkennen, wonach Sie fragen möchten, und zwar über die genauen eingegebenen Suchbegriffe hinaus, wobei beliebte Suchanfragen, Kontext und der individuelle Suchverlauf berücksichtigt werden. Auf diese Weise könnten Sie beispielsweise eingeben: „Können Sie Medikamente für jemanden in der Apotheke abholen?“, und Google erkennt „für jemanden“ als Frage, ob Sie das Rezept einer anderen Person abholen können, anstatt diese Wörter zu ignorieren und einfach Ergebnisse für Standorte von Apotheken in der Nähe zurückzugeben.

Google verwendet natürliche Sprachverarbeitung, um Ihre Eingaben intelligent zu interpretieren. Screenshot: Google

Bedenken hinsichtlich der Verarbeitung natürlicher Sprache

Die subtile Integration, mit der NLP in unser Leben eingeführt wurde, könnte den Eindruck erwecken, dass die sozialen Vorteile und sozialen Übel, die es bewirken kann, in geringerem Maßstab stattfinden. Die daraus resultierenden sozialen Auswirkungen können jedoch weitreichend sein, sowohl in positiver als auch in negativer Hinsicht.

Es besteht kein Zweifel, dass NLP den Mitgliedern der Gesellschaft bereits in vielerlei Hinsicht zugutekommt. Im Alltag erleichtert es unser Leben im Internet, indem es uns die Suchergebnisse liefert, nach denen wir tatsächlich suchen, ohne dass wir ein Suchbegriff-Experte sein müssen. Dies ist eher für die ältere Generation von Nutzen, die technisch weniger versiert ist, aber unabhängig von Ihren Computerkenntnissen ermöglicht es Ihnen dennoch eine schnelle und bequeme Suche nach dem, was Sie suchen.

Auf einer wirkungsvolleren Ebene kann NLP dabei helfen, emotionale Zustände zu erkennen, die sonst zu Konfrontationen und Gewalttaten führen könnten, wie etwa Bandengewalt, öffentliche Unruhen oder Schießereien in Schulen. Das Identifizieren und Vergleichen des Tons der Stimmung , des kontextuellen Wortgebrauchs und der individuellen Benutzerhistorie durch NLP könnte durchaus dazu beitragen, die oben genannten Störungen zu verhindern, indem es ein Abfangen ermöglicht, bevor sie auftreten, oder eine erhöhte Vorbereitungsbereitschaft ermöglicht. 5

So wie NLP hoch aufgeladene emotionale Zustände in potenziell gewalttätigen Situationen interpretieren kann, könnte es eine leicht zugängliche Therapie für alle bieten, insbesondere aber für diejenigen, die möglicherweise nicht die Zeit oder die Mittel haben, einen menschlichen Therapeuten aufzusuchen. Tatsächlich hat sich gezeigt, dass viele chatbasierte Interventionen für die psychische Gesundheit besser sind als gar keine, und NLP kann dabei helfen, Ihren individuellen emotionalen Zustand zu überwachen und auf eine Weise zu reagieren, die ihn verbessert. 6

Gleichzeitig hat NLP seine Tücken.

Die Leistungsfähigkeit eines Modells zur Verarbeitung natürlicher Sprache beruht weitgehend auf dem Datensatz, der ihm zur Verfügung steht. Wenn dieser Datensatz also eine demografische Verzerrung aufweist, kann es durchaus sein, dass NLP-Programme demografische Fehldarstellungen bestimmter Personen oder Gruppen liefern. Es ist durchaus denkbar, dass bereits vorhandene menschliche Vorurteile ihren Weg in ein NLP-Modell finden und dann zu äußerst schädlichen Folgen verstärkt werden. So war Amazon beispielsweise in der Vergangenheit so daran gewöhnt, keine weiblichen Bewerber anzunehmen, dass das Unternehmen, als es ein Rekrutierungstool entwickelte, das NLP verwendete, automatisch alle weiblichen Bewerber ablehnte.

NLP kann auch zum Erkennen von Fake News eingesetzt werden, was in der heutigen Gesellschaft offensichtlich ein großer sozialer Vorteil ist. Allerdings kann es auch Fake News erstellen, die nicht nur sehr überzeugend, sondern auch sehr überredend sind. Da NLP immer besser darin wird, zu analysieren, auf welche Inhalte bestimmte Bevölkerungsgruppen reagieren, kann es den Stil echter Nachrichten genauer nachahmen und virale Inhalte generieren, um Millionen von Menschen zu desinformieren.

Die Zukunft der Verarbeitung natürlicher Sprache

Welche Fortschritte können wir also in den nächsten zehn Jahren im Bereich der Verarbeitung natürlicher Sprache erwarten?

1. Fortgeschritteneres NLP

Die Verarbeitung natürlicher Sprache ist ein zentraler Bestandteil der künstlichen Intelligenz , die selbst derzeit und in den kommenden Jahren ein wachsendes Feld ist. Daher werden die großen Akteure der KI-Branche versuchen, schnellere, genauere und authentischere Chatbots, intelligente Assistenten und Maschinen zu entwickeln.

2. Maschinelle Entscheidungen werden künftig eher auf Intelligenz als auf Daten basieren

Die Entscheidungsfindung in der Industrie und in Unternehmen steht vor dramatischen Veränderungen. Erkenntnisse, die nicht nur auf Daten, sondern auf echter, NLP-gestützter Intelligenz basieren, werden die Art und Weise revolutionieren, wie Unternehmen die Kundenstimmung und Marktveränderungen interpretieren. Anstatt Branchenentscheidungen auf der Grundlage großer, aber verallgemeinerter oder spezifischer, aber kleiner Umfragedatensätze zu treffen, können sie riesige Datenmengen nutzen und Produkte entwickeln, die genau auf jeden Einzelnen abgestimmt sind.

3. NLP wird in allem sein

Im letzten halben Jahrzehnt hat NLP langsam seinen Weg in viele unserer Alltagsgeräte gefunden. Sie haben vielleicht bemerkt, dass die Dinge an Fahrt gewinnen: mehr Spracherkennung in unseren Autos, bessere Texterkennung und verbesserte Suchergebnisse. Wenn die letzten fünf Jahre langsam waren, werden die nächsten fünf ein Wirbelwind sein, insbesondere da wir diese Technologie scheinbar (weitgehend) ohne Beanstandungen in unser Leben aufgenommen haben. Es gibt keine Grenzen, wo NLP in Zukunft noch zum Einsatz kommen könnte, aber es wird eher viel häufiger vorkommen als weniger.

Weitere Informationen zur Verarbeitung natürlicher Sprache

Wenn Sie mehr über die Verarbeitung natürlicher Sprache erfahren möchten, sind hier einige Bücher, die wir wärmstens empfehlen:

Einführung in die Verarbeitung natürlicher Sprache von Jacob Eisenstein ( https://www.amazon.co.uk/Introduction-Language-Processing-Adaptive-Computation/dp/0262042843 ). Lesen Sie über die Geschichte der Verarbeitung natürlicher Sprache und die Grundlagen der NLP.
Grundlagen der statistischen Verarbeitung natürlicher Sprache von Christopher D. Manning und Hinrich Schütze ( https://www.amazon.com/Foundations-Statistical-Natural-Language-Processing )

Verweise

Irland, Corydon, Alan Turing mit 100 , 2012, Harvard Gazette
Bradley, Tony, Facebook-KI erfindet ihre eigene Sprache in gruseliger Vorschau auf unsere mögliche Zukunft , 2017, Forbes
Moskvitch, Katia, Die Maschinen, die zuhören lernten , 2017, Verborgene Geschichten: Künstliche Intelligenz
Moskvitch, Katia, Die Maschinen, die zuhören lernten , 2017, Verborgene Geschichten: Künstliche Intelligenz
Bell, Terena, Wie Software Amokläufe an Schulen bekämpft , 2017, The Fast Company
Rickwood Debra, Anwendung synchroner textbasierter Dialogsysteme bei Interventionen im Bereich der psychischen Gesundheit: Systematische Überprüfung , 2017, Journal of Medical Internet Research