Wir werden oft gefragt, welche Art von Beratung machen wir bei Fast Data Science? Wenn wir von NLP sprechen, lautet die nächste Frage normalerweise: „Was ist NLP?“ und wir müssen etwas genauer erklären, wofür NLP steht und was es bedeutet.
NLP steht für Natural Language Processing … aber nach 12 Jahren auf diesem Gebiet hat Google nichts aus meinem Suchverlauf gelernt. Screenshot von Google.
Die kurze Antwort lautet: NLP steht für Natural Language Processing . Das „Natürliche“ in der Verarbeitung natürlicher Sprache bezieht sich auf menschliche Sprachen wie Englisch und nicht auf Programmiersprachen. „Verarbeiten“ bezieht sich auf das, was wir damit machen: Wir versuchen, Computer dazu zu bringen, menschliche Sprachen zu verstehen. Kurz gesagt bedeutet NLP Computerprogramme, die Sprache oder Text entweder verstehen oder erzeugen. NLP ist ein Teilgebiet der künstlichen Intelligenz und nutzt regelmäßig Techniken des maschinellen Lernens.
Hier sind einige alltägliche Anwendungen von NLP in unserem Alltag:
Predictive Text ist ein NLP-Modell, das in der Lage ist, das wahrscheinlichste nächste Wort in Ihrem Satz vorherzusagen. Es handelt sich um ein „Sprachmodell“, das ein allgemeines englisches Sprachmodell kombiniert, das auf den SMS-Verläufen vieler Benutzer basiert, mit personalisierten Mustern, die aus Ihrem eigenen Tippverlauf auf Ihrem Telefon gelernt wurden.
Für ostasiatische Sprachen wie Chinesisch sind NLP-Algorithmen wie Predictive Text für die effektive Nutzung eines Mobiltelefons unerlässlich. Bei einer der in China am häufigsten verwendeten Eingabemethoden gibt ein Benutzer Wörter in Pinyin (der phonetischen Darstellung) ein, und das Sprachmodell ist in der Lage, angesichts des Kontexts des restlichen Satzes das wahrscheinlichste Zeichen für diese Aussprache auszuwählen.
Demonstration des standardmäßigen Texterkennungsalgorithmus in Englisch und Chinesisch auf dem Samsung Galaxy S7.
Rechtschreibprüfungen sind Anwendungen, die Rechtschreibung und Grammatik testen, orthografische, stilistische und grammatikalische Fehler finden und hilfreiche Vorschläge zu deren Behebung liefern. Ich habe diesen Artikel beispielsweise mit Hilfe des Browser-Plug-ins Grammarly geschrieben, das NLP verwendet, um Ihren Schreibstil zu verbessern.
Screenshot der NLP-Software Grammarly, die meine Grammatik korrigiert, während ich diesen Artikel schrieb.
Screenshot des Dialogübersetzungsmodus auf dem Samsung Galaxy S7, der ein gesprochenes Gespräch zwischen zwei Personen interpretiert.
Maschinelle Übersetzung ist eine der bekanntesten Anwendungen von NLP. Traditionelle maschinelle Übersetzungen wurden mit regelbasierten Techniken durchgeführt, bei denen NLP-Forscher versuchten, die gesamte Grammatik sowohl der Ausgangs- als auch der Zielsprache manuell in ihre Computerprogramme zu kodieren, als würden sie ein Grammatikbuch schreiben. Die regelbasierten Techniken scheiterten spektakulär.
Es gibt eine bekannte, aber wahrscheinlich apokryphe Geschichte über das maschinelle Übersetzungssystem aus der Zeit des Kalten Krieges, das „Der Geist war willig, aber das Fleisch war schwach“ ins Russische und zurück ins Englische übersetzte und es so wiedergab: „Der Wodka war gut, aber das.“ Fleisch war faul“.
Natürlich hat heutzutage fast jeder ein viel leistungsfähigeres Übersetzungstool in der Tasche … obwohl dies wirklich eine Illusion ist, da die Übersetzung selbst auf Ihrem Mobiltelefon wahrscheinlich auf den Servern von Google und nicht auf dem Gerät selbst stattfindet.
Virtual assistants, or chatbots, such as Alexa and Siri belong to a subset of NLP called natural language dialogue systems. They allow a user to control a mobile device, car, sound system, smart fridge, or similar by voice commands, and are capable of holding a rudimentary dialogue with a human within the narrow domains for which they have been designed.
Wir alle haben schon einmal versucht, die Grenzen eines Chatbots auszutesten. Glücklicherweise sind Menschen genauso vorhersehbar wie Roboter. Als ich einige Jahre lang an der Entwicklung virtueller Unternehmensassistenten gearbeitet habe, stellten wir fest, dass die häufigsten Fragen an die Bots waren: „Was trägst du?“, „Hast du einen Freund?“ und so weiter. Es war ganz einfach, die Bots so zu programmieren, dass sie auf diese Eingaben eine witzige Antwort haben.
Google und Bing führen NLP-Algorithmen sowohl für Ihre Suchanfragen als auch für die von ihnen gecrawlten Dokumente aus, um die beiden zusammenzubringen und die besten Dokumente zu ermitteln, die für die Anfrage eines bestimmten Benutzers zurückgegeben werden können.
In jedem Bereich, in dem große Textmengen an der Tagesordnung sind, kann NLP wahrscheinlich einen Mehrwert liefern. Einige der häufigsten Anwendungen sind:
Es ist ein häufiger Anwendungsfall, eingehende Dokumente in verschiedene Gruppen zu klassifizieren. Ein Standard-NLP-Problem sind Dokumentenklassifizierungssysteme, und im Laufe der Jahre wurden viele Algorithmen entwickelt, um dieses Problem anzugehen. Klassische Beispiele sind:
Es ist oft nützlich zu wissen, ob ein Satz positive oder negative Emotionen enthält. Viele Unternehmen nutzen diese Technologie, um soziale Medien zu überwachen und schnell auf negative Erwähnungen ihres Produkts zu reagieren. Wenn beispielsweise ein Mobiltelefon zur Überhitzung neigt oder ein Elektroauto dazu neigt, zu stark zu beschleunigen, können Verbraucher auf Twitter Luft machen, bevor sie versuchen, das Unternehmen über seine offiziellen Kanäle zu kontaktieren.
Die Stimmungsanalyse ist ein Bereich des NLP, bei dem Texte automatisch auf ihren emotionalen Inhalt hin analysiert werden. Manchmal werden die Stimmungen auf die Ebene aller in einem Text erwähnten Entitäten (Firmen, Orte, Personen) heruntergebrochen. Die Lösung einer Stimmungsanalyse ist aufgrund der Verwendung von Sarkasmus, komplexer Satzkonstruktionen und Tonalität, die für Computer schwer zu verarbeiten sind, nicht trivial.
Ausgabe eines benannten Entitätserkennungsalgorithmus. Dazu wird ein englischer Satz verwendet und alle erwähnten Wörter identifiziert, die sich auf Entitäten beziehen. Dabei werden ggf. Wikipedia-Links bereitgestellt und jedem einzelnen Wort ein Konfidenzwert zugewiesen.
Es ist oft wünschenswert, sogenannte „benannte Entitäten“ in einem Dokument zu identifizieren und eindeutig zu machen. Ein paar Beispiele:
Der anonymisierte Lebenslauf eines Arbeitssuchenden. Personalvermittler nutzen häufig Anonymisierungstools, um die Daten von Bewerbern an Arbeitgeber weiterzugeben, ohne Gefahr zu laufen, dass der Arbeitgeber die Personalvermittlungsagentur umgeht.
Das Aufkommen von Big Data hat ein wachsendes Bewusstsein für die Bedeutung des Datenschutzes mit sich gebracht und zu Vorschriften wie der DSGVO in Europa geführt. Dies hat auch im NLP neue Möglichkeiten eröffnet, da viele Organisationen nun verpflichtet sind, alle Dokumente zu anonymisieren, bevor sie sie an Dritte weitergeben. NLP kann verwendet werden, um alle persönlichen Namen, Telefonnummern, Adressen oder Ähnliches in einem Dokument zu entfernen oder durch Dummies zu ersetzen. Die Techniken dahinter ähneln denen der Erkennung benannter Entitäten, das Ziel ist jedoch das Gegenteil: Daten zu verschleiern statt zu extrahieren.
Ein anonymisierter technischer Due-Diligence Bericht von Fast Data Science. Die Verarbeitung natürlicher Sprache ist nützlich, um sensible Unternehmensdaten zu bereinigen.
Traditionell entwickelte sich NLP aus dem Bereich der Linguistik, wo Informatiker versuchten, Computer mit immer ausgefeilteren Darstellungen der menschlichen Sprache zu programmieren. Im Laufe der Zeit hat sich NLP von regelbasierten Ansätzen zu Ansätzen entwickelt, die auf maschinellem Lernen basieren, und wird heute unter KI oder künstliche Intelligenz zusammengefasst.
KI ist ein sehr weit gefasster Begriff, der eine Vielzahl von Bereichen umfasst, von der Bildverarbeitung und Gesichtserkennung bis hin zur Audiotranskription, . und Betrugserkennung. Im weitesten Sinne umfasst KI alle Techniken, die eingesetzt werden, um Computer dazu zu bringen, menschliches Denken nachzuahmen, was das gesamte NLP einschließen würde.
NLP-Techniken lassen sich in drei Gruppen einteilen:
Rule-based systems are the easiest to explain. For example, a human would write a computer program to follow instructions such as “if the word begins with a capital letter, and it’s not at the beginning of a sentence, and the following word also begins with a capital, and the following word is a verb, then it is a personal name”. Rule-based NLP systems, although easily understandable and highly transparent, are hard to maintain and scale, and do not perform very well. The only area that I have seen rule-based systems in use in industry is chatbots, but even chatbots are moving away from rule-based approaches and heading towards machine learning techniques.
Herkömmliche, auf maschinellem Lernen basierende Systeme sind leistungsfähiger als regelbasierte Systeme und erfordern, dass der NLP-Datenwissenschaftler ein Modell auswählt und einen Satz Trainings- und Validierungsdaten bereitstellt. Beispiele für diesen Ansatz sind der Naive-Bayes-Algorithmus zur Spam-Erkennung. Mit nur 100 Beispielen für Spam-E-Mails und 100 Beispielen für Ham-E-Mails sowie den einfachen Regeln des Naive-Bayes-Algorithmus können Sie einen passablen Spam-Detektor erstellen.
Der Stand der Technik für alle NLP-Anwendungen sind mittlerweile Deep-Learning-basierte Systeme. Auf Deep Learning basierende Systeme basieren auf neuronalen Netzen. Sie erfordern eine Möglichkeit, ein Textdokument in Zahlen umzuwandeln, die in ein neuronales Netzwerk eingespeist werden können, das dann lernen kann, die jeweilige Aufgabe auszuführen.
Deep-Learning-NLP-Methoden erfordern typischerweise sehr große Mengen an Trainingsdaten, führen zu großen Modellgrößen und erfordern mehr Rechenleistung zum Trainieren und Ausführen. Oft benötigt ein NLP-Datenwissenschaftler Millionen von Dokumenten, bevor das Training eines Deep-Learning-basierten Systems praktikabel wird. Deep Learning ist für viele NLP-Projekte keine Option, da die Menge der verfügbaren Trainingsdaten zu gering ist.
Der Hauptvorteil von Deep-Learning-basierten Systemen besteht darin, dass Datenwissenschaftler nicht viel Zeit damit verbringen müssen, Algorithmen für maschinelles Lernen zu entwerfen und zu optimieren. Sie können in der Regel ein vorhandenes neuronales Netzwerkdesign sofort übernehmen. Wenn sie großes Glück haben, können sie ein vorab trainiertes Netzwerk wie BERT nutzen, das bereits auf Texte in der betreffenden Sprache trainiert wurde und sie können nur eine minimale Umschulung durchführen, um das Modell an ihren Anwendungsfall anzupassen. Diese Technik wird „Transferlernen“ genannt.
Der zweite Hauptvorteil von Deep-Learning-basierten Systemen besteht darin, dass sie ein erstaunliches Maß an Genauigkeit liefern können, da sie sich an die äußerst komplexe Struktur der menschlichen Sprache anpassen können.
Beispielsweise konnten auf LSTM und Transformer basierende neuronale Netze Pronomen über mehrere Sätze hinweg auflösen. Modelle neuronaler Netze waren auch in der Lage, Sätze wie „Ich sah den Mond. Es war wunderschön“ korrekt ins Spanische oder Deutsche zu übersetzen, wobei die Übersetzung von „es“ vom Geschlecht von „Mond“ abhängt (das Spanische gibt also den letzten Satz wieder). als „sie war schön“ und im Deutschen als „er war schön“).
Bei der Textklassifizierung sind die Transformer-basierten Modelle derzeit auf dem neuesten Stand, allerdings schreitet dieses Gebiet rasant voran und jedes Jahr wird ein neues neuronales Netzwerkdesign veröffentlicht, das das bisherige Spitzenmodell übertrifft.
Ich hoffe, dieser Artikel hat Ihnen geholfen, die Hauptpunkte von NLP besser zu verstehen.
Wenn Ihre Organisation über einen großen Satz an Textdokumenten verfügt und Sie Unterstützung bei der Wertschöpfung daraus benötigen, kontaktieren Sie uns .
Text Mining: Kurzer Überblick Das moderne Unternehmen hat Zugriff auf riesige Mengen unstrukturierter Daten, doch diese Daten können sich nur dann als nützlich erweisen, wenn daraus die gewünschten Erkenntnisse gewonnen werden können.
Wie sieht Textanalyse-KI im Jahr 2023 aus, wie sie generell funktioniert und wie Sie damit Ihre Kunden, Mitarbeiter und Ihre Marke auf das nächste Level heben können – all das und mehr in unserem ausführlichen Artikel.
Natural Language Understanding (NLU): Überblick Wenn wir darüber nachdenken, ist Sprache eines der mächtigsten Werkzeuge in unserem Arsenal. Wir nutzen es, um auszudrücken, was wir fühlen oder denken.
Was wir für Sie tun können