Was ist NLP?

· Thomas Wood
Was ist NLP?

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Wir werden oft gefragt, welche Art von Beratung machen wir bei Fast Data Science? Wenn wir von NLP sprechen, lautet die nächste Frage normalerweise: „Was ist NLP?“ und wir müssen etwas genauer erklären, wofür NLP steht und was es bedeutet.

What is NLP? NLP stands for natural language processing, but Google still shows Neuro-linguistic programming as the top result for search 'nlp' (screenshot)

NLP steht für Natural Language Processing … aber nach 12 Jahren auf diesem Gebiet hat Google nichts aus meinem Suchverlauf gelernt. Screenshot von Google.

Die kurze Antwort lautet: NLP steht für Natural Language Processing . Das „Natürliche“ in der Verarbeitung natürlicher Sprache bezieht sich auf menschliche Sprachen wie Englisch und nicht auf Programmiersprachen. „Verarbeiten“ bezieht sich auf das, was wir damit machen: Wir versuchen, Computer dazu zu bringen, menschliche Sprachen zu verstehen. Kurz gesagt bedeutet NLP Computerprogramme, die Sprache oder Text entweder verstehen oder erzeugen. NLP ist ein Teilgebiet der künstlichen Intelligenz und nutzt regelmäßig Techniken des maschinellen Lernens.

Was sind einige Beispiele für NLP?

Hier sind einige alltägliche Anwendungen von NLP in unserem Alltag:

Vorhersagetext

Predictive Text ist ein NLP-Modell, das in der Lage ist, das wahrscheinlichste nächste Wort in Ihrem Satz vorherzusagen. Es handelt sich um ein „Sprachmodell“, das ein allgemeines englisches Sprachmodell kombiniert, das auf den SMS-Verläufen vieler Benutzer basiert, mit personalisierten Mustern, die aus Ihrem eigenen Tippverlauf auf Ihrem Telefon gelernt wurden.

Für ostasiatische Sprachen wie Chinesisch sind NLP-Algorithmen wie Predictive Text für die effektive Nutzung eines Mobiltelefons unerlässlich. Bei einer der in China am häufigsten verwendeten Eingabemethoden gibt ein Benutzer Wörter in Pinyin (der phonetischen Darstellung) ein, und das Sprachmodell ist in der Lage, angesichts des Kontexts des restlichen Satzes das wahrscheinlichste Zeichen für diese Aussprache auszuwählen.

Demonstration des standardmäßigen Texterkennungsalgorithmus in Englisch und Chinesisch auf dem Samsung Galaxy S7.

Rechtschreibprüfer

Rechtschreibprüfungen sind Anwendungen, die Rechtschreibung und Grammatik testen, orthografische, stilistische und grammatikalische Fehler finden und hilfreiche Vorschläge zu deren Behebung liefern. Ich habe diesen Artikel beispielsweise mit Hilfe des Browser-Plugins Grammarly geschrieben, das NLP nutzt, um Ihren Schreibstil zu verbessern.

Screenshot of NLP software Grammarly correcting my grammar as I wrote this article.

Screenshot der NLP-Software Grammarly, die meine Grammatik korrigiert, während ich diesen Artikel schrieb.

Maschinenübersetzung

Screenshot of the dialogue translation mode on the Samsung Galaxy S7, which interprets a spoken conversation between two people.

Screenshot des Dialogübersetzungsmodus auf dem Samsung Galaxy S7, der ein gesprochenes Gespräch zwischen zwei Personen interpretiert.

Maschinelle Übersetzung ist eine der bekanntesten Anwendungen von NLP. Traditionelle maschinelle Übersetzungen wurden mit regelbasierten Techniken durchgeführt, bei denen NLP-Forscher versuchten, die gesamte Grammatik sowohl der Ausgangs- als auch der Zielsprache manuell in ihre Computerprogramme zu kodieren, als würden sie ein Grammatikbuch schreiben. Die regelbasierten Techniken scheiterten spektakulär.

Es gibt eine bekannte, aber wahrscheinlich apokryphe Geschichte über das maschinelle Übersetzungssystem aus der Zeit des Kalten Krieges, das „Der Geist war willig, aber das Fleisch war schwach“ ins Russische und zurück ins Englische übersetzte und es so wiedergab: „Der Wodka war gut, aber das.“ Fleisch war faul“.

Natürlich hat heutzutage fast jeder ein viel leistungsfähigeres Übersetzungstool in der Tasche … obwohl dies wirklich eine Illusion ist, da die Übersetzung selbst auf Ihrem Mobiltelefon wahrscheinlich auf den Servern von Google und nicht auf dem Gerät selbst erfolgt.

Virtuelle Assistenten

Virtuelle Assistenten oder Chatbots wie Alexa und Siri gehören zu einer Untergruppe des NLP, die als Dialogsysteme in natürlicher Sprache bezeichnet wird. Sie ermöglichen es einem Benutzer, ein mobiles Gerät, ein Auto, ein Soundsystem, einen intelligenten Kühlschrank oder ähnliches per Sprachbefehl zu steuern, und sind in der Lage, innerhalb der engen Bereiche, für die sie entwickelt wurden, einen rudimentären Dialog mit einem Menschen zu führen.

Wir alle haben schon einmal versucht, die Grenzen eines Chatbots auszutesten. Glücklicherweise sind Menschen genauso vorhersehbar wie Roboter. Als ich einige Jahre lang an der Entwicklung virtueller Unternehmensassistenten gearbeitet habe, stellten wir fest, dass die häufigsten Fragen an die Bots waren: „Was trägst du?“, „Hast du einen Freund?“ und so weiter. Es war ganz einfach, die Bots so zu programmieren, dass sie auf diese Eingaben eine witzige Antwort haben.

Suchmaschinen

Google und Bing führen NLP-Algorithmen sowohl für Ihre Suchanfragen als auch für die von ihnen gecrawlten Dokumente aus, um die beiden zusammenzubringen und die besten Dokumente zu ermitteln, die für die Anfrage eines bestimmten Benutzers zurückgegeben werden können.

Andere Anwendungen von NLP

In jedem Bereich, in dem große Textmengen an der Tagesordnung sind, kann NLP wahrscheinlich einen Mehrwert liefern. Einige der häufigsten Anwendungen sind:

Dokumentenklassifizierung

Es ist ein häufiger Anwendungsfall, eingehende Dokumente in verschiedene Gruppen zu klassifizieren. Ein Standard-NLP-Problem sind Dokumentenklassifizierungssysteme, und im Laufe der Jahre wurden viele Algorithmen entwickelt, um dieses Problem anzugehen. Klassische Beispiele sind:

  • Ein Unternehmen erhält eingehende E-Mails und möchte diese an die richtige Abteilung weiterleiten
  • Gmail verwendet einen hochentwickelten Dokumentenklassifizierer, um zu erkennen, welche Ihrer eingehenden E-Mails „Spam“ (unerwünscht) und welche „Ham“ (erwünscht) sind.
  • Ein spezielles Beispiel hierfür ist die Zuschreibung der Urheberschaft oder die forensische Stilometrie . Ein Textklassifikator kann den wahrscheinlichsten Autor eines unbekannten Textes identifizieren.

Stimmungsanalyse

Es ist oft nützlich zu wissen, ob ein Satz positive oder negative Emotionen enthält. Viele Unternehmen nutzen diese Technologie, um soziale Medien zu überwachen und schnell auf negative Erwähnungen ihres Produkts zu reagieren. Wenn beispielsweise ein Mobiltelefon zur Überhitzung neigt oder ein Elektroauto dazu neigt, zu stark zu beschleunigen, können Verbraucher auf Twitter Luft machen, bevor sie versuchen, das Unternehmen über seine offiziellen Kanäle zu kontaktieren.

Die Stimmungsanalyse ist ein Bereich des NLP, bei dem Texte automatisch auf ihren emotionalen Inhalt hin analysiert werden. Manchmal werden die Stimmungen auf die Ebene aller in einem Text erwähnten Entitäten (Firmen, Orte, Personen) heruntergebrochen. Die Lösung einer Stimmungsanalyse ist aufgrund der Verwendung von Sarkasmus, komplexer Satzkonstruktionen und Tonalität, die für Computer schwer zu verarbeiten sind, nicht trivial.

Erkennung benannter Entitäten

Output of a named entity recognition algorithm. This takes an English sentence and identifies all words mentioned which refer to entities, providing Wikipedia links where applicable and assigning a confidence score to each one.

Ausgabe eines benannten Entitätserkennungsalgorithmus. Dazu wird ein englischer Satz verwendet und alle erwähnten Wörter identifiziert, die sich auf Entitäten beziehen. Dabei werden ggf. Wikipedia-Links bereitgestellt und jedem einzelnen Wort ein Konfidenzwert zugewiesen.

Es ist oft wünschenswert, sogenannte „benannte Entitäten“ in einem Dokument zu identifizieren und eindeutig zu machen. Ein paar Beispiele:

  • Ein Unternehmen, das sich mit Rechtsdokumenten befasst, möchte möglicherweise alle aktenkundigen Verträge, Urkunden oder NDAs schnell bearbeiten und den Namen und die Daten des Vermieters, Treuhänders, Bevollmächtigten oder einer anderen Person identifizieren und extrahieren.
  • Ein Versicherungsversicherer möchte möglicherweise Versicherungsanspruchsdokumente verarbeiten, um wichtige Details wie den Namen des Antragstellers, den Ort des Vorfalls usw. zu ermitteln. Dies kann verwendet werden, um festzustellen, ob der Antragsteller alle für die Geltendmachung des Anspruchs erforderlichen Informationen übermittelt hat.
  • Ein Nachrichtenanbieter möchte möglicherweise alle veröffentlichten Artikel indizieren und mit Standorten, Namen der beteiligten Personen usw. versehen.
  • Ein Personalvermittlungsunternehmen möchte möglicherweise alle ihm übermittelten Lebensläufe analysieren, wichtige Statistiken des Arbeitssuchenden extrahieren und sie in einer Datenbank indizieren.

Anonymisierung von Dokumenten

A jobseeker's anonymised CV. Recruiters commonly use anonymisation tools in order to share candidates' details with employers without running the risk that the employer will bypass the recruitment agency.

Der anonymisierte Lebenslauf eines Arbeitssuchenden. Personalvermittler nutzen häufig Anonymisierungstools, um die Daten von Bewerbern an Arbeitgeber weiterzugeben, ohne Gefahr zu laufen, dass der Arbeitgeber die Personalvermittlungsagentur umgeht.

Das Aufkommen von Big Data hat ein wachsendes Bewusstsein für die Bedeutung des Datenschutzes mit sich gebracht und zu Vorschriften wie der DSGVO in Europa geführt. Dies hat auch im NLP neue Möglichkeiten eröffnet, da viele Organisationen nun verpflichtet sind, alle Dokumente zu anonymisieren, bevor sie sie an Dritte weitergeben. NLP kann verwendet werden, um alle persönlichen Namen, Telefonnummern, Adressen oder Ähnliches in einem Dokument zu entfernen oder durch Dummies zu ersetzen. Die Techniken dahinter ähneln denen der Erkennung benannter Entitäten, das Ziel ist jedoch das Gegenteil: Daten zu verschleiern statt zu extrahieren.

Ein anonymisierter technischer Due-Diligence -Bericht von Fast Data Science. Die Verarbeitung natürlicher Sprache ist nützlich, um sensible Unternehmensdaten zu bereinigen.

Was ist NLP? Ist NLP künstliche Intelligenz?

Traditionell entwickelte sich NLP aus dem Bereich der Linguistik, wo Informatiker versuchten, Computer mit immer ausgefeilteren Darstellungen der menschlichen Sprache zu programmieren. Im Laufe der Zeit hat sich NLP von regelbasierten Ansätzen zu Ansätzen entwickelt, die auf maschinellem Lernen basieren, und wird heute unter KI oder künstliche Intelligenz zusammengefasst.

KI ist ein sehr weit gefasster Begriff, der eine Vielzahl von Bereichen umfasst, von Bildverarbeitung und Gesichtserkennung bis hin zu Audiotranskription, Vorhersage der Kundenabwanderung und Betrugserkennung. Im weitesten Sinne umfasst KI alle Techniken, die eingesetzt werden, um Computer dazu zu bringen, menschliches Denken nachzuahmen, was das gesamte NLP einschließen würde.

NLP-Techniken lassen sich in drei Gruppen einteilen:

Regelbasierte NLP-Systeme

Regelbasierte Systeme sind am einfachsten zu erklären. Zum Beispiel würde ein Mensch ein Computerprogramm schreiben, um Anweisungen wie „wenn das Wort mit einem Großbuchstaben beginnt und es nicht am Anfang eines Satzes steht und das folgende Wort ebenfalls mit einem Großbuchstaben beginnt und das folgende Wort steht“ zu befolgen ein Verb, dann ist es ein Personenname“. Obwohl regelbasierte NLP-Systeme leicht verständlich und hochtransparent sind, sind sie schwer zu warten und zu skalieren und weisen keine sehr gute Leistung auf. Der einzige Bereich, in dem ich in der Industrie regelbasierte Systeme im Einsatz gesehen habe, sind Chatbots, aber auch Chatbots entfernen sich von regelbasierten Ansätzen und gehen hin zu Techniken des maschinellen Lernens.

Traditionelle, auf maschinellem Lernen basierende NLP-Systeme

Herkömmliche, auf maschinellem Lernen basierende Systeme sind leistungsfähiger als regelbasierte Systeme und erfordern, dass der NLP-Datenwissenschaftler ein Modell auswählt und einen Satz Trainings- und Validierungsdaten bereitstellt. Beispiele für diesen Ansatz sind der Naive-Bayes-Algorithmus zur Spam-Erkennung. Mit nur 100 Beispielen für Spam-E-Mails und 100 Beispielen für Ham-E-Mails sowie den einfachen Regeln des Naive-Bayes-Algorithmus können Sie einen passablen Spam-Detektor erstellen.

Deep-Learning-basierte NLP-Systeme

Der Stand der Technik für alle NLP-Anwendungen sind mittlerweile Deep-Learning-basierte Systeme. Auf Deep Learning basierende Systeme basieren auf neuronalen Netzen. Sie erfordern eine Möglichkeit, ein Textdokument in Zahlen umzuwandeln, die in ein neuronales Netzwerk eingespeist werden können, das dann lernen kann, die jeweilige Aufgabe auszuführen.

Deep-Learning-NLP-Methoden erfordern typischerweise sehr große Mengen an Trainingsdaten, führen zu großen Modellgrößen und erfordern mehr Rechenleistung zum Trainieren und Ausführen. Oft benötigt ein NLP-Datenwissenschaftler Millionen von Dokumenten, bevor das Training eines Deep-Learning-basierten Systems praktikabel wird. Deep Learning ist für viele NLP-Projekte keine Option, da die Menge der verfügbaren Trainingsdaten zu gering ist.

Der Hauptvorteil von Deep-Learning-basierten Systemen besteht darin, dass Datenwissenschaftler nicht viel Zeit damit verbringen müssen, Algorithmen für maschinelles Lernen zu entwerfen und zu optimieren. Sie können in der Regel ein vorhandenes neuronales Netzwerkdesign sofort übernehmen. Wenn sie großes Glück haben, können sie ein vorab trainiertes Netzwerk wie BERT nutzen, das bereits auf Texte in der betreffenden Sprache trainiert wurde, und sie können nur einen minimalen Umschulungsaufwand durchführen, um das Modell für ihre Verwendung anzupassen Fall. Diese Technik wird Transferlernen genannt.

Der zweite Hauptvorteil von Deep-Learning-basierten Systemen besteht darin, dass sie ein erstaunliches Maß an Genauigkeit liefern können, da sie sich an die äußerst komplexe Struktur der menschlichen Sprache anpassen können.

Beispielsweise konnten auf LSTM und Transformer basierende neuronale Netze Pronomen über mehrere Sätze hinweg auflösen. Modelle neuronaler Netze waren auch in der Lage, Sätze wie „Ich habe den Mond gesehen. Es war wunderschön“ korrekt ins Spanische oder Deutsche zu übersetzen, wobei die Übersetzung von „es“ vom Geschlecht von „Mond“ abhängt (das Spanische gibt also den letzten Satz wieder). als „sie war schön“ und im Deutschen als „er war schön“).

Bei der Textklassifizierung sind die Transformer-basierten Modelle derzeit auf dem neuesten Stand, allerdings schreitet dieses Gebiet rasant voran und jedes Jahr wird ein neues neuronales Netzwerkdesign veröffentlicht, das das bisherige Spitzenmodell übertrifft.

Abschluss

Ich hoffe, dieser Artikel hat Ihnen geholfen, die Hauptpunkte von NLP besser zu verstehen.

Wenn Ihre Organisation über einen großen Satz an Textdokumenten verfügt und Sie Hilfe bei der Wertschöpfung aus diesen benötigen, kontaktieren Sie uns bitte.

Finden Sie Top-NLP-Talente!

Suchen Sie Experten in Natürlicher Sprachverarbeitung? Veröffentlichen Sie Ihre Stellenangebote bei uns und finden Sie heute Ihren idealen Kandidaten!

Veröffentlichen Sie einen Job

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us