Wozu dient NLP?

Natural Language Processing oder NLP ist der Bereich der künstlichen Intelligenz, der sich mit der Analyse der menschlichen Sprache beschäftigt. Natural Language Processing ist ein aufstrebendes Feld mit einer großen Anzahl von Geschäftsanwendungen. Große Unternehmen, die über ein eigenes Data Science-Team verfügen, haben oft keine NLP-Spezialisten im Haus und müssen möglicherweise NLP-Experten als Berater hinzuziehen.

Was also ist NLP und wofür wird es verwendet?

Wir benötigen die Verarbeitung natürlicher Sprache, wenn wir mit unstrukturierten Textdokumenten konfrontiert sind. Ein unstrukturiertes Dokument könnte etwa so aussehen:

Laut Dr. S lassen sich Patienten mit Komorbiditäten mit der Kombinationsbehandlung besser behandeln, allerdings hat sie bei älteren Patienten eine gewisse Resistenz festgestellt. Behandlungsnaive Patienten reagierten positiv.

(ein Beispieldokument aus der Pharmaindustrie)

oder

Insbesondere die Sicherheitswarnungen wurden von der Besatzung ignoriert. Aufgrund eines elektronischen Defekts funktionierte der akustische Alarm nicht. Die Leistung des Ersten Offiziers war durch die langen Arbeitszeiten auf dem Schiff beeinträchtigt. Außerdem war der wachhabende Offizier eingeschlafen. Die Untersuchung ergab, dass alle oben genannten Faktoren zum Untergang des Schiffes beitrugen.

(ein Bericht zur Untersuchung eines Seeunfalls)

Sie können sich vorstellen, dass ein solcher Absatz für einen Laien schwer verständlich ist, Branchenexperten in den entsprechenden Bereichen (in diesem Fall Pharma und Schifffahrt) dürften jedoch keine Probleme haben, den Text zu verstehen.

Hier kommt die Verarbeitung natürlicher Sprache ins Spiel.

Wenn beispielsweise eine Schifffahrtsversicherung eine Datenbank zu Vorfällen und deren Ursachen aufbauen oder ein Pharmaunternehmen Muster in den Rückmeldungen von Gesundheitsdienstleistern analysieren möchte, müssen wir zunächst die im Text enthaltenen Informationen in ein für den Computer verarbeitbares Format umwandeln.

Dies könnte die Form einer XML- oder JSON-Datei wie der folgenden annehmen:

{
...
"Ursachen": {

“PRIMARY”: [

“ELECTRONIC”,

“WORKING_HOURS”

“SECONDARY”: [

“EQUIPMENT_MALFUNCTION”

]

},
...
}

Ein Zweck der Verarbeitung natürlicher Sprache besteht darin, zwischen der unstrukturierten, benutzerfreundlichen Darstellung der Informationen und dem strukturierten Format zu übersetzen.

Wir können NLP also als eine Komponente betrachten, die zwischen diesen beiden Darstellungen sitzt. Die Aufgabe, einen für Menschen lesbaren Text in ein strukturiertes Format zu übersetzen, wird als Natural Language Understanding oder NLU bezeichnet, während die entgegengesetzte Aufgabe, eine strukturierte Liste in einen für Menschen lesbaren Text umzuwandeln, als Natural Language Generation oder NLG bezeichnet wird. Aufgrund der großen Vielfalt möglicher Formulierungen, die Menschen in Texten verwenden, ist Natural Language Understanding die schwierigere der beiden Aufgaben.

Die Verarbeitung natürlicher Sprache übersetzt zwischen einem unstrukturierten und einem strukturierten Datenformat, beispielsweise einer PDF-Datei eines Unfallberichts, und einer computerlesbaren Darstellung der relevanten Informationen.

Sobald die Informationen in das strukturierte Format konvertiert wurden, können sie in Datenbanken gespeichert und einfach und schnell abgefragt, abgerufen, aggregiert und verglichen werden. Stellen Sie sich vor, Sie versuchen, 100 Unfallberichte oder Zusammenfassungen klinischer Studien zu vergleichen, wenn sie alle im PDF-Format auf Ihrem Computer vorliegen! Dies zeigt, wie wertvoll NLP in einigen Bereichen sein kann.

Fast Data Science - London

Need a business solution?

Führend in den Bereichen NLP, ML und Data Science seit 2016 – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Für welche Aufgaben könnte die Verarbeitung natürlicher Sprache eingesetzt werden?

Es gibt eine große Bandbreite an Anwendungen für die Verarbeitung natürlicher Sprache. Einige davon werden Ihnen offensichtlich sein, andere weniger.

NLP für maschinelle Übersetzung verwendet

Beispielsweise sind Google Translate und andere maschinelle Übersetzungssoftware eine klare Anwendung der Verarbeitung natürlicher Sprache. Informatiker arbeiten seit mehr als 50 Jahren an Algorithmen für maschinelle Übersetzung. In der Vergangenheit wurden hierfür regelbasierte Systeme verwendet, während heute datengesteuerte Ansätze wie neuronale Netzwerke bevorzugt werden.

NLP für virtuelle Assistenten

Smartphone-Nutzer kennen auch die virtuellen Assistenten, die heute mit jedem Smartphone ausgeliefert werden. Die virtuellen Assistenten kombinieren zwei leistungsstarke Bereiche der natürlichen Sprachverarbeitung: Spracherkennung und -synthese (auch als Sprache-zu-Text und Text-zu-Sprache bekannt) sowie natürliche Sprachdialogsysteme zur Steuerung der Konversation.

NLP wird in einer Vielzahl von Beratungsprojekten eingesetzt

In meiner Tätigkeit als Berater für natürliche Sprachverarbeitung werde ich in Projekte in praktisch allen Branchen eingebunden und viele der Aufgaben, mit denen ich konfrontiert werde, sind völlig neu, aber dennoch absolut faszinierend.

Nur so aus dem Stegreif: Die letzten paar Projekte, an denen ich gearbeitet habe, waren

Transformation von Rechtstexten in eine logische Programmiersprachenrepräsentation in Prolog,
Training eines maschinellen Lernmodells, das in der Lage ist, die Pathologie, die Behandlung und die Anzahl der Probanden einer klinischen Studie zu identifizieren und das mit der Durchführung der Studie verbundene Risiko zu quantifizieren ,
Entwicklung eines Codes, um Erkenntnisse aus Interviews von Pharmaunternehmen mit Gesundheitsdienstleistern zu durchforsten, um nach gemeinsamen Themen im Zusammenhang mit Nebenwirkungen zu suchen,
die Übersetzung von Antworten aus Umfragen in frei formulierte quantitative Skalen wie die Likert-Skala, die von Marktforschern und Wissenschaftlern in den Sozialwissenschaften verwendet werden,
Analyse von landesweiten Berichten über Eisenbahnzwischenfälle im Vereinigten Königreich im Freitext und Zuordnung zu Orten und Zeiten sowie Identifizierung gemeinsamer Themen bei den Zwischenfällen nach Tageszeit, Jahreszeit und Ort ,
Analyse von Grundbucheinträgen in juristischem Englisch und Zuordnung von juristischen Textsegmenten zu Polygonen in einer Kartendatei,
Entwicklung eines automatischen Systems zur Unterscheidung von hochsensiblen E-Mails in hochwertige Leads und Spam sowie von Kundensupportanfragen in Adressänderungen, Änderungen der Bankverbindung, Beschwerden, Todesmeldungen usw. , sodass die betreffende Organisation die Anfrage an die entsprechende Abteilung weiterleiten kann.

Nachdem wir nun wissen, wofür NLP verwendet wird, schauen wir uns an, wie es funktioniert

Traditionelle NLP-Pipeline

Die traditionelle Herangehensweise an Probleme der natürlichen Sprachverarbeitung besteht darin, den Text durch eine Pipeline von Komponenten zu leiten, die jeweils unabhängig voneinander die Ausgabe der vorherigen Komponente verarbeiten.

Die erste Komponente in einer Pipeline ist normalerweise ein Tokenizer. Nachdem ein PDF- oder Word-Dokument in einfachen Text umgewandelt wurde, wird es in Einheiten von Wörtern und Satzzeichen, sogenannte Tokens, aufgeteilt. Bei englischem Text ist die Tokenisierung relativ unkompliziert, bei ostasiatischen Sprachen kann sie jedoch schwierig sein, da die Grenzen eines Wortes nicht immer klar definiert sind.

Die Token können dann an eine Reihe von Komponenten weitergegeben werden, die sie mit zusätzlichen Informationen versehen, wie zum Beispiel

die Wortart des Wortes: Substantiv, Verb, Adjektiv usw. (der Wortart-Tagger)
das Lemma oder der Stamm: zum Beispiel ist das Lemma von cats cat (der Lemmatisierer)
Tagging wichtiger Entitäten wie Länder, Städte, Produktnamen, Eigennamen, Daten und Zeiten (Named Entity Recognizer und Named Entity Linker)
Manchmal wird für den Satz auch ein Analysebaum generiert, der die Beziehungen zwischen den Wörtern zeigt.

Das traditionelle Konzept einer NLP-Pipeline. Schritte wie Tokenisierung, Lemmatisierung usw. werden der Reihe nach angewendet, und ein unstrukturiertes Textdokument wird schrittweise in ein strukturiertes Format umgewandelt.

Nicht traditionell

In den letzten Jahren wurden im Bereich der Verarbeitung natürlicher Sprache große Fortschritte gemacht, und für viele Anwendungen gehört die traditionelle NLP-Pipeline der Vergangenheit an. Eine wichtige Innovation ist die Erfindung des Transformers, dem neuesten auf neuronalen Netzwerken basierenden Ansatz zur Verarbeitung natürlicher Sprache.

Ein Transformer ist im Wesentlichen ein riesiges neuronales Netzwerk, das für die Verarbeitung von Sequenzen optimiert ist und sich daher ideal für die Verarbeitung von Text- oder Tonsignalen eignet. Im Kern wandelt ein Transformer eine Sequenz von Token in eine Sequenz von Vektoren in einem sehr hochdimensionalen Raum um. Diese Vektoren können für nahezu jede NLP-Aufgabe verwendet werden, von der grammatikalischen Satzanalyse bis hin zur Beantwortung von Fragen und dem Abrufen von Informationen.

Das bekannteste Transformatormodell ist BERT, das neueste und größte Transformatormodell ist jedoch GPT-3 .

Transformer sind so komplex und schwer zu trainieren, dass der durchschnittliche Benutzer nicht mehr in der Lage ist, seine eigenen Transformer im Handumdrehen individuell zu erstellen und zu trainieren, wie dies mit einer NLP-Pipeline, wie ich sie oben beschrieben habe, möglich wäre. Der einfachste Ansatz besteht darin, eine vorgefertigte Bibliothek wie Hugging Face oder Open AI zu verwenden und die sofort einsatzbereiten Transformermodelle zu nutzen.

Für die meisten Beratungsprojekte zur Verarbeitung natürlicher Sprache , an denen ich gearbeitet habe, waren Transformatoren jedoch nicht relevant. In vielen Fällen waren Fachkenntnisse und die Bereitschaft, etwas über die Branche zu lernen, wichtiger als ein riesiges neuronales Deep-Learning-Netzwerk oder Gigabyte an Daten.

Ich habe beispielsweise an einem Projekt zur Quantifizierung des Risikos einer klinischen Studie gearbeitet, und die enorme Datenmenge, die ein Transformator benötigt hätte, war einfach nicht verfügbar. Meine einzige Möglichkeit bestand darin, Fachwissen zu sammeln, mit Experten auf dem Gebiet zu sprechen und zu versuchen, ein einfaches maschinelles Lernmodell zu erstellen, das mit Tokens operierte.

Wie kann ich etwas über die Verarbeitung natürlicher Sprache lernen?

Wenn Sie sich für den Einstieg in die Verarbeitung natürlicher Sprache interessieren oder bereits etwas über diesen Bereich wissen, aber ein Experte werden möchten, gibt es eine Reihe von Quellen, die ich Ihnen empfehlen kann.

Wenn Sie lieber aus Büchern lernen, dann ist der wichtigste Text auf diesem Gebiet „Speech and Language Processing“ von Jurafsky und Martin.
Wenn Sie praktische Erfahrungen sammeln möchten, empfehle ich Ihnen, Anaconda Python und dann die Python-Bibliothek NLTK zu installieren und einige Aufgaben mit NLTK durchzuarbeiten (Textklassifizierung usw.).
Und schließlich, wenn Sie am besten mit Videos lernen, empfehle ich die Stanford-Vorlesungsreihe zur Verarbeitung natürlicher Sprache mit Deep Learning (Kurs CS224N ):

Abschluss

Ich hoffe, dass Sie die Informationen in diesem Artikel verarbeiten konnten und nun besser verstehen, was natürliche Sprachverarbeitung ist und wofür NLP verwendet wird. Wenn Sie in irgendeiner Branche über eine große Menge unstrukturierter Daten verfügen (Branchen wie die Pharma-, Rechts- oder Versicherungsbranche verfügen über große Mengen an Textdaten) und einen NLP-Experten oder NLP-Berater beauftragen müssen, der Ihnen hilft, die Daten zu verstehen, zögern Sie bitte nicht, uns zu kontaktieren .

Was also ist NLP und wofür wird es verwendet?

Need a business solution?

Für welche Aufgaben könnte die Verarbeitung natürlicher Sprache eingesetzt werden?

NLP für maschinelle Übersetzung verwendet

NLP für virtuelle Assistenten

NLP wird in einer Vielzahl von Beratungsprojekten eingesetzt

Nachdem wir nun wissen, wofür NLP verwendet wird, schauen wir uns an, wie es funktioniert

Traditionelle NLP-Pipeline

Nicht traditionell

Wie kann ich etwas über die Verarbeitung natürlicher Sprache lernen?

Abschluss

Ihre NLP-Karriere wartet!

Generative KI

Große Daten

KI im Finanzwesen

Transform Unstructured Data into Actionable Insights