Wozu dient NLP?

· Thomas Wood
Wozu dient NLP?

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Natural Language Processing oder NLP ist der Bereich der künstlichen Intelligenz, der sich mit der Analyse menschlicher Sprache befasst. Die Verarbeitung natürlicher Sprache ist ein aufstrebendes Feld mit einer Vielzahl von Geschäftsanwendungen. Große Unternehmen, die über ein eigenes Data-Science-Team verfügen, verfügen häufig nicht über eigene NLP-Spezialisten und müssen möglicherweise NLP-Experten als Berater hinzuziehen.

Was ist NLP und wofür wird es eingesetzt?

Wir benötigen eine Verarbeitung natürlicher Sprache, wenn wir mit unstrukturierten Textdokumenten konfrontiert werden. Ein unstrukturiertes Dokument könnte etwa so aussehen:

Laut Dr. S. werden Patienten mit Komorbiditäten mit der Kombinationsbehandlung besser behandelt, allerdings habe sie bei älteren Patienten einen gewissen Widerstand festgestellt. Behandlungsnaive Patienten reagierten positiv.

(ein Beispieldokument aus der Pharmaindustrie)

oder

Insbesondere die Sicherheitswarnungen wurden von der Besatzung ignoriert. Aufgrund eines elektronischen Fehlers funktionierte der akustische Alarm nicht. Die Leistung des Ersten Offiziers wurde durch die langen Arbeitszeiten auf dem Schiff beeinträchtigt. Außerdem sei der Wachoffizier eingeschlafen. Die Untersuchung ergab, dass alle oben genannten Faktoren zum Verlust des Schiffes beitrugen.

(ein Bericht über die Untersuchung eines Seeunfalls)

Sie können sich vorstellen, dass ein solcher Absatz für einen Laien schwer zu verstehen ist, obwohl Branchenexperten in den jeweiligen Bereichen (in diesem Fall Pharmazeutik und Schifffahrt) keine Probleme haben werden, die Texte zu verstehen.

Hier kommt also die Verarbeitung natürlicher Sprache ins Spiel.

Wenn eine Schifffahrtsversicherung eine Datenbank mit Vorfällen und deren Ursachen aufbauen wollte oder ein Pharmaunternehmen Muster im Feedback von Gesundheitsdienstleistern analysieren wollte, mussten wir zunächst die Informationen im Text umwandeln in eine Form, die ein Computer verarbeiten kann.

Dies könnte in Form einer XML- oder JSON-Datei wie der folgenden erfolgen:

„ { … „Ursachen“: {

"PRIMARY": [

  "ELECTRONIC",

  "WORKING_HOURS"

],

"SECONDARY": [

  "EQUIPMENT_MALFUNCTION"

]

}, … } „

Ein Zweck der Verarbeitung natürlicher Sprache besteht darin, zwischen der unstrukturierten, benutzerfreundlichen Darstellung der Informationen und dem strukturierten Format zu übersetzen.

Wir können NLP also als eine Komponente betrachten, die zwischen diesen beiden Darstellungen liegt. Die Aufgabe, einen für Menschen lesbaren Text in ein strukturiertes Format zu übersetzen, wird als Natural Language Understanding oder NLU bezeichnet, während die entgegengesetzte Aufgabe, eine strukturierte Liste in einen für Menschen lesbaren Text umzuwandeln, als Natural Language Generation oder NLG bezeichnet wird. Aufgrund der großen Vielfalt möglicher Formulierungen, die Menschen in Texten verwenden, ist das Verstehen natürlicher Sprache die schwierigere der beiden Aufgaben.

Natural language processing translates between an unstructured and structured data format, such as a PDF of an accident report and a computer-readable representation of the relevant information.

Die Verarbeitung natürlicher Sprache übersetzt zwischen einem unstrukturierten und einem strukturierten Datenformat, beispielsweise einem PDF eines Unfallberichts und einer computerlesbaren Darstellung der relevanten Informationen.

Sobald die Informationen in das strukturierte Format konvertiert wurden, können sie in Datenbanken gespeichert und einfach und schnell abgefragt, abgerufen, aggregiert und verglichen werden. Stellen Sie sich vor, Sie versuchen, 100 Unfallberichte oder Zusammenfassungen klinischer Studien zu vergleichen, wenn sie alle im PDF-Format auf Ihrem Computer vorliegen! Dies zeigt, wie unschätzbar wertvoll NLP in manchen Bereichen sein kann.

Fast Data Science - London

Need a business solution?

Seit 2016 führend in den Bereichen NLP, ML und Data Science – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Für welche Aufgaben könnte die Verarbeitung natürlicher Sprache eingesetzt werden?

Es gibt eine große Bandbreite an Anwendungen für die Verarbeitung natürlicher Sprache. Einige davon werden Ihnen offensichtlich sein, andere weniger offensichtlich.

NLP wird für maschinelle Übersetzung verwendet

Beispielsweise sind Google Translate und andere maschinelle Übersetzungssoftware eine klare Anwendung der Verarbeitung natürlicher Sprache. Seit mehr als 50 Jahren beschäftigen sich Informatiker mit maschinellen Übersetzungsalgorithmen. Früher erfolgte dies mithilfe regelbasierter Systeme, heute werden datengesteuerte Ansätze wie neuronale Netze bevorzugt.

NLP für virtuelle Assistenten

Smartphone-Benutzer werden auch mit den virtuellen Assistenten vertraut sein, die heute jedem Smartphone beiliegen. Die virtuellen Assistenten kombinieren zwei leistungsstarke Bereiche der Verarbeitung natürlicher Sprache: Spracherkennung und -synthese (auch bekannt als Speech-to-Text und Text-to-Speech) und Dialogsysteme in natürlicher Sprache zur Verwaltung der Konversation.

NLP wird in einer Vielzahl von Beratungsprojekten eingesetzt

In meiner Tätigkeit als Natural-Language-Processing-Berater werde ich in Projekte nahezu aller Branchen eingebunden und viele der Aufgaben, denen ich gegenüberstehe, sind völlig neu, aber dennoch absolut faszinierend.

Die letzten paar Projekte, an denen ich gearbeitet habe, fielen mir spontan ein

Nachdem wir nun wissen, wofür NLP verwendet wird, schauen wir uns an, wie es funktioniert

Traditionelle NLP-Pipeline

Die herkömmliche Methode zur Lösung von Problemen bei der Verarbeitung natürlicher Sprache besteht darin, den Text durch eine Pipeline von Komponenten zu leiten, die jeweils unabhängig voneinander auf der Ausgabe der vorherigen Komponente arbeiten.

Die erste Komponente in einer Pipeline ist normalerweise ein Tokenizer. Nachdem ein PDF- oder Word-Dokument in einfachen Text umgewandelt wurde, wird es in Einheiten aus Wörtern und Satzzeichen, sogenannte Token, aufgeteilt. Bei englischen Texten ist die Tokenisierung relativ einfach, bei ostasiatischen Sprachen kann es jedoch schwierig sein, da die Grenze eines Wortes nicht immer ein klar definiertes Konzept ist.

Die Token können dann an eine Reihe von Komponenten übergeben werden, die sie mit zusätzlichen Informationen versehen, z

  • die Wortart des Wortes: Substantiv, Verb, Adjektiv usw. (der Wortart-Tagger)
  • das Lemma oder der Stamm: Das Lemma von Katzen ist zum Beispiel cat (der Lemmatisierer)
  • Markieren wichtiger Entitäten wie Länder, Städte, Produktnamen, Eigennamen, Datums- und Uhrzeitangaben (Named-Entity-Erkenner und Named-Entity-Linker)
  • Manchmal wird für den Satz auch ein Analysebaum generiert, der die Beziehungen zwischen Wörtern zeigt.

Das traditionelle Konzept einer NLP-Pipeline. Schritte werden der Reihe nach angewendet, beispielsweise Tokenisierung, Lemmatisierung usw., und ein unstrukturiertes Textdokument wird schrittweise in ein strukturiertes Format umgewandelt.

Nicht traditionell

In den letzten Jahren wurden große Fortschritte auf dem Gebiet der Verarbeitung natürlicher Sprache gemacht und für viele Anwendungen gehört die traditionelle NLP-Pipeline einer Technik der Vergangenheit an. Eine wichtige Innovation ist die Erfindung des Transformers, dem neuesten neuronalen Netzwerk-basierten Ansatz zur Verarbeitung natürlicher Sprache.

Ein Transformator ist im Wesentlichen ein riesiges neuronales Netzwerk, das für die Verarbeitung von Sequenzen optimiert ist und sich daher ideal für die Verarbeitung von Text- oder Tonsignalen eignet. Im Kern wandelt ein Transformator eine Folge von Token in eine Folge von Vektoren in einem sehr hochdimensionalen Raum um. Diese Vektoren können zur Ausführung nahezu jeder NLP-Aufgabe verwendet werden, von der Analyse grammatikalischer Sätze bis hin zur Beantwortung von Fragen und dem Abrufen von Informationen.

Das bekannteste Transformatormodell ist BERT, obwohl das neueste und größte Transformatormodell GPT-3 ist.

Transformer sind so komplex und schwer zu trainieren, dass der durchschnittliche Benutzer nicht mehr in der Lage ist, seine eigenen Transformer im Handumdrehen individuell zu erstellen und zu trainieren, wie er es mit einer NLP-Pipeline tun würde, wie ich oben beschrieben habe. Der einfachste Ansatz besteht darin, eine vorgefertigte Bibliothek wie Hugging Face oder Open AI zu verwenden und die standardmäßig mitgelieferten Transformatormodelle zu verwenden.

Für die meisten Beratungsprojekte zur Verarbeitung natürlicher Sprache , an denen ich gearbeitet habe, waren Transformatoren jedoch nicht relevant. In vielen Fällen war das Domänenverständnis und die Bereitschaft, etwas über die Branche zu lernen, wichtiger als ein riesiges Deep-Learning-Neuronales Netzwerk oder Gigabytes an Daten.

Ich habe beispielsweise an einem Projekt gearbeitet, um das Risiko einer klinischen Studie zu quantifizieren, und die enorme Datenmenge, die ein Transformator benötigen würde, war einfach nicht verfügbar. Meine einzige Möglichkeit bestand darin, Domänenwissen zu sammeln, mit Experten auf diesem Gebiet zu sprechen und zu versuchen, ein einfaches Modell für maschinelles Lernen zu erstellen, das auf Token funktioniert.

Wie kann ich etwas über die Verarbeitung natürlicher Sprache lernen?

Wenn Sie daran interessiert sind, in die Verarbeitung natürlicher Sprache einzusteigen oder etwas über das Gebiet wissen, aber ein Experte werden möchten, gibt es eine Reihe von Quellen, die ich Ihnen empfehlen würde.

  • Wenn Sie lieber aus Büchern lernen, dann ist Speech and Language Processing von Jurafsky und Martin der wichtigste Text in diesem Bereich.
  • Wenn Sie selbst Hand anlegen möchten, empfehle ich die Installation von Anaconda Python und anschließend der Python-Bibliothek NLTK sowie die Bearbeitung einiger Aufgaben mit NLTK (Textklassifizierung usw.).
  • Und schließlich, wenn Sie am besten aus Videos lernen, empfehle ich die Stanford-Vorlesungsreihe zur Verarbeitung natürlicher Sprache mit Deep Learning (Kurs CS224N ):

Abschluss

Ich hoffe, dass Sie die Informationen in diesem Artikel verarbeiten konnten und ein besseres Verständnis dafür haben, was natürliche Sprachverarbeitung ist und wofür NLP verwendet wird. Wenn Sie in einer Branche über einen großen Satz unstrukturierter Daten verfügen (Branchen wie die Pharma-, Rechts- oder Versicherungsbranche haben große Mengen an Textdaten) und einen NLP-Experten oder NLP-Berater beauftragen müssen, der Ihnen dabei hilft, die Daten zu verstehen, bitten wir Sie, dies zu tun Zögern Sie nicht, uns zu kontaktieren .

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us