Was ist die Verarbeitung natürlicher Sprache mit Beispielen?

· Thomas Wood
Was ist die Verarbeitung natürlicher Sprache mit Beispielen?

Erweitern Sie Ihr Team mit NLP-Spezialisten

Entfesseln Sie das Potenzial Ihrer NLP-Projekte mit dem richtigen Talent. Veröffentlichen Sie Ihre Stelle bei uns und ziehen Sie Kandidaten an, die genauso leidenschaftlich über natürliche Sprachverarbeitung sind.

NLP-Experten einstellen

Natural Language Processing ( NLP ) ist die Wissenschaft, Computer dazu zu bringen, in menschlicher Sprache mit Menschen zu sprechen oder mit ihnen zu interagieren. Beispiele für die Verarbeitung natürlicher Sprache sind Spracherkennung, Rechtschreibprüfung, automatische Vervollständigung, Chatbots und Suchmaschinen.

Die Verarbeitung natürlicher Sprache gibt es schon seit Jahren, wird aber oft als selbstverständlich angesehen. Hier sind acht Beispiele für Anwendungen der Verarbeitung natürlicher Sprache , die Sie vielleicht noch nicht kennen. Wenn Sie über eine große Menge an Textdaten verfügen, zögern Sie nicht, einen NLP-Berater wie Fast Data Science zu beauftragen.

8 Beispiele für die Verarbeitung natürlicher Sprache in der Wirtschaft

Mit NLP Erkenntnisse aus Dokumenten gewinnen

Wenn Unternehmen über große Mengen an Textdokumenten verfügen (stellen Sie sich die Falllast einer Anwaltskanzlei oder behördliche Dokumente in einem Pharmaunternehmen vor), kann es schwierig sein, daraus Erkenntnisse zu gewinnen.

Ein pharmazeutischer Manager möchte beispielsweise wissen, wie viele von den Tausenden klinischen Studien , die das Unternehmen durchgeführt hat, zu einer bestimmten Nebenwirkung geführt haben, wenn diese Informationen in einem Stapel von Dokumenten gespeichert sind und niemand die Zeit hat, sie alle zu lesen.

Die Verarbeitung natürlicher Sprache stellt uns eine Reihe von Werkzeugen zur Automatisierung dieser Art von Aufgaben zur Verfügung.

Traditionelle Business-Intelligence-Tools (BI) wie Power BI und Tableau ermöglichen es Analysten, Erkenntnisse aus strukturierten Datenbanken zu gewinnen, sodass sie beispielsweise auf einen Blick erkennen können, welches Team in einem bestimmten Quartal die meisten Verkäufe getätigt hat. Doch viele Daten, die in Unternehmen herumschwirren, liegen in einem unstrukturierten Format vor, beispielsweise als PDF-Dokumente, und hier kann Power BI nicht so einfach helfen.

Ein Experte für die Verarbeitung natürlicher Sprache ist in der Lage, Muster in unstrukturierten Daten zu erkennen. Beispielsweise kann die Themenmodellierung (Clustering) verwendet werden, um Schlüsselthemen in einem Dokumentensatz zu finden, und die Erkennung benannter Entitäten könnte Produktnamen, Personennamen oder wichtige Orte identifizieren. Mithilfe der Dokumentenklassifizierung können Dokumente automatisch in Kategorien eingeteilt werden.

Die Verarbeitung natürlicher Sprache kann zur Themenmodellierung verwendet werden, wobei ein Korpus unstrukturierter Texte in eine Reihe von Themen umgewandelt werden kann. Zu den wichtigsten Themenmodellierungsalgorithmen gehören k-means und Latent Dirichlet Allocation . Weitere Informationen zu k-means und der latenten Dirichlet-Zuordnung finden Sie in meiner Rezension der 26 wichtigsten Data-Science-Konzepte .

Ich arbeite oft mit einer Open-Source- Bibliothek wie Apache Tika , die PDF-Dokumente in Klartext konvertieren und dann Modelle zur Verarbeitung natürlicher Sprache auf dem Klartext trainieren kann. Doch selbst nach der PDF-zu-Text-Konvertierung ist der Text oft unordentlich, da Seitenzahlen und Kopfzeilen in das Dokument eingemischt sind und Formatierungsinformationen verloren gehen.

NLP für Rechtschreibprüfungsformulare

Rechtschreib- und Grammatikprüfungen sind mittlerweile alltäglich und helfen uns, Webformulare korrekt auszufüllen und Tippfehler zu vermeiden. Wenn ich auf dem Bildschirm eines Mobiltelefons tippe, stelle ich tatsächlich fest, dass die Rechtschreibprüfung wahrscheinlich die meisten Wörter korrigiert!

Man könnte meinen, dass das Schreiben einer Rechtschreibprüfung so einfach ist wie das Zusammenstellen einer Liste aller zulässigen Wörter in einer Sprache, aber das Problem ist weitaus komplexer. Wie kann ein solches System zwischen ihremdort“ und ihrem „sind“ unterscheiden? Heutzutage verwenden ausgefeiltere Rechtschreibprüfer neuronale Netze , um zu überprüfen, ob das richtige Homonym verwendet wird. Außerdem kann die Rechtschreibprüfung bei Sprachen mit komplizierteren Morphologien als Englisch sehr rechenintensiv werden.

Als Beispiel für ein nicht englischspezifisches Problem bei der Verarbeitung natürlicher Sprache muss sich ein deutscher Rechtschreibprüfer mit dem Problem der Kompositazerlegung befassen: der Aufspaltung zusammengesetzter Wörter in ihre Bestandteile. Manchmal gibt es mehr als eine gültige Aufteilung, obwohl für einen menschlichen Leser nur eine sinnvoll ist. Open-Source-Software wie LibreOffice kann diese Aufgabe mithilfe der Bibliothek Hunspell erfüllen, die ursprünglich für Ungarisch entwickelt wurde, eine Sprache mit einer sehr komplexen Morphologie.

Beispiel für die Verarbeitung natürlicher Sprache zum Informationsabruf und zur Beantwortung von Fragen

In letzter Zeit gab es einen großen Hype um Transformer- Modelle, die die neueste Version neuronaler Netze darstellen. Transformatoren sind in der Lage, die Grammatik natürlicher Sprache auf äußerst tiefe und ausgefeilte Weise darzustellen und haben die Leistung von Dokumentenklassifizierungs-, Textgenerierungs- und Fragebeantwortungssystemen verbessert. Die bekanntesten dieser Tools sind BERT , GPT-2 und GPT-3 .

Fast Data Science - London

Need a business solution?

Seit 2016 führend in den Bereichen NLP, ML und Data Science – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Der einfachste Einstieg in BERT ist die Installation einer Bibliothek namens Hugging Face . Unten sehen Sie mein Experiment zur Ermittlung der Fakten im Fall Donoghue vs. Stevenson („Flaschenschnecke“), einer bahnbrechenden Entscheidung im englischen Deliktsrecht, die den Grundstein für die moderne Doktrin der Fahrlässigkeit legte. Wie Sie sehen, war BERT recht leicht in der Lage, die Fakten zu ermitteln ( Am 26. August 1928 trank der Beschwerdeführer eine Flasche Ingwerbier, hergestellt vom Beklagten… ). Obwohl beeindruckend, beschränkt sich die Komplexität von BERT derzeit auf das Finden der relevanten Textpassage.

NLP-Beispiel für die Konvertierung der Rechtschreibung zwischen US- und UK-Englisch

Ein Problem, auf das ich immer wieder stoße, ist die Ausführung von Algorithmen zur Verarbeitung natürlicher Sprache auf Dokumentenkorpora oder Listen von Umfrageantworten, die eine Mischung aus amerikanischer und britischer Rechtschreibung aufweisen oder voller häufiger Rechtschreibfehler sind. Eine der ärgerlichen Konsequenzen, wenn die Rechtschreibung nicht normalisiert wird, besteht darin, dass Wörter wie normalisieren/normalisieren nicht dazu neigen, als Wörter mit hoher Häufigkeit aufgefasst zu werden, wenn sie in verschiedene Varianten aufgeteilt werden. Aus diesem Grund müssen wir häufig Tools zur Rechtschreib- und Grammatiknormalisierung verwenden.

Nachdem dieses Problem in so vielen meiner Projekte aufgetreten war, habe ich mein eigenes Python- Paket namens localspelling geschrieben, das es einem Benutzer ermöglicht, den gesamten Text in einem Dokument in den britischen oder amerikanischen Text umzuwandeln oder zu erkennen, welche Variante im Dokument verwendet wird.

Obwohl die Normalisierung der Rechtschreibung unwichtig erscheinen mag, berichtete die BBC im Jahr 2022, dass Rechtschreibfehler dem Vereinigten Königreich Einnahmen in Millionenhöhe kosten und dass ein einziger Rechtschreibfehler auf einer Website die Conversion-Rate halbieren kann. Unglaublich!

NLP-Beispiel zur Sprachidentifikation

Bei einem Text in einer unbekannten Sprache ist es für die natürliche Sprachverarbeitung überraschend einfach, die Sprache zu identifizieren. Es gibt zwei Hauptansätze zur Spracherkennung:

Spracherkennung durch Stoppwortlisten

Ein NLP- System kann in einem Text nach Stoppwörtern (kleinen Funktionswörtern wie , at , in ) suchen und diese mit einer Liste bekannter Stoppwörter für viele Sprachen vergleichen. Als Sprache wird die Sprache mit den meisten Stoppwörtern im unbekannten Text identifiziert. Ein Dokument, in dem „le“ und „la“ häufig vorkommen, dürfte also beispielsweise französisch sein.

Sprachidentifizierung anhand von N-Gramm-Listen

Eine etwas ausgefeiltere Technik zur Sprachidentifizierung besteht darin, eine Liste von N-Grammen zusammenzustellen, bei denen es sich um Zeichenfolgen handelt, die in jeder Sprache eine charakteristische Häufigkeit aufweisen. Beispielsweise ist die Kombination ch in Englisch, Niederländisch, Spanisch, Deutsch, Französisch und anderen Sprachen üblich.

Aber die Kombination sch ist nur im Deutschen und Niederländischen üblich, und eau ist im Französischen als Drei-Buchstaben-Folge üblich. Auch wenn ostasiatische Schriften für das ungeübte Auge ähnlich aussehen mögen, ist das häufigste Zeichen im Japanischen の und das häufigste Zeichen im Chinesischen 的, die beide dem englischen Suffix „s“ entsprechen.

Durch das Zählen der Ein-, Zwei- und Drei-Buchstaben-Folgen in einem Text (Unigramme, Bigramme und Trigramme) kann eine Sprache anhand einer kurzen Folge von nur wenigen Sätzen identifiziert werden.

Beispiel für die Verarbeitung natürlicher Sprache zur Autorenidentifizierung

Als Erweiterung des oben genannten Problems erscheint manchmal ein Text mit einem unbekannten Autor und wir möchten wissen, wer ihn geschrieben hat.

Beispiele hierfür sind Romane, die unter einem Pseudonym geschrieben wurden, wie J. K. Rowlings Detektivreihe, die unter dem Pseudonym Robert Galbraith geschrieben wurde, oder die pseudonyme italienische Autorin Elena Ferrante . In der Politik haben wir den anonymen Kommentar „I Am Part of the Resistance Inside the Trump Administration“ der New York Times, der eine Hexenjagd auf seinen Autor auslöste, und die offene Frage, wer Dominic Cummings‘ Rosengarten-Erklärung verfasst hat .

Der ausgezeichnete Linguistik-YouTuber Joshua R hat eine qualitative Analyse einer französischen Botschaft durchgeführt, die 2015 von einem der Bataclan-Terroristen verfasst wurde , und dabei wichtige demografische Informationen hinter dem Autor identifiziert (Bildungsniveau, kulturelle Erziehung usw.).

Die Wissenschaft, die Urheberschaft aus unbekannten Texten zu ermitteln, wird als forensische Stilometrie bezeichnet. Jeder Autor hat einen charakteristischen Fingerabdruck seines Schreibstils – auch wenn es sich um Textdokumente handelt und Handschriften nicht vorliegen.

Weitere Informationen zur forensischen Stilometrie finden Sie in meinem früheren Blogbeitrag zum Thema . Außerdem können Sie auf der Website eine Live-Demo eines Autorenidentifizierungssystems ausprobieren.

Obwohl die forensische Stilometrie als qualitative Disziplin angesehen werden kann und von Geisteswissenschaftlern für Probleme wie unbekannte lateinische oder griechische Texte eingesetzt wird, ist sie auch ein interessantes Beispiel für die Verarbeitung natürlicher Sprache.

NLP-Beispiel für maschinelle Übersetzung

Wir haben die Zeiten hinter uns, in denen maschinelle Übersetzungssysteme dafür bekannt waren, Texte wie „Der Geist ist willig, aber das Fleisch ist schwach“ in „Der Wodka ist gut, aber das Fleisch ist faul“ umzuwandeln. (Obwohl mir der Economist zuverlässig mitteilt, dass diese Geschichte apokryphisch ist.)

Heutzutage deckt Google Translate eine erstaunliche Vielfalt an Sprachen ab und verarbeitet die meisten davon mit statistischen Modellen, die auf riesigen Textkorpora trainiert wurden, die möglicherweise nicht einmal in dem Sprachpaar verfügbar sind. Transformer-Modelle haben es Technologiegiganten ermöglicht, Übersetzungssysteme zu entwickeln, die ausschließlich auf einsprachigen Text basieren.

Im Jahr 2022 kündigte der Mischkonzern Meta, dem Facebook gehört, die Schaffung eines einzigen KI-Modells an , das in der Lage ist, in 200 verschiedene Sprachen zu übersetzen und so den Zugang zur Verarbeitung natürlicher Sprache für weniger gesprochene Sprachen wie Twi (Ghana) zu demokratisieren, die zuvor von NLP nicht unterstützt wurden Werkzeuge.

Der einsprachig basierte Ansatz ist auch viel besser skalierbar, da die Modelle von Facebook genauso einfach vom Thailändischen ins Laotische oder vom Nepali ins Assamesische übersetzen können wie zwischen diesen Sprachen und dem Englischen. Da die Anzahl der unterstützten Sprachen zunimmt, würde die Anzahl der Sprachpaare unüberschaubar werden, wenn jedes Sprachpaar entwickelt und gepflegt werden müsste. Frühere Iterationen maschineller Übersetzungsmodelle zeigten tendenziell eine schlechtere Leistung, wenn nicht ins Englische oder aus dem Englischen übersetzt wurde.

Es gibt jedoch noch viel zu tun, um die Abdeckung der Sprachen der Welt zu verbessern. Facebook schätzt, dass mehr als 20 % der Weltbevölkerung derzeit noch nicht von kommerzieller Übersetzungstechnologie abgedeckt sind. Im Allgemeinen ist die Abdeckung für die wichtigsten Weltsprachen sehr gut, mit einigen Ausreißern (insbesondere Yue- und Wu-Chinesisch, manchmal auch als Kantonesisch und Shanghainisch bekannt).

Top 91 Sprachen mit Google Translate-Abdeckung. Datenquelle: Ethnologue (2022, 25. Auflage), Google Translate-Homepage.

Bei vielen der nicht unterstützten Sprachen handelt es sich um Sprachen mit vielen Sprechern, die jedoch keinen offiziellen Status haben, beispielsweise die vielen gesprochenen Varianten des Arabischen.

Interessanterweise wurde die Bibel in mehr als 6.000 Sprachen übersetzt und ist oft das erste Buch, das in einer neuen Sprache veröffentlicht wird.

NLP-Beispiel für die Stimmungsanalyse

Die Stimmungsanalyse ist ein Beispiel dafür, wie die Verarbeitung natürlicher Sprache genutzt werden kann, um den subjektiven Inhalt eines Textes zu identifizieren. Dies ist natürlich sehr nützlich für Unternehmen, die den Social-Media-Verkehr bezüglich ihrer Marken und Konkurrenzmarken oder Schlüsselthemen überwachen und auch die Stimmung im Dialog zwischen Benutzern und Chatbots oder Kundenbetreuern überwachen möchten. Die Stimmungsanalyse wird im Finanzwesen eingesetzt, um aufkommende Trends zu identifizieren, die auf profitable Geschäfte hinweisen können.

Weitere Beispiele dafür, wie dieser Bereich der Verarbeitung natürlicher Sprache in Ihrem Unternehmen angewendet werden kann, finden Sie in meinem Blogbeitrag über Trends in der Sentiment-Analyse . Er enthält eine interaktive Demo eines Sentiment-Analyse-Tools und zeigt, wie sich die Sentiment-Analyse-Technologie seit den 1970er Jahren weiterentwickelt hat bis heute.

Was sind weitere Beispiele für NLP in der Wirtschaft?

Die Verarbeitung natürlicher Sprache kann ein Unternehmen schnell verändern. Unternehmen in Branchen wie Pharma , Recht , Versicherungen und wissenschaftlicher Forschung können die riesigen Datenmengen, die sie isoliert haben, nutzen, um die Konkurrenz zu überholen.

Die Verarbeitung natürlicher Sprache kann zur Verbesserung des Kundenerlebnisses in Form von Chatbots und Systemen zur Sortierung eingehender Verkaufsanfragen und Kundensupportanfragen eingesetzt werden.

Für weitere Beispiele, wie die Verarbeitung natürlicher Sprache zur Effizienz und Rentabilität Ihres Unternehmens genutzt werden kann , wenden Sie sich bitte an Fast Data Science .

Verweise

SIL International, Ethnologue: Languages of the World (2022, 25th edition)

The Economist, A Gift of Tongues (2009)

Erweitern Sie Ihr Team mit NLP-Spezialisten

Entfesseln Sie das Potenzial Ihrer NLP-Projekte mit dem richtigen Talent. Veröffentlichen Sie Ihre Stelle bei uns und ziehen Sie Kandidaten an, die genauso leidenschaftlich über natürliche Sprachverarbeitung sind.

NLP-Experten einstellen

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us