Verarbeitung natürlicher Sprache

Natürliche Sprachverarbeitung und Textanalyse

Unser Hauptaugenmerk liegt auf der Verarbeitung natürlicher Sprache (NLP). Der Manager, Thomas Wood, hat 2008 an der Universität Cambridge einen Master in Computersprache, Text und Internettechnologie gemacht und arbeitet seitdem ausschließlich im Bereich maschinelles Lernen und hauptsächlich in NLP . 2018 gründete er Fast Data Science , um Data-Science-Beratung mit Schwerpunkt auf NLP anzubieten.

Wir haben NLP-Pipelines von Grund auf neu erstellt und an Dialogsystemen in natürlicher Sprache , Dokumentklassifizierern und textbasierten Empfehlungssystemen gearbeitet. Für diese Aufgaben haben wir sowohl traditionelle Techniken des maschinellen Lernens als auch modernste Techniken wie neuronale Netzwerke verwendet. Normalerweise verwenden wir Python für unsere NLP-Arbeit.

NLP-Beispiele

Zu den Anwendungsbeispielen für die Verarbeitung natürlicher Sprache gehören:

Verstehen natürlicher Sprache – Interpretieren eines von Menschen geschriebenen Textes und Konvertieren in eine strukturierte Form, z. B. Ermitteln der Anzahl der Teilnehmer an einer klinischen Studie anhand eines einfachen Textdokuments .
Natürlichsprachliche Dialogsysteme wie Chatbots oder große Sprachmodelle (LLMs) wie GPT-4 oder Google BARD.
Textanalyse : Analyse großer Dokumentkorpora .
Themenanalyse, Themenmodellierung oder Clustering (z. B. das Ermitteln häufiger Fehler in Fabrikfehlerberichten : Welches sind, wenn man die Fehlerprotokolle von sechs Monaten in einfachem Englisch betrachtet, die häufigsten Defekte, die zu einer Produktionsunterbrechung in der Fabrik geführt haben? )
Dokumentklassifizierung, wie etwa E-Mail-Triage ( hat diese eingehende E-Mail eine hohe oder niedrige Priorität? ), oder das Suchen nach ähnlichen Dokumenten (NLP ) und semantischer Ähnlichkeit mit Satzeinbettungen .
Vorhersagemodelle, bei denen die unabhängige Variable Text ist (z. B. Vorhersage der Wahrscheinlichkeit, dass ein Baumängel zu einer Eskalation hin zu einer Gebäudeinspektion oder einem Rechtsstreit führt ).
Dokumentbasierte Empfehlungssysteme (Produktempfehlungen, Dating-Apps )
Erkennung benannter Entitäten , zum Beispiel zur Identifizierung von Medikamentennamen , Produktnamen, Ländern oder Firmennamen in Textdokumenten.
Unstrukturierte Datenanalyse
Anonymisierung von Dokumenten und Umgang mit sensiblen Daten

Die Leistungsfähigkeit von NLP (interaktives Word2Vec-Diagramm)

Unten sehen Sie eine Darstellung einiger Fachbegriffe, die in einem Datensatz mit Dokumenten zu klinischen Studien im 3D-Raum verwendet werden.

d3.csv(‘https://raw.githubusercontent.com/fastdatascience/logos/master/data/tsne.csv', // ‘https://raw.githubusercontent.com/plotly/datasets/master/3d-scatter.csv', Funktion(err, Zeilen){ Funktion auspacken(Zeilen, Schlüssel) {

return rows.map(function(row)

{ return row[key]; });}

var labels = unpack(rows, 'label');

var neighbour1 = unpack(rows, 'neighbour1');

var neighbour2 = unpack(rows, 'neighbour2');

var neighbour3 = unpack(rows, 'neighbour3');

var neighbour4 = unpack(rows, 'neighbour4');

var neighbour5 = unpack(rows, 'neighbour5');

var clusters = unpack(rows, 'category');

var colourMap = ['#22577a', '#38a3a5', '#57cc99', '#80ed99', '#c7f9cc',

'#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd', '#8c564b', '#e377c2', '#7f7f7f', '#bcbd22', '#17becf'];

var pointColours = clusters.map(function (i) { return colourMap[i] } );

var complete_labels = labels.map(function (label, idx) {

    return label + ".<br>Nearest neighbours: " + neighbour1[idx] + ", "  + neighbour2[idx] + ", " + neighbour3[idx] + ", " + neighbour4[idx] + ", " + neighbour5[idx] + ".<br>Cluster: " + clusters[idx];

});

var trace1 = {

x:unpack(rows, 'x1'), y: unpack(rows, 'y1'), z: unpack(rows, 'z1'), text: complete_labels,

mode: 'markers',

marker: {

           color: pointColours, // 'rgb(34, 87, 122)',

    size: 5,

    line: {

    color: '#000000',

    width: 0.5},

    opacity: 0.8},

type: 'scatter3d'

};

/* var trace2 = {

x:unpack(rows, 'x2'), y: unpack(rows, 'y2'), z: unpack(rows, 'z2'),

mode: 'markers',

marker: {

    color: 'rgb(127, 127, 127)',

    size: 12,

    symbol: 'circle',

    line: {

    color: 'rgb(204, 204, 204)',

    width: 1},

    opacity: 0.8},

type: 'scatter3d'};

var Daten = [Trace1 / , Trace2 / ]; var layout = { /* Titel: {

    text: 'Estimated probabilities of authorship from Burrows Delta algorithm calculated using Python library faststylometry',

    font: {

        family: 'PT Sans',

        size: 20

},

    //xref: 'paper',

    //x: 0.05,

    }, */

Marge: {

l: 0,

r: 0,

b: 0,

t: 0

}

}; Plotly.newPlot(‘myDiv’, Daten, Layout);

/* // beginne mit dem Schweben var meinPlot = document.getElementById(‘meinDiv’);

myPlot.on(‘plotly_hover’, Funktion (Ereignisdaten){

var points = eventdata.points[0],

    pointNum = points.pointNumber;

console.log(pointNum);

Plotly.Fx.hover('myDiv',[

    { curveNumber:0, pointNumber:414 },

  //  { curveNumber:1, pointNumber:pointNum },

   // { curveNumber:2, pointNumber:pointNum },

]);

}); */

});

Wörter mit ähnlicher Bedeutung und Verwendung liegen nah beieinander. Wörter sind farblich in Clustern kodiert, die Gruppen wie Krankheiten (Cluster 3), Verben (Cluster 1, 6 und 8) usw. entsprechen. Wenn Sie mit der Maus über ein Wort fahren, können Sie die Clusternummer des Wortes und die nächsten Nachbarn des Wortes sehen. Die nächsten Nachbarn eines Wortes sind in der Regel Wörter mit ähnlicher Bedeutung oder Funktion, wie z. B. Synonyme.

Dies ist eine Demonstration, wie die Verarbeitung natürlicher Sprache genutzt werden kann, um in einem völlig neuen Satz von Textdokumenten Synonyme und gemeinsame Themen zu finden, und zwar völlig unbeaufsichtigt.

Die Wortvektoren wurden mithilfe von Wort-Embeddings auf der Google Cloud Platform in 128 Dimensionen berechnet und mithilfe von t-SNE auf drei Dimensionen reduziert. Die Wörter wurden mithilfe des k-Means-Clusteralgorithmus 15 Clustern zugeordnet.

Fast Data Science - London

Need natural language processing?

Fast Data Science ist ein führendes Unternehmen im Bereich der Verarbeitung natürlicher Sprache – nehmen Sie Kontakt für eine NLP-Beratungssitzung auf.

NLP und unstrukturierte Daten

Heutzutage verfügen viele Unternehmen, insbesondere in bestimmten Branchen wie dem Gesundheitswesen , der Pharmaindustrie , dem Rechtswesen und dem Versicherungswesen, über große Mengen unstrukturierter Daten . Dabei handelt es sich in der Regel um Daten im Textformat, bei denen es sich auch um ungescannte Dokumente, PDFs, HTML oder andere Dateitypen handeln kann.

Unstrukturierte Daten sind sehr schwierig zu verarbeiten, können aber eine wahre Goldgrube an Informationen sein. Fast Data Science ist darauf spezialisiert , aus den unstrukturierten Datensätzen von Organisationen wertvolle Informationen zu extrahieren .

Was ist NLP? Lesen Sie mehr in unserem Blogbeitrag zu NLP.

Anwendungen der natürlichen Sprachverarbeitung im Gesundheitswesen

KI und natürliche Sprachverarbeitung werden im gesamten Gesundheitssektor zunehmend eingesetzt. Diese Technologie wird manchmal als Healthtech oder MedTech bezeichnet. NLP wird verwendet, um klinische Berichte zu vergleichen und Änderungen darin zu erkennen, klinische Konzepte wie MeSH-Begriffe aus elektronischen Krankenakten zu extrahieren und Mensch-Maschine-Dialogsysteme in natürlicher Sprache zu entwickeln, um die Gesundheitsversorgung zu verbessern.

Wir haben an einer Reihe von Projekten im Gesundheitswesen gearbeitet, darunter:

Ein Modell zur Vorhersage der Komplexität klinischer Studien anhand des Studienprotokolls für Boehringer Ingelheim .
eine Desktopanwendung zur Analyse der Ergebnisse, Fachgebiete, Kooperationen und Zugehörigkeiten von Forschern mithilfe exportierter PubMed- Suchergebnisse.
ein Modell zur Identifizierung von Forschern , die in ihrer veröffentlichten Forschung Open-Source-Moleküle ohne Angabe der Quelle verwendet haben, auch für Boehringer Ingelheim .

Technologien zur Verarbeitung natürlicher Sprache bei Fast Data Science

Wir arbeiten viel mit Python im Bereich der natürlichen Sprachverarbeitung. Wir haben an einer Vielzahl von NLP-Modellen gearbeitet, darunter:

Bag of Words, tf*idf, Kosinus-Ähnlichkeit
NLP-Pipelines , Lemmatisierung, Parser, Chunker
Tiefe neuronale Netzwerke

*   [convolutional neural networks (CNNs)](/ai-for-business/building-a-face-recogniser/) (text as well as images)

*   RNN, LSTM, Transformer models, LLMs (large language models)

*   Seq2seq, [word2vec](/natural-language-processing/finding-similar-documents-nlp/), doc2vec

*   [see a live demo of a CNN for author identification](/forensic-stylometry-linguistics-authorship-analysis-demo/)

Mehrsprachige Verarbeitung natürlicher Sprache , einschließlich NLP für unterversorgte Sprachen
Clustering: Latent Dirichlet Allocation und andere unüberwachte Lerntechniken

*   This is useful for extracting topics from a set of unstructured documents, for example [legal documents](/legal-ai/impact-ai-law-legal-industry/), survey responses, [factory error reports](/boehringer-ingelheim-nlp-clustering-factory-error-reports/), etc.

Suchmaschinen und Suchbegriff-Empfehlungen
Forensische Stilometrie oderIdentifizierung des Autors eines Dokuments und Erkennung von Fake News
Stimmungsanalyse

Die Themenerkennung ist eine NLP-Technik, mit der Sie gemeinsame Themen in einer Reihe unstrukturierter Dokumente entdecken können.

Natürliche Sprachverarbeitung in Python und R

Wir arbeiten mit den Frameworks und Sprachen, die den Anforderungen des Kunden entsprechen, zum Beispiel

Google Colab
OpenAI API einschließlich GPT-3.5, GPT-4 usw.
Umarmendes Gesicht
TensorFlow
Keras
Python NLTK
R
Google Natural Language, AWS, Microsoft Azure und andere APIs von Drittanbietern zur Verarbeitung natürlicher Sprache

Beispiele für frühere Projekte zur Verarbeitung natürlicher Sprache

Zu den NLP-Projekten, an denen wir für große bekannte Namen gearbeitet haben, gehören

ein Sprachdialogsystem zur Steuerung eines Smart Homes
ein unüberwachtes Textanalyseprogramm zur Analyse von Textbeschreibungen von Herstellungsfehlern für Boehringer Ingelheim
ein Modell zur Klassifizierung der Lebensläufe von Arbeitssuchenden nach Branchen und Gehaltsgruppen für die CV-Library .
Analyse der Umfrageantworten für die White Ribbon Alliance

Kontaktieren Sie uns noch heute, um einen NLP-Datenwissenschaftler einzustellen!

Weitere Informationen zur Verarbeitung natürlicher Sprache

So können Sie den Autor eines Dokuments identifizieren - eine Einführung in die forensische Stilometrie
Wofür wird NLP verwendet? – Warum brauchen wir NLP überhaupt?
Möglichkeiten und Anwendungsfälle der natürlichen Sprachverarbeitung
Berater für natürliche Sprachverarbeitung – haben Sie sich jemals gefragt, was ein NLP-Berater macht?
Was ist natürliche Sprachverarbeitung? – eine Einführung in NLP, von der Geschichte von NLP über seine Funktionsweise bis hin zu Beispielen aus der Industrie.
Spezialist für natürliche Sprachverarbeitung