Verarbeitung natürlicher Sprache

Natürliche Sprachverarbeitung und Textanalyse

12-Fastdatascience-Blog-Natural-Language-Processing

Unser Hauptaugenmerk liegt auf der Verarbeitung natürlicher Sprache (NLP). Der Manager, Thomas Wood, hat 2008 an der Universität Cambridge einen Master in Computersprache, Text und Internettechnologie gemacht und arbeitet seitdem ausschließlich im Bereich maschinelles Lernen und hauptsächlich in NLP . 2018 gründete er Fast Data Science , um Data-Science-Beratung mit Schwerpunkt auf NLP anzubieten.

Wir haben NLP-Pipelines von Grund auf neu erstellt und an Dialogsystemen in natürlicher Sprache , Dokumentklassifizierern und textbasierten Empfehlungssystemen gearbeitet. Für diese Aufgaben haben wir sowohl traditionelle Techniken des maschinellen Lernens als auch modernste Techniken wie neuronale Netzwerke verwendet. Normalerweise verwenden wir Python für unsere NLP-Arbeit.

NLP-Beispiele


Zu den Anwendungsbeispielen für die Verarbeitung natürlicher Sprache gehören:

Die Leistungsfähigkeit von NLP (interaktives Word2Vec-Diagramm)

Unten sehen Sie eine Darstellung einiger Fachbegriffe, die in einem Datensatz mit Dokumenten zu klinischen Studien im 3D-Raum verwendet werden.

d3.csv(‘https://raw.githubusercontent.com/fastdatascience/logos/master/data/tsne.csv', // ‘https://raw.githubusercontent.com/plotly/datasets/master/3d-scatter.csv', Funktion(err, Zeilen){ Funktion auspacken(Zeilen, Schlüssel) {

return rows.map(function(row)

{ return row[key]; });}

var labels = unpack(rows, 'label');

var neighbour1 = unpack(rows, 'neighbour1');

var neighbour2 = unpack(rows, 'neighbour2');

var neighbour3 = unpack(rows, 'neighbour3');

var neighbour4 = unpack(rows, 'neighbour4');

var neighbour5 = unpack(rows, 'neighbour5');

var clusters = unpack(rows, 'category');

var colourMap = ['#22577a', '#38a3a5', '#57cc99', '#80ed99', '#c7f9cc',

'#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd', '#8c564b', '#e377c2', '#7f7f7f', '#bcbd22', '#17becf'];

var pointColours = clusters.map(function (i) { return colourMap[i] } );

var complete_labels = labels.map(function (label, idx) {

    return label + ".<br>Nearest neighbours: " + neighbour1[idx] + ", "  + neighbour2[idx] + ", " + neighbour3[idx] + ", " + neighbour4[idx] + ", " + neighbour5[idx] + ".<br>Cluster: " + clusters[idx];

    });

var trace1 = {

x:unpack(rows, 'x1'), y: unpack(rows, 'y1'), z: unpack(rows, 'z1'), text: complete_labels,

mode: 'markers',

marker: {

           color: pointColours, // 'rgb(34, 87, 122)',

    size: 5,

    line: {

    color: '#000000',

    width: 0.5},

    opacity: 0.8},

type: 'scatter3d'

};

/* var trace2 = {

x:unpack(rows, 'x2'), y: unpack(rows, 'y2'), z: unpack(rows, 'z2'),

mode: 'markers',

marker: {

    color: 'rgb(127, 127, 127)',

    size: 12,

    symbol: 'circle',

    line: {

    color: 'rgb(204, 204, 204)',

    width: 1},

    opacity: 0.8},

type: 'scatter3d'};

*/

var Daten = [Trace1 / , Trace2 / ]; var layout = { /* Titel: {

    text: 'Estimated probabilities of authorship from Burrows Delta algorithm calculated using Python library faststylometry',

    font: {

        family: 'PT Sans',

        size: 20

    },

    //xref: 'paper',

    //x: 0.05,

    }, */

Marge: {

l: 0,

r: 0,

b: 0,

t: 0

}

}; Plotly.newPlot(‘myDiv’, Daten, Layout);

/* // beginne mit dem Schweben var meinPlot = document.getElementById(‘meinDiv’);

myPlot.on(‘plotly_hover’, Funktion (Ereignisdaten){

var points = eventdata.points[0],

    pointNum = points.pointNumber;

console.log(pointNum);

Plotly.Fx.hover('myDiv',[

    { curveNumber:0, pointNumber:414 },

  //  { curveNumber:1, pointNumber:pointNum },

   // { curveNumber:2, pointNumber:pointNum },

]);

}); */

});

Wörter mit ähnlicher Bedeutung und Verwendung liegen nah beieinander. Wörter sind farblich in Clustern kodiert, die Gruppen wie Krankheiten (Cluster 3), Verben (Cluster 1, 6 und 8) usw. entsprechen. Wenn Sie mit der Maus über ein Wort fahren, können Sie die Clusternummer des Wortes und die nächsten Nachbarn des Wortes sehen. Die nächsten Nachbarn eines Wortes sind in der Regel Wörter mit ähnlicher Bedeutung oder Funktion, wie z. B. Synonyme.

Dies ist eine Demonstration, wie die Verarbeitung natürlicher Sprache genutzt werden kann, um in einem völlig neuen Satz von Textdokumenten Synonyme und gemeinsame Themen zu finden, und zwar völlig unbeaufsichtigt.

Die Wortvektoren wurden mithilfe von Wort-Embeddings auf der Google Cloud Platform in 128 Dimensionen berechnet und mithilfe von t-SNE auf drei Dimensionen reduziert. Die Wörter wurden mithilfe des k-Means-Clusteralgorithmus 15 Clustern zugeordnet.

Fast Data Science - London

Need natural language processing?

Fast Data Science ist ein führendes Unternehmen im Bereich der Verarbeitung natürlicher Sprache – nehmen Sie Kontakt für eine NLP-Beratungssitzung auf.

NLP und unstrukturierte Daten

Heutzutage verfügen viele Unternehmen, insbesondere in bestimmten Branchen wie dem Gesundheitswesen , der Pharmaindustrie , dem Rechtswesen und dem Versicherungswesen, über große Mengen unstrukturierter Daten . Dabei handelt es sich in der Regel um Daten im Textformat, bei denen es sich auch um ungescannte Dokumente, PDFs, HTML oder andere Dateitypen handeln kann.

Unstrukturierte Daten sind sehr schwierig zu verarbeiten, können aber eine wahre Goldgrube an Informationen sein. Fast Data Science ist darauf spezialisiert , aus den unstrukturierten Datensätzen von Organisationen wertvolle Informationen zu extrahieren .

Was ist NLP? Lesen Sie mehr in unserem Blogbeitrag zu NLP.

Anwendungen der natürlichen Sprachverarbeitung im Gesundheitswesen

Natural Language Processing applications in healthcare Natural Language Processing applications in healthcare

KI und natürliche Sprachverarbeitung werden im gesamten Gesundheitssektor zunehmend eingesetzt. Diese Technologie wird manchmal als Healthtech oder MedTech bezeichnet. NLP wird verwendet, um klinische Berichte zu vergleichen und Änderungen darin zu erkennen, klinische Konzepte wie MeSH-Begriffe aus elektronischen Krankenakten zu extrahieren und Mensch-Maschine-Dialogsysteme in natürlicher Sprache zu entwickeln, um die Gesundheitsversorgung zu verbessern.

Wir haben an einer Reihe von Projekten im Gesundheitswesen gearbeitet, darunter:

Technologien zur Verarbeitung natürlicher Sprache bei Fast Data Science

Wir arbeiten viel mit Python im Bereich der natürlichen Sprachverarbeitung. Wir haben an einer Vielzahl von NLP-Modellen gearbeitet, darunter:

*   [convolutional neural networks (CNNs)](/ai-for-business/building-a-face-recogniser/) (text as well as images)

*   RNN, LSTM, Transformer models, LLMs (large language models)

*   Seq2seq, [word2vec](/natural-language-processing/finding-similar-documents-nlp/), doc2vec

*   [see a live demo of a CNN for author identification](/forensic-stylometry-linguistics-authorship-analysis-demo/)

*   This is useful for extracting topics from a set of unstructured documents, for example [legal documents](/legal-ai/impact-ai-law-legal-industry/), survey responses, [factory error reports](/boehringer-ingelheim-nlp-clustering-factory-error-reports/), etc.

Natural Language Processing word cloud

Die Themenerkennung ist eine NLP-Technik, mit der Sie gemeinsame Themen in einer Reihe unstrukturierter Dokumente entdecken können.

Natürliche Sprachverarbeitung in Python und R


Wir arbeiten mit den Frameworks und Sprachen, die den Anforderungen des Kunden entsprechen, zum Beispiel

Beispiele für frühere Projekte zur Verarbeitung natürlicher Sprache


Zu den NLP-Projekten, an denen wir für große bekannte Namen gearbeitet haben, gehören

  • ein Sprachdialogsystem zur Steuerung eines Smart Homes
  • ein unüberwachtes Textanalyseprogramm zur Analyse von Textbeschreibungen von Herstellungsfehlern für Boehringer Ingelheim
  • ein Modell zur Klassifizierung der Lebensläufe von Arbeitssuchenden nach Branchen und Gehaltsgruppen für die CV-Library .
  • Analyse der Umfrageantworten für die White Ribbon Alliance

Kontaktieren Sie uns noch heute, um einen NLP-Datenwissenschaftler einzustellen!

Weitere Informationen zur Verarbeitung natürlicher Sprache

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us