Unser Hauptaugenmerk liegt auf der Verarbeitung natürlicher Sprache (NLP). Der Manager, Thomas Wood, hat 2008 an der Universität Cambridge einen Master in Computersprache, Text und Internettechnologie gemacht und arbeitet seitdem ausschließlich im Bereich maschinelles Lernen und hauptsächlich in NLP . 2018 gründete er Fast Data Science , um Data-Science-Beratung mit Schwerpunkt auf NLP anzubieten.
Wir haben NLP-Pipelines von Grund auf neu erstellt und an Dialogsystemen in natürlicher Sprache , Dokumentklassifizierern und textbasierten Empfehlungssystemen gearbeitet. Für diese Aufgaben haben wir sowohl traditionelle Techniken des maschinellen Lernens als auch modernste Techniken wie neuronale Netzwerke verwendet. Normalerweise verwenden wir Python für unsere NLP-Arbeit.
Zu den Anwendungsbeispielen für die Verarbeitung natürlicher Sprache gehören:
Unten sehen Sie eine Darstellung einiger Fachbegriffe, die in einem Datensatz mit Dokumenten zu klinischen Studien im 3D-Raum verwendet werden.
d3.csv(‘https://raw.githubusercontent.com/fastdatascience/logos/master/data/tsne.csv', // ‘https://raw.githubusercontent.com/plotly/datasets/master/3d-scatter.csv', Funktion(err, Zeilen){ Funktion auspacken(Zeilen, Schlüssel) {
return rows.map(function(row)
{ return row[key]; });}
var labels = unpack(rows, 'label');
var neighbour1 = unpack(rows, 'neighbour1');
var neighbour2 = unpack(rows, 'neighbour2');
var neighbour3 = unpack(rows, 'neighbour3');
var neighbour4 = unpack(rows, 'neighbour4');
var neighbour5 = unpack(rows, 'neighbour5');
var clusters = unpack(rows, 'category');
var colourMap = ['#22577a', '#38a3a5', '#57cc99', '#80ed99', '#c7f9cc',
'#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd', '#8c564b', '#e377c2', '#7f7f7f', '#bcbd22', '#17becf'];
var pointColours = clusters.map(function (i) { return colourMap[i] } );
var complete_labels = labels.map(function (label, idx) {
return label + ".<br>Nearest neighbours: " + neighbour1[idx] + ", " + neighbour2[idx] + ", " + neighbour3[idx] + ", " + neighbour4[idx] + ", " + neighbour5[idx] + ".<br>Cluster: " + clusters[idx];
});
var trace1 = {
x:unpack(rows, 'x1'), y: unpack(rows, 'y1'), z: unpack(rows, 'z1'), text: complete_labels,
mode: 'markers',
marker: {
color: pointColours, // 'rgb(34, 87, 122)',
size: 5,
line: {
color: '#000000',
width: 0.5},
opacity: 0.8},
type: 'scatter3d'
};
/* var trace2 = {
x:unpack(rows, 'x2'), y: unpack(rows, 'y2'), z: unpack(rows, 'z2'),
mode: 'markers',
marker: {
color: 'rgb(127, 127, 127)',
size: 12,
symbol: 'circle',
line: {
color: 'rgb(204, 204, 204)',
width: 1},
opacity: 0.8},
type: 'scatter3d'};
*/
var Daten = [Trace1 / , Trace2 / ]; var layout = { /* Titel: {
text: 'Estimated probabilities of authorship from Burrows Delta algorithm calculated using Python library faststylometry',
font: {
family: 'PT Sans',
size: 20
},
//xref: 'paper',
//x: 0.05,
}, */
Marge: {
l: 0,
r: 0,
b: 0,
t: 0
}
}; Plotly.newPlot(‘myDiv’, Daten, Layout);
/* // beginne mit dem Schweben var meinPlot = document.getElementById(‘meinDiv’);
myPlot.on(‘plotly_hover’, Funktion (Ereignisdaten){
var points = eventdata.points[0],
pointNum = points.pointNumber;
console.log(pointNum);
Plotly.Fx.hover('myDiv',[
{ curveNumber:0, pointNumber:414 },
// { curveNumber:1, pointNumber:pointNum },
// { curveNumber:2, pointNumber:pointNum },
]);
}); */
});
Wörter mit ähnlicher Bedeutung und Verwendung liegen nah beieinander. Wörter sind farblich in Clustern kodiert, die Gruppen wie Krankheiten (Cluster 3), Verben (Cluster 1, 6 und 8) usw. entsprechen. Wenn Sie mit der Maus über ein Wort fahren, können Sie die Clusternummer des Wortes und die nächsten Nachbarn des Wortes sehen. Die nächsten Nachbarn eines Wortes sind in der Regel Wörter mit ähnlicher Bedeutung oder Funktion, wie z. B. Synonyme.
Dies ist eine Demonstration, wie die Verarbeitung natürlicher Sprache genutzt werden kann, um in einem völlig neuen Satz von Textdokumenten Synonyme und gemeinsame Themen zu finden, und zwar völlig unbeaufsichtigt.
Die Wortvektoren wurden mithilfe von Wort-Embeddings auf der Google Cloud Platform in 128 Dimensionen berechnet und mithilfe von t-SNE auf drei Dimensionen reduziert. Die Wörter wurden mithilfe des k-Means-Clusteralgorithmus 15 Clustern zugeordnet.
Fast Data Science - London
Heutzutage verfügen viele Unternehmen, insbesondere in bestimmten Branchen wie dem Gesundheitswesen , der Pharmaindustrie , dem Rechtswesen und dem Versicherungswesen, über große Mengen unstrukturierter Daten . Dabei handelt es sich in der Regel um Daten im Textformat, bei denen es sich auch um ungescannte Dokumente, PDFs, HTML oder andere Dateitypen handeln kann.
Unstrukturierte Daten sind sehr schwierig zu verarbeiten, können aber eine wahre Goldgrube an Informationen sein. Fast Data Science ist darauf spezialisiert , aus den unstrukturierten Datensätzen von Organisationen wertvolle Informationen zu extrahieren .
Was ist NLP? Lesen Sie mehr in unserem Blogbeitrag zu NLP.
KI und natürliche Sprachverarbeitung werden im gesamten Gesundheitssektor zunehmend eingesetzt. Diese Technologie wird manchmal als Healthtech oder MedTech bezeichnet. NLP wird verwendet, um klinische Berichte zu vergleichen und Änderungen darin zu erkennen, klinische Konzepte wie MeSH-Begriffe aus elektronischen Krankenakten zu extrahieren und Mensch-Maschine-Dialogsysteme in natürlicher Sprache zu entwickeln, um die Gesundheitsversorgung zu verbessern.
Wir haben an einer Reihe von Projekten im Gesundheitswesen gearbeitet, darunter:
Wir arbeiten viel mit Python im Bereich der natürlichen Sprachverarbeitung. Wir haben an einer Vielzahl von NLP-Modellen gearbeitet, darunter:
* [convolutional neural networks (CNNs)](/ai-for-business/building-a-face-recogniser/) (text as well as images)
* RNN, LSTM, Transformer models, LLMs (large language models)
* Seq2seq, [word2vec](/natural-language-processing/finding-similar-documents-nlp/), doc2vec
* [see a live demo of a CNN for author identification](/forensic-stylometry-linguistics-authorship-analysis-demo/)
* This is useful for extracting topics from a set of unstructured documents, for example [legal documents](/legal-ai/impact-ai-law-legal-industry/), survey responses, [factory error reports](/boehringer-ingelheim-nlp-clustering-factory-error-reports/), etc.
Die Themenerkennung ist eine NLP-Technik, mit der Sie gemeinsame Themen in einer Reihe unstrukturierter Dokumente entdecken können.
Wir arbeiten mit den Frameworks und Sprachen, die den Anforderungen des Kunden entsprechen, zum Beispiel
Zu den NLP-Projekten, an denen wir für große bekannte Namen gearbeitet haben, gehören
Kontaktieren Sie uns noch heute, um einen NLP-Datenwissenschaftler einzustellen!
What we can do for you