NLP-Forscher

NLP-Forscher erklärt:

Die Verarbeitung natürlicher Sprache ist ein Teilgebiet der Linguistik und liegt an der Schnittstelle zwischen Informatik, künstlicher Intelligenz und Ingenieurwissenschaften. NLP ist seit den 1950er Jahren ein aktives Forschungsgebiet. 1950 veröffentlichte Alan Turing einen Artikel mit dem Titel „Computing Machinery and Intelligence“, in dem er den heute als Turing-Test bezeichneten Test als Kriterium für Intelligenz vorschlug, eine Aufgabe, die die automatische Interpretation und Generierung natürlicher Sprache beinhaltet (z. B. „Wir suchen in der Datenbank“). Zu dieser Zeit wurde NLP noch nicht als eigenes Forschungsgebiet innerhalb oder getrennt von künstlicher Intelligenz angesehen.

Forschung zur natürlichen Sprachverarbeitung

Unser Hauptforschungsschwerpunkt ist die Verarbeitung natürlicher Sprache (NLP). Der Manager, Thomas Wood, machte 2008 an der Universität Cambridge einen Master in Computersprache, Text- und Internettechnologie und führte sein NLP-Forschungsprojekt zu pleonastischen Pronomen durch. Seitdem arbeitet er ausschließlich im Bereich maschinelles Lernen und hauptsächlich NLP. 2018 gründete er Fast Data Science, um Datenwissenschaftsberatung und -forschung mit Schwerpunkt NLP anzubieten. Wir haben NLP-Pipelines von Grund auf neu aufgebaut und an Dialogsystemen für natürliche Sprache , Dokumentklassifizierern und textbasierten Empfehlungssystemen gearbeitet. Für diese Aufgaben haben wir sowohl traditionelle Techniken des maschinellen Lernens als auch modernste Technologien wie neuronale Netzwerke verwendet. Für unsere NLP-Forschung verwenden wir normalerweise Python .

Forschungsbereiche innerhalb von NLP

Beispiele für Forschungsbereiche zur natürlichen Sprachverarbeitung sind:

Natürliches Sprachverständnis
Natürlichsprachliche Dialogsysteme
Textanalyse
Themenanalyse – Clustering
Dokumentenklassifizierung
Dokumentbasierte Empfehlungssysteme
Unstrukturierte Datenanalyse
Anonymisierung von Dokumenten

Fast Data Science - London

Need a business solution?

Führend in den Bereichen NLP, ML und Data Science seit 2016 – kontaktieren Sie uns für eine NLP-Beratungssitzung.

NLP und unstrukturierte Daten

Heutzutage verfügen viele Unternehmen, insbesondere in bestimmten Branchen wie dem Gesundheitswesen, der Pharmaindustrie, dem Rechtswesen und dem Versicherungswesen, über große Mengen unstrukturierter Daten. Dabei handelt es sich in der Regel um Daten im Textformat, bei denen es sich sogar um ungescannte Dokumente, PDFs, HTML oder andere Dateitypen handeln kann.

Unstrukturierte Daten sind sehr schwierig zu handhaben, können aber eine wahre Goldgrube an Informationen sein. Fast Data Science ist darauf spezialisiert, aus den unstrukturierten Datensätzen von Organisationen Wert zu extrahieren. Wenn Sie in Ihrer Organisation über einen großen Dokumentenbestand verfügen, sollten Sie die Beauftragung eines Unternehmens mit NLP-Forschern wie Fast Data Science in Erwägung ziehen.

Anwendungen der natürlichen Sprachverarbeitung im Gesundheitswesen

KI und natürliche Sprachverarbeitung werden im gesamten Gesundheitssektor zunehmend eingesetzt.

Healthtech und MedTech sind wichtige Bereiche der NLP-Forschung. NLP-Forscher verwenden NLP, um klinische Berichte zu vergleichen und Änderungen darin zu erkennen, klinische Konzepte wie MeSH-Begriffe aus elektronischen Krankenakten zu extrahieren und Mensch-Maschine-Dialogsysteme in natürlicher Sprache zu entwickeln, um die medizinische Versorgung zu verbessern. Diese Durchbrüche in der NLP-Forschung beginnen, den Sektor zu beeinflussen.

Wir haben an einer Reihe von NLP-Forschungsprojekten im Gesundheitswesen gearbeitet, darunter:

Ein Modell zur Vorhersage der Komplexität klinischer Studien anhand des Studienprotokolls für Boehringer Ingelheim .
eine Desktopanwendung zur Analyse der Ergebnisse, Fachgebiete, Kooperationen und Zugehörigkeiten von Forschern mithilfe exportierter PubMed- Suchergebnisse.
ein Modell zur Identifizierung von Forschern , die in ihrer veröffentlichten Forschung Open-Source-Moleküle ohne Angabe der Quelle verwendet haben, auch für Boehringer Ingelheim .

Forschung zur natürlichen Sprachverarbeitung bei Fast Data Science

Wir führen viele natürliche Sprachverarbeitungsarbeiten mit Python durch. Wir haben in unserer Forschung viele NLP-Modelle und -Architekturen verwendet, darunter:

Bag of Words, tf*idf, Kosinus-Ähnlichkeit
NLP-Pipelines, Lemmatisierung, Parser, Chunker
Tiefe neuronale Netzwerke

*   convolutional neural networks (text as well as images)

*   RNN, LSTM

*   Seq2seq, word2vec, doc2vec

*   [see a live demo of a CNN for author identification](/forensic-stylometry-linguistics-authorship-analysis-demo/)

Clustering: Latente Dirichlet-Allokation

*   This is useful for extracting topics from a set of unstructured documents, for example legal documents, survey responses, factory error reports, etc.

Suchmaschinen und Suchbegriff-Empfehlungen
Google Natural Language, AWS, Microsoft Azure

Natürliche Sprachverarbeitung in Python und R

Wir arbeiten mit folgenden Programmiersprachen und Frameworks:

TensorFlow
Keras
Python NLTK
R

Beispiele für frühere Projekte zur Verarbeitung natürlicher Sprache

Zu den NLP-Projekten, an denen wir für große bekannte Namen gearbeitet haben, gehören

ein Sprachdialogsystem zur Steuerung eines Smart Homes
ein unüberwachtes Textanalyseprogramm zur Analyse von Textbeschreibungen von Herstellungsfehlern ( Boehringer Ingelheim )
ein Modell zur Klassifizierung der Lebensläufe von Arbeitssuchenden nach Branchen und Gehaltsgruppen ( CV-Library ).
Analyse der Umfrageantworten ( White Ribbon Alliance )