NLP-Forscher

NLP-Forscher erklärt:

Die Verarbeitung natürlicher Sprache ist ein Teilgebiet der Linguistik und steht an der Schnittstelle von Informatik, künstlicher Intelligenz und Ingenieurwissenschaften. NLP ist seit den 1950er Jahren ein aktives Forschungsgebiet. Im Jahr 1950 veröffentlichte Alan Turing einen Artikel mit dem Titel „Computing Machinery and Intelligence“, in dem er den sogenannten Turing-Test als Intelligenzkriterium vorschlug, eine Aufgabe, die die automatisierte Interpretation und Generierung natürlicher Sprache beinhaltet (z. B. „Wir suchen in die Datenbank"). Zu diesem Zeitpunkt wurde NLP noch nicht als eigenständiges Forschungsgebiet innerhalb oder getrennt von der künstlichen Intelligenz angesehen.

NLP consultant

Forschung zur Verarbeitung natürlicher Sprache

Unser Hauptforschungsschwerpunkt ist die Forschung zur Verarbeitung natürlicher Sprache (NLP). Der Manager, Thomas Wood, absolvierte 2008 einen Master in Computersprache, Text und Internettechnologie an der Universität Cambridge und führte sein NLP-Forschungsprojekt zu pleonastischen Pronomen durch. Seitdem beschäftigt er sich ausschließlich mit maschinellem Lernen und hauptsächlich mit NLP. Im Jahr 2018 gründete er Fast Data Science, um datenwissenschaftliche Beratung und Forschung mit Schwerpunkt auf NLP anzubieten. Wir haben NLP-Pipelines von Grund auf aufgebaut und an Dialogsystemen in natürlicher Sprache , Dokumentenklassifikatoren und textbasierten Empfehlungssystemen gearbeitet. Für diese Aufgaben haben wir sowohl traditionelle Techniken des maschinellen Lernens als auch modernste Techniken wie neuronale Netze eingesetzt. Normalerweise verwenden wir Python für unsere NLP-Forschung.

Forschungsbereiche innerhalb von NLP

Beispiele für Forschungsbereiche zur Verarbeitung natürlicher Sprache sind:

  • Verständnis natürlicher Sprache
  • Dialogsysteme in natürlicher Sprache
  • Textanalyse
  • Themenanalyse – Clustering
  • Dokumentenklassifizierung
  • Dokumentbasierte Empfehlungssysteme
  • Unstrukturierte Datenanalyse
  • Anonymisierung von Dokumenten

Fast Data Science - London

Need a business solution?

Seit 2016 führend in den Bereichen NLP, ML und Data Science – kontaktieren Sie uns für eine NLP-Beratungssitzung.

NLP und unstrukturierte Daten

Heutzutage verfügen viele Unternehmen, insbesondere in bestimmten Branchen wie dem Gesundheitswesen, der Pharmaindustrie, der Rechts- und Versicherungsbranche, über große Mengen unstrukturierter Daten. Hierbei handelt es sich typischerweise um Daten im Textformat, bei denen es sich auch um nicht gescannte Dokumente, PDFs, HTML oder andere Dateitypen handeln kann.

Unstrukturierte Daten sind sehr schwer zu handhaben, können aber eine Goldgrube an Informationen enthalten. Fast Data Science ist darauf spezialisiert, Mehrwert aus den unstrukturierten Datensätzen von Unternehmen zu ziehen. Wenn Ihre Organisation über einen großen Dokumentensatz verfügt, sollten Sie die Beauftragung eines NLP-Forscherunternehmens wie Fast Data Science in Betracht ziehen.

Anwendungen der Verarbeitung natürlicher Sprache im Gesundheitswesen

Natural Language Processing applications in healthcare Natural Language Processing applications in healthcare

KI und die Verarbeitung natürlicher Sprache werden im Gesundheitswesen zunehmend eingesetzt.

Healthtech und MedTech sind heiße Bereiche der NLP-Forschung. NLP-Forscher nutzen NLP, um Änderungen in klinischen Berichten zu vergleichen und zu erkennen, klinische Konzepte wie MeSH-Begriffe aus elektronischen Krankenakten zu extrahieren und Dialogsysteme zwischen Mensch und Maschine in natürlicher Sprache zu entwickeln, um das Gesundheitserlebnis zu verbessern. Diese Durchbrüche in der NLP-Forschung beginnen sich auf die Branche auszuwirken.

Wir haben an einer Reihe von NLP-Forschungsprojekten im Gesundheitswesen gearbeitet, darunter:

Forschung zur Verarbeitung natürlicher Sprache bei Fast Data Science

Wir verarbeiten viel natürliche Sprache mit Python. Wir haben in unserer Forschung viele NLP-Modelle und -Architekturen verwendet, darunter:

  • Beutel mit Wörtern, tf*idf, Kosinusähnlichkeit
  • NLP-Pipelines, Lemmatisierung, Parser, Chunker
  • Tiefe neuronale Netze
*   convolutional neural networks (text as well as images)

*   RNN, LSTM

*   Seq2seq, word2vec, doc2vec

*   [see a live demo of a CNN for author identification](http://fastdatascience.com/author-prediction-demo/)

  • Clustering: Latente Dirichlet-Zuordnung
*   This is useful for extracting topics from a set of unstructured documents, for example legal documents, survey responses, factory error reports, etc.

  • Suchmaschinen und Suchbegriff-Empfehler
  • Google Natural Language, AWS, Microsoft Azure
Topic detection is an NLP technique that allows you to discover common themes in a set of unstructured documents.

Verarbeitung natürlicher Sprache in Python und R

Wir arbeiten mit folgenden Programmiersprachen und Frameworks:

  • TensorFlow
  • Keras
  • Python NLTK
  • R

Beispiele vergangener Natural Language Processing-Projekte

Zu den NLP-Projekten, an denen wir für große bekannte Namen gearbeitet haben, gehören:

  • ein gesprochenes Dialogsystem zur Steuerung eines Smart Homes
  • ein unbeaufsichtigtes Textanalyseprogramm zur Analyse von Textbeschreibungen von Herstellungsfehlern ( Boehringer Ingelheim )
  • ein Modell zur Klassifizierung der Lebensläufe von Arbeitssuchenden nach Branchen und Gehaltsgruppen ( CV-Bibliothek ).
  • Analyse der Umfrageantworten ( White Ribbon Alliance )

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us