Verarbeitung natürlicher Sprache und Textanalyse

Unser Schwerpunkt ist Verarbeitung natürlicher Sprache (NLP). Der Manager, Thomas Wood, studierte 2008 einen Master an der Cambridge University in Computersprache, Text und Internettechnologie und seitdem arbeitet er ausschließlich im maschinellen Lernen und hauptsächlich im NLP. 2018 gründete er Fast Data Science, um datenwissenschaftliche Beratung mit Schwerpunkt auf NLP anzubieten.

Wir haben NLP-Pipelines von Grund auf neu gebaut und daran gearbeitet Natürlichsprachliche Dialogsysteme, Dokumentklassifikatoren und textbasierte Empfehlungssysteme. Für diese Aufgaben haben wir sowohl traditionelle maschinelle Lerntechniken als auch den Stand der Technik wie neuronale Netze verwendet. Wir verwenden normalerweise Python für unsere NLP-Arbeit.

NLP-Beispiele

Beispiele für Anwendungen der Verarbeitung natürlicher Sprache sind:

  • Natürliches Sprachverständnis
  • Natürlichsprachliche Dialogsysteme
  • Textanalyse
  • Themenanalyse – Clustering
  • Dokumentenklassifizierung
  • Dokumentenbasierte Empfehlungssysteme
  • Unstrukturierte Datenanalyse
  • Anonymisierung von Dokumenten

Die Kraft von NLP (interaktiver word2vec-Graph)

Unten sehen Sie eine Darstellung einiger Fachbegriffe, die in einem Datensatz von verwendet werden klinische Versuchsunterlagen im 3D-Raum.

Wörter mit ähnlicher Bedeutung und Verwendung stehen nah beieinander. Wörter sind in Clustern farbcodiert, die Gruppen wie Krankheiten (Cluster 3), Verben (Cluster 1, 6 und 8) usw. entsprechen. Wenn Sie die Maus über ein Wort bewegen, können Sie die Clusternummer dieses Wortes sehen und die Wort nächsten Nachbarn. Die nächsten Nachbarn eines Wortes sind in der Regel Wörter mit ähnlicher Bedeutung oder Funktion, wie z. B. Synonyme.

Dies ist eine Demonstration, wie die Verarbeitung natürlicher Sprache verwendet werden kann, um Synonyme und gemeinsame Themen in einem völlig neuen Satz von Textdokumenten auf völlig unüberwachte Weise zu finden.

Die Wortvektoren wurden in 128 Dimensionen mit berechnet Wort2vec Algorithmus an Google Cloud-Plattform und mithilfe von auf drei Dimensionen reduziert t-SNE. Die Wörter wurden mithilfe von 15 Clustern zugeordnet k-bedeutet Clusterbildung Algorithmus.

NLP und unstrukturierte Daten

Heutzutage verfügen viele Unternehmen, insbesondere in bestimmten Branchen wie Gesundheitswesen, Pharma, Rechts- und Versicherungswesen, über große Mengen an unstrukturierten Daten. Dies sind typischerweise Daten im Textformat, bei denen es sich sogar um ungescannte Dokumente, PDFs, HTML oder andere Dateitypen handeln kann.

Unstrukturierte Daten sind sehr schwierig zu handhaben, können aber eine Goldgrube an Informationen enthalten. Fast Data Science ist darauf spezialisiert, Werte aus den unstrukturierten Datensätzen von Unternehmen zu extrahieren.

Anwendungen der Verarbeitung natürlicher Sprache im Gesundheitswesen

Natural Language Processing applications in healthcare Natural Language Processing applications in healthcare

KI und die Verarbeitung natürlicher Sprache werden zunehmend im gesamten Gesundheitssektor eingesetzt. Diese Technologie wird manchmal als Healthtech oder MedTech bezeichnet. NLP wird verwendet, um Änderungen in klinischen Berichten zu vergleichen und zu erkennen, klinische Konzepte wie MeSH-Begriffe aus elektronischen Krankenakten zu extrahieren und Mensch-Maschine-Dialogsysteme in natürlicher Sprache zu entwickeln, um die Erfahrung im Gesundheitswesen zu verbessern.

Wir haben an einer Reihe von Projekten im Gesundheitswesen gearbeitet, darunter:

Technologien zur Verarbeitung natürlicher Sprache bei Fast Data Science

Wir verarbeiten viel natürliche Sprache mit Python. Wir haben an einer Vielzahl von NLP-Modellen gearbeitet, darunter:

  • Beutel mit Wörtern, tf*idf, Kosinusähnlichkeit
  • NLP-Pipelines, Lemmatisierung, Parser, Chunker
  • Tiefe neuronale Netze
  • Clustering: Latente Dirichlet-Zuordnung
    • Dies ist nützlich, um Themen aus einer Reihe unstrukturierter Dokumente zu extrahieren, z. B. Rechtsdokumente, Umfrageantworten, Fabrikfehlerberichte usw.
  • Suchmaschinen und Suchbegriffsempfehlungen
  • Natürliche Sprache von Google, AWS, Microsoft Azure
Natural Language Processing word cloud
Die Themenerkennung ist eine NLP-Technik, mit der Sie gemeinsame Themen in einer Reihe unstrukturierter Dokumente entdecken können.

Verarbeitung natürlicher Sprache in Python und R

Wir arbeiten mit folgenden Programmiersprachen und Frameworks:

  • TensorFlow
  • Keras
  • Python-NLTK
  • R

Beispiele vergangener Projekte zur Verarbeitung natürlicher Sprache

Zu den NLP-Projekten, an denen wir für große bekannte Namen gearbeitet haben, gehören

  • ein Sprachdialogsystem zur Steuerung eines Smart Homes
  • ein unbeaufsichtigtes Textanalyseprogramm zur Analyse von Textbeschreibungen von Herstellungsfehlern (Boehringer Ingelheim)
  • ein Modell zur Klassifizierung der Lebensläufe von Arbeitssuchenden in Branchen und Gehaltsgruppen (CV-Bibliothek).
  • Analyse der Umfrageantworten (Allianz des Weißen Bandes)

Kontaktiere uns anstellen NLP-Datenwissenschaftler heute!