Open-Source-Tools für die Verarbeitung natürlicher Sprache

Open-Source-Tools für die Verarbeitung natürlicher Sprache

Open-Source-Projekte (MIT-Lizenz)

Wir haben an zwei externen Projekten teilgenommen, die Open-Source-Code und -Daten erstellt haben, die der Öffentlichkeit für den persönlichen und kommerziellen Gebrauch zur Verfügung stehen.

Harmonie

(Github-Repo) – Harmony ist ein Tool und Forschungsprojekt, das die Verarbeitung natürlicher Sprache nutzt, um Daten zur psychischen Gesundheit zu harmonisieren. Lesen Sie mehr unter https://harmonydata.ac.uk und probieren Sie die Demo unter https://harmonydata.ac.uk/app/ aus. Gefördert durch den Wellcome Trust und unter Einhaltung der MIT-Lizenz und der FAIR-Data-Grundsätze .

  • Wood, TA, McElroy, E., Moltrecht, B., Ploubidis, GB, Scopel Hoffmann, M., Harmony [Computersoftware], Version 1.0, abgerufen unter https://harmonydata.ac.uk/app. Universität Ulster (2022)
  • McElroy, E., Moltrecht, B., Scopel Hoffmann, M., Wood, TA, & Ploubidis, G. (2023, 6. Januar). Harmony – Eine globale Plattform für kontextuelle Harmonisierung, Übersetzung und Zusammenarbeit in der psychischen Gesundheitsforschung. Abgerufen von osf.io/bct6k

Risikotool für klinische Studien

(Github-Repo) – ein Tool, das die Verarbeitung natürlicher Sprache nutzt, um klinische Studienprotokolle (PDFs) in hohes, mittleres oder niedriges Risiko zu kategorisieren. Lesen Sie mehr unter https://clinicaltrialrisk.org/ und probieren Sie die Demo unter https://app.clinicaltrialrisk.org/ aus.

Clinical Trial Risk Tool
  • Wood TA und McNair D. Clinical Trial Risk Tool: Softwareanwendung, die die Verarbeitung natürlicher Sprache nutzt, um das Risiko mangelnder Aussagekraft von Studien zu ermitteln . Gates Open Res 2023, 7:56 doi: 10.12688/gatesopenres.14416.1 .

Fast Data Science - London

Need a business solution?

Seit 2016 führend in den Bereichen NLP, ML und Data Science – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Andere Open-Source-NLP-Bibliotheken

Zusätzlich zu den oben genannten extern finanzierten Projekten haben wir eine Reihe von Low-Level-Bibliotheken für spezifische Anwendungsfälle in der Verarbeitung natürlicher Sprache bereitgestellt.

Lokale Rechtschreibung

(Github-Repo) – eine Bibliothek zur Lokalisierung der Schreibweise zwischen US- und britischen Varianten. Installieren Sie über die Befehlszeile mit pip install localspelling

Anerkennung als länderspezifische Rechtspersönlichkeit

(Github-Repo) – eine leichtgewichtige Python-Bibliothek zum Erkennen von Ländernamen in unstrukturiertem Text und zum Zurückgeben von Pycountry-Objekten. Anleitung hier . Installieren Sie mit pip install country_named_entity_recognition

Anerkennung als „Drug Named Entity“.

(Github-Repo) – eine leichtgewichtige Python-Bibliothek zum Erkennen von Medikamentennamen in unstrukturiertem Text und zum Durchführen benannter Entitätsverknüpfungen mit DrugBank-IDs. Anleitung hier . Installieren Sie mit pip install drug-named-entity-recognition

Schnelle Stilometrie

(Github-Repo) – eine Python-Bibliothek für forensische Stilometrie. Tutorial lesen . pip install faststylometry

Quelloffene Software

Open-Source-Software ist Software, die der Öffentlichkeit frei zugänglich gemacht wird. Sie wird in der Regel von einer Entwicklergemeinschaft entwickelt und gepflegt, die zusammenarbeiten, um die Software zu verbessern und sie der Öffentlichkeit zugänglich zu machen. Open-Source-Software wird oft als Alternative zu proprietärer Software angesehen, da sie in der Regel kostenlos genutzt und geändert werden kann. Zu den beliebtesten Open-Source-Lizenzen gehören die MIT-Lizenz und die Apache-Lizenz , die es einem Benutzer beide ermöglichen, Software zu ändern und sie in kommerziellen Anwendungen zu verwenden.

Open-Source-Software hat im Bereich der Verarbeitung natürlicher Sprache zunehmend an Bedeutung gewonnen, da NLP-Systeme immer komplexer werden und in immer mehr Bereiche unseres Lebens vordringen, von Haushaltsanwendungen wie Amazons Alexa bis hin zu Anwendungen in Branchen wie der Pharmaindustrie B. Arzneimittelentwicklung oder Risikomanagement für klinische Studien. Open-Source-Tools zur Verarbeitung natürlicher Sprache ermöglichen Entwicklern die Zusammenarbeit, um innovative Lösungen für Probleme bei der Verarbeitung natürlicher Sprache zu entwickeln, und können dazu beitragen, die Kosten für die Entwicklung von Systemen zur Verarbeitung natürlicher Sprache zu senken.

Offene Daten und die FAIR-Data-Prinzipien

Open-Data- und FAIR-Data-Prinzipien sind zwei wichtige Konzepte in der Welt des Datenaustauschs und der Datenverwaltung. Unter Open Data versteht man Daten, die frei verfügbar und für die Öffentlichkeit zugänglich sind. Die FAIR-Datenprinzipien sind eine Reihe von Richtlinien, die 2016 in Nature veröffentlicht wurden und darauf abzielen, sicherzustellen, dass Daten auffindbar , zugänglich , interoperabel und wiederverwendbar sind.

  • Auffindbarkeit: Daten sollten leicht zu finden, zugänglich und zu verwenden sein.
  • Zugänglichkeit: Daten sollten jedem zugänglich sein, der ein berechtigtes Interesse an der Nutzung hat.
  • Interoperabilität: Daten sollten gemeinsam genutzt, kombiniert und mit anderen Datensätzen verglichen werden können.
  • Wiederverwendbarkeit: Daten sollten einfach wiederverwendbar und für andere Zwecke nutzbar sein.
  • Rechenschaftspflicht: Daten sollten bis zu ihrer Quelle zurückverfolgt werden können und Benutzer sollten für ihre Verwendung zur Rechenschaft gezogen werden.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us