Open-Source-Tools für die Verarbeitung natürlicher Sprache

Open-Source-Projekte (MIT-Lizenz)

Wir haben an zwei externen Projekten teilgenommen, bei denen Open-Source-Code und -Daten produziert wurden, die der Öffentlichkeit für den persönlichen und kommerziellen Gebrauch zur Verfügung stehen.

Harmonie

(Github-Repository) – Harmony ist ein Tool und Forschungsprojekt, das natürliche Sprachverarbeitung nutzt, um Daten zur psychischen Gesundheit zu harmonisieren. Lesen Sie mehr unter https://harmonydata.ac.uk und testen Sie die Demo unter https://harmonydata.ac.uk/app/ . Finanziert durch den Wellcome Trust und unter Einhaltung der MIT-Lizenz und der FAIR-Datenprinzipien .

Wood, TA, McElroy, E., Moltrecht, B., Ploubidis, GB, Scopel Hoffmann, M., Harmony [Computersoftware], Version 1.0, abgerufen unter https://harmonydata.ac.uk/app. Ulster University (2022)
McElroy, E., Moltrecht, B., Scopel Hoffmann, M., Wood, TA, & Ploubidis, G. (6. Januar 2023). Harmony – Eine globale Plattform für kontextuelle Harmonisierung, Übersetzung und Zusammenarbeit in der Forschung zur psychischen Gesundheit. Abgerufen von osf.io/bct6k

Risikotool für klinische Studien

(Github-Repository) – ein Tool, das natürliche Sprachverarbeitung verwendet, um Protokolle klinischer Studien (PDFs) in hohes, mittleres oder niedriges Risiko zu kategorisieren. Lesen Sie mehr unter https://clinicaltrialrisk.org/ und probieren Sie die Demo unter https://app.clinicaltrialrisk.org/ aus.

Wood TA und McNair D. Clinical Trial Risk Tool: Softwareanwendung mit natürlicher Sprachverarbeitung zur Ermittlung des Risikos mangelnder Aussagekraft von Studien . Gates Open Res 2023, 7:56 doi: 10.12688/gatesopenres.14416.1 .

Fast Data Science - London

Need a business solution?

Führend in den Bereichen NLP, ML und Data Science seit 2016 – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Andere Open-Source-NLP-Bibliotheken

Zusätzlich zu den oben genannten extern finanzierten Projekten haben wir eine Reihe von Low-Level-Bibliotheken für spezifische Anwendungsfälle in der Verarbeitung natürlicher Sprache bereitgestellt.

Lokale Rechtschreibung

(Github-Repository) – eine Bibliothek zur Lokalisierung der Rechtschreibung zwischen US- und UK-Varianten. Installieren Sie es über die Befehlszeile mit pip install localspelling

Anerkennung länderspezifischer benannter Unternehmen

(Github-Repository) – eine leichte Python-Bibliothek zum Erkennen von Ländernamen in unstrukturiertem Text und Zurückgeben von Pycountry-Objekten. Tutorial hier . Installieren mit pip install country_named_entity_recognition

Wood, TA, Country Named Entity Recognition [Computersoftware], Version 0.4, abgerufen unter https://fastdatascience.com/country-named-entity-recognition/ , Fast Data Science Ltd (2022)

Erkennung benannter Arzneimittelentitäten

(Github-Repository) – eine leichtgewichtige Python-Bibliothek zum Erkennen von Medikamentennamen in unstrukturiertem Text und zum Durchführen von Named-Entity-Links zu DrugBank-IDs. Tutorial hier . Installieren mit pip install drug-named-entity-recognition

Wood, TA, Drug Named Entity Recognition [Computersoftware], Version 0.1, abgerufen unter https://fastdatascience.com/drug-named-entity-recognition-python-library/ , Fast Data Science Ltd (2022)

Schnelle Stilometrie

(Github-Repository) – eine Python-Bibliothek für forensische Stilometrie. Tutorial lesen . pip install faststylometry

Quelloffene Software

Open-Source-Software ist Software, die der Öffentlichkeit kostenlos zur Verfügung gestellt wird. Sie wird normalerweise von einer Community von Entwicklern entwickelt und gepflegt, die zusammenarbeiten, um die Software zu verbessern und der Öffentlichkeit zur Verfügung zu stellen. Open-Source-Software wird oft als Alternative zu proprietärer Software angesehen, da sie normalerweise kostenlos verwendet und geändert werden kann. Einige der beliebtesten Open-Source-Lizenzen sind die MIT-Lizenz und die Apache-Lizenz , die es einem Benutzer ermöglichen, Software zu ändern und in kommerziellen Anwendungen zu verwenden.

Open-Source-Software hat im Bereich der Verarbeitung natürlicher Sprache zunehmend an Bedeutung gewonnen, da NLP-Systeme immer komplexer werden und in immer mehr Bereiche unseres Lebens vordringen, von Haushaltsanwendungen wie Amazons Alexa bis hin zu Anwendungen in Branchen wie der Pharmaindustrie, beispielsweise bei der Arzneimittelentdeckung oder dem Risikomanagement bei klinischen Studien. Open-Source-Tools zur Verarbeitung natürlicher Sprache ermöglichen Entwicklern die Zusammenarbeit bei der Entwicklung innovativer Lösungen für Probleme bei der Verarbeitung natürlicher Sprache und können dazu beitragen, die Kosten für die Entwicklung natürlicher Sprachverarbeitungssysteme zu senken.

Offene Daten und die FAIR-Datenprinzipien

Offene Daten und FAIR-Datenprinzipien sind zwei wichtige Konzepte in der Welt des Datenaustauschs und der Datenverwaltung. Offene Daten sind Daten, die frei verfügbar und für die Öffentlichkeit zugänglich sind. Die FAIR-Datenprinzipien sind eine Reihe von Richtlinien, die 2016 in Nature veröffentlicht wurden und darauf abzielen, sicherzustellen, dass Daten auffindbar , zugänglich , interoperabel und wiederverwendbar sind .

Auffindbarkeit: Daten sollten leicht zu finden, abzurufen und zu verwenden sein.
Zugänglichkeit: Daten sollten jedem zur Verfügung stehen, der ein berechtigtes Interesse an der Nutzung hat.
Interoperabilität: Daten sollten geteilt, kombiniert und mit anderen Datensätzen verglichen werden können.
Wiederverwendbarkeit: Daten sollten einfach wiederverwendbar und zweckentfremdbar sein.
Verantwortlichkeit: Daten sollten bis zu ihrer Quelle zurückverfolgbar sein und Benutzer sollten für ihre Verwendung zur Verantwortung gezogen werden.