Wir haben an zwei externen Projekten teilgenommen, bei denen Open-Source-Code und -Daten produziert wurden, die der Öffentlichkeit für den persönlichen und kommerziellen Gebrauch zur Verfügung stehen.
(Github-Repository) – Harmony ist ein Tool und Forschungsprojekt, das natürliche Sprachverarbeitung nutzt, um Daten zur psychischen Gesundheit zu harmonisieren. Lesen Sie mehr unter https://harmonydata.ac.uk und testen Sie die Demo unter https://harmonydata.ac.uk/app/ . Finanziert durch den Wellcome Trust und unter Einhaltung der MIT-Lizenz und der FAIR-Datenprinzipien .
(Github-Repository) – ein Tool, das natürliche Sprachverarbeitung verwendet, um Protokolle klinischer Studien (PDFs) in hohes, mittleres oder niedriges Risiko zu kategorisieren. Lesen Sie mehr unter https://clinicaltrialrisk.org/ und probieren Sie die Demo unter https://app.clinicaltrialrisk.org/ aus.
Fast Data Science - London
Zusätzlich zu den oben genannten extern finanzierten Projekten haben wir eine Reihe von Low-Level-Bibliotheken für spezifische Anwendungsfälle in der Verarbeitung natürlicher Sprache bereitgestellt.
(Github-Repository) – eine Bibliothek zur Lokalisierung der Rechtschreibung zwischen US- und UK-Varianten. Installieren Sie es über die Befehlszeile mit pip install localspelling
(Github-Repository) – eine leichte Python-Bibliothek zum Erkennen von Ländernamen in unstrukturiertem Text und Zurückgeben von Pycountry-Objekten. Tutorial hier . Installieren mit pip install country_named_entity_recognition
(Github-Repository) – eine leichtgewichtige Python-Bibliothek zum Erkennen von Medikamentennamen in unstrukturiertem Text und zum Durchführen von Named-Entity-Links zu DrugBank-IDs. Tutorial hier . Installieren mit pip install drug-named-entity-recognition
(Github-Repository) – eine Python-Bibliothek für forensische Stilometrie. Tutorial lesen . pip install faststylometry
Open-Source-Software ist Software, die der Öffentlichkeit kostenlos zur Verfügung gestellt wird. Sie wird normalerweise von einer Community von Entwicklern entwickelt und gepflegt, die zusammenarbeiten, um die Software zu verbessern und der Öffentlichkeit zur Verfügung zu stellen. Open-Source-Software wird oft als Alternative zu proprietärer Software angesehen, da sie normalerweise kostenlos verwendet und geändert werden kann. Einige der beliebtesten Open-Source-Lizenzen sind die MIT-Lizenz und die Apache-Lizenz , die es einem Benutzer ermöglichen, Software zu ändern und in kommerziellen Anwendungen zu verwenden.
Open-Source-Software hat im Bereich der Verarbeitung natürlicher Sprache zunehmend an Bedeutung gewonnen, da NLP-Systeme immer komplexer werden und in immer mehr Bereiche unseres Lebens vordringen, von Haushaltsanwendungen wie Amazons Alexa bis hin zu Anwendungen in Branchen wie der Pharmaindustrie, beispielsweise bei der Arzneimittelentdeckung oder dem Risikomanagement bei klinischen Studien. Open-Source-Tools zur Verarbeitung natürlicher Sprache ermöglichen Entwicklern die Zusammenarbeit bei der Entwicklung innovativer Lösungen für Probleme bei der Verarbeitung natürlicher Sprache und können dazu beitragen, die Kosten für die Entwicklung natürlicher Sprachverarbeitungssysteme zu senken.
Offene Daten und FAIR-Datenprinzipien sind zwei wichtige Konzepte in der Welt des Datenaustauschs und der Datenverwaltung. Offene Daten sind Daten, die frei verfügbar und für die Öffentlichkeit zugänglich sind. Die FAIR-Datenprinzipien sind eine Reihe von Richtlinien, die 2016 in Nature veröffentlicht wurden und darauf abzielen, sicherzustellen, dass Daten auffindbar , zugänglich , interoperabel und wiederverwendbar sind .
What we can do for you