Maschinelles Lernen in klinischen Studien: Wir haben für die Gates Foundation ein Tool zur Risikobewertung klinischer Studien unter Verwendung der Verarbeitung natürlicher Sprache entwickelt, um Experten dabei zu unterstützen, das Risiko eines nicht informativen Endes einer klinischen Studie abzuschätzen.
Wir wurden von der Bill & Melinda Gates Foundation kontaktiert, die ein Tool wünschte, das Gutachter bei der Quantifizierung des Risikos eines Protokolls für klinische Studien unterstützt.
Natural language processing
Ein Protokoll ist ein PDF-Dokument, das normalerweise bis zu 200 Seiten lang ist und eine vollständige Beschreibung des Versuchsplans enthält: wo er stattfinden wird, wie viele Probanden rekrutiert werden (die Stichprobengröße), welche Interventionen getestet werden sollen und wie die statistische Analyse durchgeführt werden soll.
Zu diesem Zeitpunkt hatten wir bereits eine ähnliche Lösung für das deutsche Pharmaunternehmen Boehringer Ingelheim entwickelt, um mithilfe von NLP Kosten- und Komplexitätsfaktoren klinischer Studien aus dem Protokolltext zu ermitteln. Weitere Informationen zum Kosten-/Komplexitätsprojekt finden Sie hier .
Jede Organisation, die die Finanzierung einer klinischen Studie plant, muss das Protokoll gründlich prüfen und einem Stresstest unterziehen. Die Kosten für die Durchführung einer Studie sind hoch und es gibt viele potenzielle Fehlerquellen. Wenn beispielsweise die Stichprobengröße zu klein ist, verfügt die Studie nicht über ausreichende statistische Aussagekraft, um ein aussagekräftiges Ergebnis zu liefern, und trägt nicht zum Wissensstand der finanzierenden Organisation oder der wissenschaftlichen Gemeinschaft bei. Dies wird als Risiko bezeichnet, dass die Studie nicht informativ endet .
Protokolle werden in technischem Englisch verfasst, unterliegen aber keinem bestimmten Standard. Protokolle innerhalb einer bestimmten Organisation folgen im Allgemeinen einem groben Muster, aber es gibt viele Möglichkeiten, einen bestimmten Datenpunkt zu kommunizieren: Die Stichprobengröße könnte als Anzahl der Teilnehmer bezeichnet werden, N = 90 , oder die Forscher könnten einfach schreiben : Wir planen, bis zu 100 Probanden pro Standort einzuschreiben und es dem Leser überlassen, auf die Stichprobengröße zu schließen.
Die Gates Foundation benötigte ein NLP-Modell, das ein Studienprotokoll schnell scannen und Schlüsselfaktoren erkennen konnte, die das Risiko der Durchführung der Studie beeinflussen könnten. Sie beauftragte Fast Data Science mit der Entwicklung eines auf NLP basierenden Risikobewertungstools für klinische Studien, das mithilfe von maschinellem Lernen und KI zukünftige Protokolle für klinische Studien bewerten kann.
Thomas Woods Präsentation des Clinical Trial Risk Tool beim Dash In Action Webinar von Plotly im Juni 2023.
Über einen Zeitraum von mehr als einem Jahr experimentierten wir mit einer Reihe von maschinellen Lern- und regelbasierten Modellen, um Merkmale wie Pathologie, Phase, Stichprobengröße, Anzahl der Länder, Anzahl der Arme, Vorhandensein oder Fehlen eines statistischen Analyseplans, Effektgröße und ob zur Bestimmung der Stichprobengröße eine Simulation verwendet wurde, zu extrahieren. Diese Parameter wurden in ein einfaches lineares Risikomodell eingefügt und das Tool generiert einen PDF- oder Excel-Bericht, der innerhalb der Organisation geteilt werden kann.
Wir haben das NLP-Tool zur Risikobewertung klinischer Studien im Internet unter app.clinicaltrialrisk.org bereitgestellt und den Code unter einer MIT-Lizenz als Open Source freigegeben.
Mithilfe des Clinical Trial Risk Tool konnte die Gates Foundation eingehende Studien zügig bewerten und einer Triage unterziehen. Darüber hinaus half es Fachleuten auf der ganzen Welt, eine grobe Risikobewertung ihrer Studien vorzunehmen, bevor sie diese zur Finanzierung einreichten.
In diesem Blogbeitrag können Sie mehr darüber lesen, wie wir das Tool zur Risikobewertung klinischer Studien entwickelt haben.
Wenn Sie nur das Tool zitieren möchten, können Sie Folgendes zitieren:
Wood TA und McNair D. Clinical Trial Risk Tool: Softwareanwendung mit natürlicher Sprachverarbeitung zur Ermittlung des Risikos mangelnder Aussagekraft von Studien . Gates Open Res 2023, 7:56 doi: 10.12688/gatesopenres.14416.1 .
Ein BibTeX-Eintrag für LaTeX-Benutzer über das Tool zur Risikobewertung klinischer Studien ist
@article{Wood_2023, doi = {10.12688/gatesopenres.14416.1}, url = {https://doi.org/10.12688%2Fgatesopenres.14416.1}, year = 2023, month = {apr}, publisher = {F1000 Research Ltd}, volume = {7}, pages = {56}, author = {Thomas A Wood and Douglas McNair}, title = {Clinical Trial Risk Tool: software application using natural language processing to identify the risk of trial uninformativeness}, journal = {Gates Open Research} }
What we can do for you