Boehringer Ingelheim – Auffinden von Molekülen und Proteinen in der wissenschaftlichen Literatur

Boehringer Ingelheim – Auffinden von Molekülen und Proteinen in der wissenschaftlichen Literatur

Wir haben an einer Reihe verschiedener Projekte gearbeitet, bei denen ein Kunde wissenschaftliche Literatur analysieren und das Vorkommen von Molekülen oder Proteinen identifizieren musste.

Das Molekül rechts ist beispielsweise Aspirin. In einigen Ländern ist dies noch immer ein Markenzeichen von Bayer. Aber in einer Arbeit könnte es unter Acetylsalicylsäure, 2-Acetoxybenzolcarbonsäure, C9H8O4 oder einer Reihe von Identifikatoren wie DB00945 erscheinen. Es könnte auch Identifikatoren geben, die sich auf andere Moleküle beziehen, oder Identifikatoren, die sich nur auf eine Version eines Moleküls beziehen.

Fast Data Science - London

Need a business solution?

Seit 2016 führend in den Bereichen NLP, ML und Data Science – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Ein weiteres Beispiel, auf das wir in klinischen Arbeiten häufig stoßen, ist das Gen ERBB2, das bei bestimmten Brustkrebsarten wichtig ist. ERBB2 wird auch Erb-B2-Rezeptor-Tyrosinkinase, HER2, HER-2 und viele andere Namen genannt. Diese Namen beziehen sich oft auch auf das vom Gen exprimierte Protein. Viele Namen ähneln gebräuchlichen englischen Wörtern und werden im Text nicht immer großgeschrieben.

Aufgrund dieser pathologischen Effekte ist die Identifizierung von Namen von Proteinen, Genen und Molekülen in der wissenschaftlichen Literatur mit Schwierigkeiten verbunden. Wir haben mehrere bewährte Techniken entwickelt, um diese Begriffe eindeutig zu machen. Normalerweise benötigen wir zunächst eine Reihe kommentierter Beispiele, und wir trainieren ein Modell für maschinelles Lernen, um aus diesen Beispielen zu lernen und neue Veröffentlichungen zu kommentieren, sobald sie eingehen.

Dies kann auf den Servern des Kunden bereitgestellt werden und tägliche Updates auf einem Dashboard bereitstellen. Dies ermöglicht es einem Kunden, die Literatur in Echtzeit auf Veröffentlichungen zu einem bestimmten Molekül, Protein oder Gen zu überwachen oder Trends im Voraus zu erkennen.

Das Aspirin-Molekül. Quelle: Kim et al., Structure Redetermination and Packing Analysis of Aspirin Crystal (1985)

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us