Messen Sie die Genauigkeit von KI für das Gesundheitswesen?

· Thomas Wood
Messen Sie die Genauigkeit von KI für das Gesundheitswesen?

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Links: eine gutartige Mammographie, rechts: eine Mammographie, die einen Krebstumor zeigt. Quelle: Nationales Krebsinstitut

Möglicherweise haben Sie von der aktuellen Google Health-Studie gelesen, in der die Forscher ein KI-Modell trainierten und evaluierten, um Brustkrebs in Mammographien zu erkennen.

In den Medien wurde berichtet, dass das Modell des Google-Teams bei der Erkennung von Tumoren in Mammographien genauer war als ein einzelner Radiologe, obwohl es einem Team aus zwei Radiologen zugegebenermaßen unterlegen war.

Aber was heißt hier „genauer“? Und wie können Wissenschaftler darüber einem Laienpublikum berichten?

Stellen Sie sich vor, wir hätten ein Modell zur Kategorisierung von Bildern in zwei Gruppen: bösartig und gutartig. Stellen Sie sich vor, Ihr Modell kategorisiert alles als gutartig, während in Wirklichkeit 10 % der Bilder bösartig und 90 % gutartig sind. Dieses Modell wäre nutzlos, aber auch zu 90 % genau.

Dies ist ein einfaches Beispiel dafür, warum Genauigkeit oft irreführend sein kann.

Tatsächlich ist es in einem Fall wie diesem hilfreicher, zwei Zahlen anzugeben: wie viele bösartige Bilder fälschlicherweise als gutartig klassifiziert wurden (falsche Negative) und wie viele gutartige Bilder fälschlicherweise als bösartig klassifiziert wurden (falsche Positive).

Das Google-Team berichtet in seinem Artikel über beide Fehlerraten:

Wir zeigen eine absolute Reduzierung von 5,7 % bei falsch-positiven Ergebnissen und 9,4 % bei falsch-negativen Ergebnissen [im Vergleich zu menschlichen Radiologen].

McKinney et al, Internationale Bewertung eines KI-Systems für die Brustkrebsvorsorge, Nature (2020)

Dies bedeutet, dass sich das Modell bei beiden Arten von Fehlklassifizierungen verbessert hat. Hätte sich gegenüber den menschlichen Experten nur eine Fehlerquote verbessert, ließe sich nicht sagen, ob die neue KI besser oder schlechter als der Mensch sei.

Kalibrieren eines Modells

Manchmal möchten wir die Leistung unseres Modells noch genauer steuern. Das Mammographiemodell kennt zwei Arten von Fehldiagnosen: falsch positive und falsch negative. Aber sie sind nicht gleich. Obwohl keine dieser Fehlerarten wünschenswert ist, sind die Folgen des Übersehens eines Tumors größer als die Folgen eines Fehlalarms.

Aus diesem Grund möchten wir möglicherweise die Empfindlichkeit eines Modells kalibrieren. In der letzten Phase eines maschinellen Lernmodells wird häufig ein Wert ausgegeben: die Wahrscheinlichkeit, dass ein Tumor vorhanden ist.

Fast Data Science - London

Need a business solution?

NLP , ML und Data Science Leader seit 2016 – kontaktieren Sie uns für eine NLP- Beratungssitzung.

Letztendlich müssen wir jedoch entscheiden, welche Maßnahmen wir ergreifen: den Patienten zur Biopsie überweisen oder ihn entlassen. Sollten wir handeln, wenn die Punktzahl unseres Modells mehr als 50 % beträgt? Oder 80 %? Oder 30 %?

Wenn wir unseren Cutoff auf 50 % festlegen, weisen wir beiden Aktionen das gleiche Gewicht zu.

Allerdings möchten wir den Grenzwert wahrscheinlich auf einen niedrigeren Wert festlegen, vielleicht 25 %, was bedeutet, dass wir auf Nummer sicher gehen, weil es uns nichts ausmacht, einige gutartige Bilder als bösartig zu melden, aber wir wollen wirklich vermeiden, bösartige Bilder als gutartig zu klassifizieren .

Allerdings können wir den Grenzwert nicht auf 0 % setzen – das würde bedeuten, dass unser Modell alle Bilder als bösartig einstufen würde, was nutzlos ist!

In der Praxis können wir den Cutoff also variieren und auf etwas einstellen, das unseren Bedürfnissen entspricht.

Die Wahl des besten Cutoffs ist heute ein kniffliger Balanceakt.

ROC-Kurven

Wenn wir unabhängig von seinem Cutoff-Wert bewerten möchten, wie gut unser Modell ist, können wir einen tollen Trick ausprobieren: Wir können den Cutoff auf 0 %, 1 %, 2 % bis hin zu 100 % festlegen. Bei jedem Grenzwert prüfen wir, wie viele bösartige → gutartige und gutartige → bösartige Fehler wir hatten.

Dann können wir die sich ändernden Fehlerraten als Diagramm darstellen.

Wir nennen dies eine ROC- Kurve (ROC steht für Receiver Operating Characteristic).

Dies ist die ROC-Kurve des Google-Mammographiemodells. Die y- Achse ist die Richtig-Positiv-Rate und die X -Achse ist die Falsch-Positiv-Rate. Quelle: McKinney et al. (2020)

Das Schöne an einer ROC-Kurve ist, dass Sie auf einen Blick sehen können, wie ein Modell funktioniert. Wenn es sich bei Ihrem Modell nur um einen Münzwurf handelt, wäre Ihre ROC-Kurve eine gerade diagonale Linie von links unten nach rechts oben. Die Tatsache, dass Googles ROC-Kurve nach oben und links verläuft, zeigt, dass es besser ist als ein Münzwurf.

Wenn wir eine einzelne Zahl benötigen, um zusammenzufassen, wie gut ein Modell ist, können wir die Fläche unter der ROC-Kurve nehmen. Dies wird als AUC ( Fläche unter der Kurve ) bezeichnet und funktioniert beim Vergleich verschiedener Modelle viel besser als die Genauigkeit. Ein Modell mit einer hohen AUC ist besser als eines mit einer niedrigen AUC. Das bedeutet, dass ROC-Kurven für den Vergleich verschiedener KI-Modelle sehr nützlich sind.

Sie können menschliche Leser auch auf eine ROC-Kurve setzen. Die ROC-Kurve von Google enthält also einen grünen Datenpunkt für die menschlichen Radiologen, die die Mammogramme interpretierten. Die Tatsache, dass der grüne Punkt näher an der Diagonale liegt als jeder andere Punkt auf der ROC-Kurve, bestätigt, dass das maschinelle Lernmodell tatsächlich besser war als der durchschnittliche menschliche Leser.

Ob das maschinelle Lernmodell die besten menschlichen Radiologen übertrifft, ist offensichtlich eine andere Frage.

Können wir morgen damit beginnen, die Mammographie-KI in Krankenhäusern einzusetzen?

Im Gesundheitswesen können im Gegensatz zu anderen Bereichen des maschinellen Lernens die Kosten eines falsch-negativen oder falsch-positiven Ergebnisses enorm sein. Aus diesem Grund müssen wir Modelle sorgfältig bewerten und bei der Auswahl des Cutoff-Werts eines Klassifikators für maschinelles Lernen wie dem Mammographie-Klassifikator sehr konservativ sein.

Wichtig ist auch, dass eine Person, die nicht an der Entwicklung des Modells beteiligt ist, das Modell sehr kritisch bewertet und testet.

Wenn die Mammographie in der Allgemeinmedizin im Gesundheitswesen eingeführt werden sollte, erwarte ich die folgenden aussagekräftigen Tests, um ihre Eignung nachzuweisen:

  • Testen Sie das Modell nicht nur mit dem durchschnittlichen menschlichen Radiologen, sondern auch mit dem besten Neurologen, um herauszufinden, wo es leistungsschwach ist.
  • Suchen Sie nach Untertypen von Bildern, bei denen das Modell ständig Fehler macht. Zum Beispiel Bilder mit schlechter Beleuchtung.
  • Schauen Sie sich die Erklärungen zu den richtigen und falschen Entscheidungen des Modells mithilfe eines Pakets zur Interpretierbarkeit maschinellen Lernens an (siehe meinen früheren Beitrag zu erklärbaren Modellen maschinellen Lernens ).
  • Testen Sie das Modell auf jegliche Art von Voreingenommenheit in Bezug auf Rasse, Alter, Körpertyp usw. (siehe meinen Beitrag über Voreingenommenheit ).
  • Testen Sie das Modell in einem neuen Krankenhaus an einem neuartigen Röntgengerät, um zu prüfen, wie gut es verallgemeinert werden kann. Das Google-Team erreichte dies, indem es ein Modell mit britischen Mammogrammen trainierte und es mit amerikanischen Mammogrammen testete.
  • Sammeln Sie eine Reihe pathologischer Beispiele (Bilder, die selbst für Menschen schwer zu klassifizieren sind) und testen Sie das Modell einem Stresstest.
  • Stellen Sie eine Reihe atypischer Bilder zusammen, z. B. männliche Mammographien, die im Trainingsdatensatz nur in der Minderheit oder nicht vorhanden waren, und prüfen Sie, wie gut das Modell verallgemeinert.

Wenn Sie der Meinung sind, dass ich etwas verpasst habe, lassen Sie es mich bitte wissen. Ich denke, wir sind kurz davor, diese Modelle in unseren Krankenhäusern in Aktion zu sehen, aber es gibt noch viele unbekannte Schritte, bevor die KI-Revolution das Gesundheitswesen erobert.

Vielen Dank an Ram Rajamaran für einige interessante Diskussionen zu diesem Problem!

Verweise

Hamzelou, AI system is better than human doctors at predicting breast cancer, New Scientist (2020).

McKinney et al, International evaluation of an AI system for breast cancer screening, Nature (2020).

Finden Sie Top-NLP-Talente!

Suchen Sie Experten in Natürlicher Sprachverarbeitung? Veröffentlichen Sie Ihre Stellenangebote bei uns und finden Sie heute Ihren idealen Kandidaten!

Veröffentlichen Sie einen Job

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us