Messen Sie die Genauigkeit von KI für das Gesundheitswesen?

· Thomas Wood
Messen Sie die Genauigkeit von KI für das Gesundheitswesen?

Links: eine gutartige Mammographie, rechts: eine Mammographie, die einen Krebstumor zeigt. Quelle:
National Cancer Institute

Möglicherweise haben Sie von der aktuellen Google Health-Studie gelesen, in der die Forscher ein KI-Modell trainierten und evaluierten, um Brustkrebs in Mammographien zu erkennen .

In den Medien wurde berichtet, dass das Modell des Google-Teams bei der Erkennung von Tumoren in Mammographien genauer war als ein einzelner Radiologe, obwohl es zugegebenermaßen einem Team aus zwei Radologen unterlegen war](/ai-replace-radiologists-doctors-lawyers-writers-engineers) .

Aber was heißt hier „genauer“? Und wie können Wissenschaftler darüber einem Laienpublikum berichten?

Stellen Sie sich vor, wir hätten ein Modell zur Kategorisierung von Bildern in zwei Gruppen: bösartig und gutartig. Stellen Sie sich vor, Ihr Modell kategorisiert alles als gutartig, während in Wirklichkeit 10 % der Bilder bösartig und 90 % gutartig sind. Dieses Modell wäre nutzlos, aber auch zu 90 % genau.

Dies ist ein einfaches Beispiel dafür, warum Genauigkeit oft irreführend sein kann.

Tatsächlich ist es in einem Fall wie diesem hilfreicher, zwei Zahlen anzugeben: wie viele bösartige Bilder fälschlicherweise als gutartig klassifiziert wurden (falsche Negative) und wie viele gutartige Bilder fälschlicherweise als bösartig klassifiziert wurden (falsche Positive).

Das Google-Team berichtet in seinem Artikel über beide Fehlerraten:

We show an absolute reduction of 5.7%… in false positives and 9.4%… in false negatives [compared to human radiologists].

McKinney et al, International evaluation of an AI system for breast cancer screening, Nature (2020)

Dies bedeutet, dass sich das Modell bei beiden Arten von Fehlklassifizierungen verbessert hat. Hätte sich gegenüber den menschlichen Experten nur eine Fehlerquote verbessert, ließe sich nicht sagen, ob die neue KI besser oder schlechter als der Mensch sei.

Kalibrieren eines Modells

Manchmal möchten wir die Leistung unseres Modells noch genauer steuern. Das Mammographiemodell kennt zwei Arten von Fehldiagnosen: falsch positive und falsch negative. Aber sie sind nicht gleich. Obwohl keine dieser Fehlerarten wünschenswert ist, sind die Folgen des Übersehens eines Tumors größer als die Folgen eines Fehlalarms.

Aus diesem Grund möchten wir möglicherweise die Empfindlichkeit eines Modells kalibrieren. In der letzten Phase eines Modells für maschinelles Lernen wird häufig ein Wert ausgegeben: eine Wahrscheinlichkeit, dass ein Tumor vorhanden ist.

Letztendlich müssen wir jedoch entscheiden, welche Maßnahmen wir ergreifen: den Patienten zur Biopsie überweisen oder ihn entlassen. Sollten wir handeln, wenn die Punktzahl unseres Modells mehr als 50 % beträgt? Oder 80 %? Oder 30 %?

Wenn wir unseren Cutoff auf 50 % festlegen, weisen wir beiden Aktionen das gleiche Gewicht zu.

Allerdings möchten wir den Grenzwert wahrscheinlich auf einen niedrigeren Wert festlegen, vielleicht 25 %, was bedeutet, dass wir auf Nummer sicher gehen, weil es uns nichts ausmacht, einige gutartige Bilder als bösartig zu melden, aber wir wollen wirklich vermeiden, bösartige Bilder als gutartig zu klassifizieren .

Allerdings können wir den Grenzwert nicht auf 0 % setzen – das würde bedeuten, dass unser Modell alle Bilder als bösartig einstufen würde, was nutzlos ist!

In der Praxis können wir den Cutoff also variieren und auf etwas einstellen, das unseren Bedürfnissen entspricht.

Die Wahl des besten Cutoffs ist heute ein kniffliger Balanceakt.

ROC-Kurven

Wenn wir unabhängig von seinem Cutoff-Wert bewerten möchten, wie gut unser Modell ist, können wir einen tollen Trick ausprobieren: Wir können den Cutoff auf 0 %, 1 %, 2 % bis hin zu 100 % festlegen. Bei jedem Grenzwert prüfen wir, wie viele bösartige → gutartige und gutartige → bösartige Fehler wir hatten.

Dann können wir die sich ändernden Fehlerraten als Diagramm darstellen.

Wir nennen dies eine ROC Kurve (ROC steht für Receiver Operating Characteristic).

Dies ist die ROC-Kurve des Google-Mammographiemodells. Die y-Achse ist die Richtig-Positiv-Rate und die x-Achse ist die Falsch-Positiv-Rate. Quelle: McKinney et al (2020)

Das Schöne an einer ROC-Kurve ist, dass Sie auf einen Blick sehen können, wie ein Modell funktioniert. Wenn es sich bei Ihrem Modell nur um einen Münzwurf handelt, wäre Ihre ROC-Kurve eine gerade diagonale Linie von links unten nach rechts oben. Die Tatsache, dass Googles ROC-Kurve nach oben und links verläuft, zeigt, dass es besser ist als ein Münzwurf.

Wenn wir eine einzelne Zahl benötigen, um zusammenzufassen, wie gut ein Modell ist, können wir die Fläche unter der ROC-Kurve nehmen. Dies wird als AUC (area under the Curve) bezeichnet und funktioniert beim Vergleich verschiedener Modelle viel besser als die Genauigkeit. Ein Modell mit einer hohen AUC ist besser als eines mit einer niedrigen AUC. Das bedeutet, dass ROC-Kurven für den Vergleich verschiedener KI-Modelle sehr nützlich sind.

Sie können menschliche Leser auch auf eine ROC-Kurve setzen. Die ROC-Kurve von Google enthält also einen grünen Datenpunkt für die menschlichen Radiologen, die die Mammogramme interpretierten. Die Tatsache, dass der grüne Punkt näher an der Diagonale liegt als jeder andere Punkt auf der ROC-Kurve, bestätigt, dass das Modell für Lernen tatsächlich besser war als der durchschnittliche menschliche Leser.

Ob das Modell des die besten menschlichen Radiologen übertrifft, ist offensichtlich eine andere Frage.

Können wir morgen damit beginnen, die Mammographie-KI in Krankenhäusern einzusetzen?

Im können im Gegensatz zu anderen Bereichen des maschinellen Lernens die Kosten eines falsch-negativen oder falsch-positiven Ergebnisses enorm sein. Aus diesem Grund müssen wir Modelle sorgfältig bewerten und bei der Auswahl des Cutoff-Werts eines Klassifikators für maschinelles Lernen wie dem Mammographie-Klassifikator sehr konservativ sein.

Wichtig ist auch, dass eine Person, die nicht an der Entwicklung des Modells beteiligt ist, das Modell sehr kritisch bewertet und testet.

Wenn die Mammographie in der Allgemeinmedizin im Gesundheitswesen eingeführt werden sollte, erwarte ich die folgenden aussagekräftigen Tests, um ihre Eignung nachzuweisen:

  • Testen Sie das Modell nicht nur mit dem durchschnittlichen menschlichen Radiologen, sondern auch mit dem besten Neurologen, um herauszufinden, wo es leistungsschwach ist.
  • Suchen Sie nach Untertypen von Bildern, bei denen das Modell ständig Fehler macht. Zum Beispiel Bilder mit schlechter Beleuchtung.
  • Schauen Sie sich die Erklärungen zu den richtigen und falschen Entscheidungen des Modells mithilfe eines Pakets zur Interpretierbarkeit maschinellen Lernens an (siehe meinen früheren Beitrag zu .
  • Testen Sie das Modell auf jegliche Art von Voreingenommenheit mit in Bezug auf Rasse, Alter, Körpertyp usw. (siehe meinen Beitrag zu
  • Testen Sie das Modell in einem neuen Krankenhaus an einem neuartigen Röntgengerät, um zu prüfen, wie gut es verallgemeinert werden kann. Das Google-Team erreichte dies, indem es ein Modell mit britischen Mammogrammen trainierte und es mit amerikanischen Mammogrammen testete.
  • Sammeln Sie eine Reihe pathologischer Beispiele (Bilder, die selbst für Menschen schwer zu klassifizieren sind) und testen Sie das Modell einem Stresstest.
  • Stellen Sie eine Reihe atypischer Bilder zusammen, z. B. männliche Mammographien, die im Trainingsdatensatz nur in der Minderheit oder nicht vorhanden waren, und prüfen Sie, wie gut das Modell verallgemeinert.

Wenn Sie der Meinung sind, dass ich etwas verpasst habe, lassen Sie es mich bitte wissen. Ich denke, wir stehen kurz davor, diese Modelle in unseren Krankenhäusern in Aktion zu sehen, aber es gibt noch viele unbekannte Schritte, bevor die KI-Revolution das Gesundheitswesen erobert.](/the-use-of-ai-in-healthcare) .

Vielen Dank an Ram Rajamaran für einige interessante Diskussionen zu diesem Problem!

Verweise

Hamzelou, KI-System ist bei der Vorhersage von Brustkrebs besser als menschliche Ärzte , New Scientist (2020).

McKinney et al, Internationale Bewertung eines KI-Systems für das Brustkrebs-Screening , Nature (2020).

Text Mining – Die Einführung in die geschäftliche Nutzung
DatenwissenschaftProjektmanagement

Text Mining – Die Einführung in die geschäftliche Nutzung

Text Mining: Kurzer Überblick Das moderne Unternehmen hat Zugriff auf riesige Mengen unstrukturierter Daten, doch diese Daten können sich nur dann als nützlich erweisen, wenn daraus die gewünschten Erkenntnisse gewonnen werden können.

Der Stand der Textanalyse im Jahr 2023: Trends und Möglichkeiten
DatenwissenschaftProjektmanagement

Der Stand der Textanalyse im Jahr 2023: Trends und Möglichkeiten

Wie sieht Textanalyse-KI im Jahr 2023 aus, wie sie generell funktioniert und wie Sie damit Ihre Kunden, Mitarbeiter und Ihre Marke auf das nächste Level heben können – all das und mehr in unserem ausführlichen Artikel.

Was ist Natural Language Understanding (NLU) und wie wird es verwendet? in der Praxis.
DatenwissenschaftProjektmanagement

Was ist Natural Language Understanding (NLU) und wie wird es verwendet? in der Praxis.

Natural Language Understanding (NLU): Überblick Wenn wir darüber nachdenken, ist Sprache eines der mächtigsten Werkzeuge in unserem Arsenal. Wir nutzen es, um auszudrücken, was wir fühlen oder denken.

Was wir für Sie tun können

Verwandeln Sie unstrukturierte Daten in umsetzbare Erkenntnisse

Kontaktiere uns