Links: eine gutartige Mammographie, rechts: eine Mammographie, die einen Krebstumor zeigt. Quelle:
National Cancer Institute
Möglicherweise haben Sie von der aktuellen Google Health-Studie gelesen, in der die Forscher ein KI-Modell trainierten und evaluierten, um Brustkrebs in Mammographien zu erkennen .
In den Medien wurde berichtet, dass das Modell des Google-Teams bei der Erkennung von Tumoren in Mammographien genauer war als ein einzelner Radiologe, obwohl es zugegebenermaßen einem Team aus zwei Radologen unterlegen war](/ai-replace-radiologists-doctors-lawyers-writers-engineers) .
Aber was heißt hier „genauer“? Und wie können Wissenschaftler darüber einem Laienpublikum berichten?
Stellen Sie sich vor, wir hätten ein Modell zur Kategorisierung von Bildern in zwei Gruppen: bösartig und gutartig. Stellen Sie sich vor, Ihr Modell kategorisiert alles als gutartig, während in Wirklichkeit 10 % der Bilder bösartig und 90 % gutartig sind. Dieses Modell wäre nutzlos, aber auch zu 90 % genau.
Dies ist ein einfaches Beispiel dafür, warum Genauigkeit oft irreführend sein kann.
Tatsächlich ist es in einem Fall wie diesem hilfreicher, zwei Zahlen anzugeben: wie viele bösartige Bilder fälschlicherweise als gutartig klassifiziert wurden (falsche Negative) und wie viele gutartige Bilder fälschlicherweise als bösartig klassifiziert wurden (falsche Positive).
Das Google-Team berichtet in seinem Artikel über beide Fehlerraten:
We show an absolute reduction of 5.7%… in false positives and 9.4%… in false negatives [compared to human radiologists].
McKinney et al, International evaluation of an AI system for breast cancer screening, Nature (2020)
Dies bedeutet, dass sich das Modell bei beiden Arten von Fehlklassifizierungen verbessert hat. Hätte sich gegenüber den menschlichen Experten nur eine Fehlerquote verbessert, ließe sich nicht sagen, ob die neue KI besser oder schlechter als der Mensch sei.
Manchmal möchten wir die Leistung unseres Modells noch genauer steuern. Das Mammographiemodell kennt zwei Arten von Fehldiagnosen: falsch positive und falsch negative. Aber sie sind nicht gleich. Obwohl keine dieser Fehlerarten wünschenswert ist, sind die Folgen des Übersehens eines Tumors größer als die Folgen eines Fehlalarms.
Aus diesem Grund möchten wir möglicherweise die Empfindlichkeit eines Modells kalibrieren. In der letzten Phase eines Modells für maschinelles Lernen wird häufig ein Wert ausgegeben: eine Wahrscheinlichkeit, dass ein Tumor vorhanden ist.
Letztendlich müssen wir jedoch entscheiden, welche Maßnahmen wir ergreifen: den Patienten zur Biopsie überweisen oder ihn entlassen. Sollten wir handeln, wenn die Punktzahl unseres Modells mehr als 50 % beträgt? Oder 80 %? Oder 30 %?
Wenn wir unseren Cutoff auf 50 % festlegen, weisen wir beiden Aktionen das gleiche Gewicht zu.
Allerdings möchten wir den Grenzwert wahrscheinlich auf einen niedrigeren Wert festlegen, vielleicht 25 %, was bedeutet, dass wir auf Nummer sicher gehen, weil es uns nichts ausmacht, einige gutartige Bilder als bösartig zu melden, aber wir wollen wirklich vermeiden, bösartige Bilder als gutartig zu klassifizieren .
Allerdings können wir den Grenzwert nicht auf 0 % setzen – das würde bedeuten, dass unser Modell alle Bilder als bösartig einstufen würde, was nutzlos ist!
In der Praxis können wir den Cutoff also variieren und auf etwas einstellen, das unseren Bedürfnissen entspricht.
Die Wahl des besten Cutoffs ist heute ein kniffliger Balanceakt.
Wenn wir unabhängig von seinem Cutoff-Wert bewerten möchten, wie gut unser Modell ist, können wir einen tollen Trick ausprobieren: Wir können den Cutoff auf 0 %, 1 %, 2 % bis hin zu 100 % festlegen. Bei jedem Grenzwert prüfen wir, wie viele bösartige → gutartige und gutartige → bösartige Fehler wir hatten.
Dann können wir die sich ändernden Fehlerraten als Diagramm darstellen.
Wir nennen dies eine ROC Kurve (ROC steht für Receiver Operating Characteristic).
Dies ist die ROC-Kurve des Google-Mammographiemodells. Die y-Achse ist die Richtig-Positiv-Rate und die x-Achse ist die Falsch-Positiv-Rate. Quelle: McKinney et al (2020)
Das Schöne an einer ROC-Kurve ist, dass Sie auf einen Blick sehen können, wie ein Modell funktioniert. Wenn es sich bei Ihrem Modell nur um einen Münzwurf handelt, wäre Ihre ROC-Kurve eine gerade diagonale Linie von links unten nach rechts oben. Die Tatsache, dass Googles ROC-Kurve nach oben und links verläuft, zeigt, dass es besser ist als ein Münzwurf.
Wenn wir eine einzelne Zahl benötigen, um zusammenzufassen, wie gut ein Modell ist, können wir die Fläche unter der ROC-Kurve nehmen. Dies wird als AUC (area under the Curve) bezeichnet und funktioniert beim Vergleich verschiedener Modelle viel besser als die Genauigkeit. Ein Modell mit einer hohen AUC ist besser als eines mit einer niedrigen AUC. Das bedeutet, dass ROC-Kurven für den Vergleich verschiedener KI-Modelle sehr nützlich sind.
Sie können menschliche Leser auch auf eine ROC-Kurve setzen. Die ROC-Kurve von Google enthält also einen grünen Datenpunkt für die menschlichen Radiologen, die die Mammogramme interpretierten. Die Tatsache, dass der grüne Punkt näher an der Diagonale liegt als jeder andere Punkt auf der ROC-Kurve, bestätigt, dass das Modell für Lernen tatsächlich besser war als der durchschnittliche menschliche Leser.
Ob das Modell des die besten menschlichen Radiologen übertrifft, ist offensichtlich eine andere Frage.
Im können im Gegensatz zu anderen Bereichen des maschinellen Lernens die Kosten eines falsch-negativen oder falsch-positiven Ergebnisses enorm sein. Aus diesem Grund müssen wir Modelle sorgfältig bewerten und bei der Auswahl des Cutoff-Werts eines Klassifikators für maschinelles Lernen wie dem Mammographie-Klassifikator sehr konservativ sein.
Wichtig ist auch, dass eine Person, die nicht an der Entwicklung des Modells beteiligt ist, das Modell sehr kritisch bewertet und testet.
Wenn die Mammographie in der Allgemeinmedizin im Gesundheitswesen eingeführt werden sollte, erwarte ich die folgenden aussagekräftigen Tests, um ihre Eignung nachzuweisen:
Wenn Sie der Meinung sind, dass ich etwas verpasst habe, lassen Sie es mich bitte wissen. Ich denke, wir stehen kurz davor, diese Modelle in unseren Krankenhäusern in Aktion zu sehen, aber es gibt noch viele unbekannte Schritte, bevor die KI-Revolution das Gesundheitswesen erobert.](/the-use-of-ai-in-healthcare) .
Vielen Dank an Ram Rajamaran für einige interessante Diskussionen zu diesem Problem!
Hamzelou, KI-System ist bei der Vorhersage von Brustkrebs besser als menschliche Ärzte , New Scientist (2020).
McKinney et al, Internationale Bewertung eines KI-Systems für das Brustkrebs-Screening , Nature (2020).
Text Mining: Kurzer Überblick Das moderne Unternehmen hat Zugriff auf riesige Mengen unstrukturierter Daten, doch diese Daten können sich nur dann als nützlich erweisen, wenn daraus die gewünschten Erkenntnisse gewonnen werden können.
Wie sieht Textanalyse-KI im Jahr 2023 aus, wie sie generell funktioniert und wie Sie damit Ihre Kunden, Mitarbeiter und Ihre Marke auf das nächste Level heben können – all das und mehr in unserem ausführlichen Artikel.
Natural Language Understanding (NLU): Überblick Wenn wir darüber nachdenken, ist Sprache eines der mächtigsten Werkzeuge in unserem Arsenal. Wir nutzen es, um auszudrücken, was wir fühlen oder denken.
Was wir für Sie tun können