Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.
NLP-Jobs entdeckenLinks: eine gutartige Mammographie, rechts: eine Mammographie, die einen Krebstumor zeigt. Quelle: Nationales Krebsinstitut
Möglicherweise haben Sie von der aktuellen Google Health-Studie gelesen, in der die Forscher ein KI-Modell trainierten und evaluierten, um Brustkrebs in Mammographien zu erkennen.
In den Medien wurde berichtet, dass das Modell des Google-Teams bei der Erkennung von Tumoren in Mammographien genauer war als ein einzelner Radiologe, obwohl es einem Team aus zwei Radiologen zugegebenermaßen unterlegen war.
Aber was heißt hier „genauer“? Und wie können Wissenschaftler darüber einem Laienpublikum berichten?
Stellen Sie sich vor, wir hätten ein Modell zur Kategorisierung von Bildern in zwei Gruppen: bösartig und gutartig. Stellen Sie sich vor, Ihr Modell kategorisiert alles als gutartig, während in Wirklichkeit 10 % der Bilder bösartig und 90 % gutartig sind. Dieses Modell wäre nutzlos, aber auch zu 90 % genau.
Dies ist ein einfaches Beispiel dafür, warum Genauigkeit oft irreführend sein kann.
Tatsächlich ist es in einem Fall wie diesem hilfreicher, zwei Zahlen anzugeben: wie viele bösartige Bilder fälschlicherweise als gutartig klassifiziert wurden (falsche Negative) und wie viele gutartige Bilder fälschlicherweise als bösartig klassifiziert wurden (falsche Positive).
Das Google-Team berichtet in seinem Artikel über beide Fehlerraten:
Wir zeigen eine absolute Reduzierung von 5,7 % bei falsch-positiven Ergebnissen und 9,4 % bei falsch-negativen Ergebnissen [im Vergleich zu menschlichen Radiologen].
McKinney et al, Internationale Bewertung eines KI-Systems für die Brustkrebsvorsorge, Nature (2020)
Dies bedeutet, dass sich das Modell bei beiden Arten von Fehlklassifizierungen verbessert hat. Hätte sich gegenüber den menschlichen Experten nur eine Fehlerquote verbessert, ließe sich nicht sagen, ob die neue KI besser oder schlechter als der Mensch sei.
Manchmal möchten wir die Leistung unseres Modells noch genauer steuern. Das Mammographiemodell kennt zwei Arten von Fehldiagnosen: falsch positive und falsch negative. Aber sie sind nicht gleich. Obwohl keine dieser Fehlerarten wünschenswert ist, sind die Folgen des Übersehens eines Tumors größer als die Folgen eines Fehlalarms.
Aus diesem Grund möchten wir möglicherweise die Empfindlichkeit eines Modells kalibrieren. In der letzten Phase eines maschinellen Lernmodells wird häufig ein Wert ausgegeben: die Wahrscheinlichkeit, dass ein Tumor vorhanden ist.
Fast Data Science - London
Letztendlich müssen wir jedoch entscheiden, welche Maßnahmen wir ergreifen: den Patienten zur Biopsie überweisen oder ihn entlassen. Sollten wir handeln, wenn die Punktzahl unseres Modells mehr als 50 % beträgt? Oder 80 %? Oder 30 %?
Wenn wir unseren Cutoff auf 50 % festlegen, weisen wir beiden Aktionen das gleiche Gewicht zu.
Allerdings möchten wir den Grenzwert wahrscheinlich auf einen niedrigeren Wert festlegen, vielleicht 25 %, was bedeutet, dass wir auf Nummer sicher gehen, weil es uns nichts ausmacht, einige gutartige Bilder als bösartig zu melden, aber wir wollen wirklich vermeiden, bösartige Bilder als gutartig zu klassifizieren .
Allerdings können wir den Grenzwert nicht auf 0 % setzen – das würde bedeuten, dass unser Modell alle Bilder als bösartig einstufen würde, was nutzlos ist!
In der Praxis können wir den Cutoff also variieren und auf etwas einstellen, das unseren Bedürfnissen entspricht.
Die Wahl des besten Cutoffs ist heute ein kniffliger Balanceakt.
Wenn wir unabhängig von seinem Cutoff-Wert bewerten möchten, wie gut unser Modell ist, können wir einen tollen Trick ausprobieren: Wir können den Cutoff auf 0 %, 1 %, 2 % bis hin zu 100 % festlegen. Bei jedem Grenzwert prüfen wir, wie viele bösartige → gutartige und gutartige → bösartige Fehler wir hatten.
Dann können wir die sich ändernden Fehlerraten als Diagramm darstellen.
Wir nennen dies eine ROC- Kurve (ROC steht für Receiver Operating Characteristic).
Dies ist die ROC-Kurve des Google-Mammographiemodells. Die y- Achse ist die Richtig-Positiv-Rate und die X -Achse ist die Falsch-Positiv-Rate. Quelle: McKinney et al. (2020)
Das Schöne an einer ROC-Kurve ist, dass Sie auf einen Blick sehen können, wie ein Modell funktioniert. Wenn es sich bei Ihrem Modell nur um einen Münzwurf handelt, wäre Ihre ROC-Kurve eine gerade diagonale Linie von links unten nach rechts oben. Die Tatsache, dass Googles ROC-Kurve nach oben und links verläuft, zeigt, dass es besser ist als ein Münzwurf.
Wenn wir eine einzelne Zahl benötigen, um zusammenzufassen, wie gut ein Modell ist, können wir die Fläche unter der ROC-Kurve nehmen. Dies wird als AUC ( Fläche unter der Kurve ) bezeichnet und funktioniert beim Vergleich verschiedener Modelle viel besser als die Genauigkeit. Ein Modell mit einer hohen AUC ist besser als eines mit einer niedrigen AUC. Das bedeutet, dass ROC-Kurven für den Vergleich verschiedener KI-Modelle sehr nützlich sind.
Sie können menschliche Leser auch auf eine ROC-Kurve setzen. Die ROC-Kurve von Google enthält also einen grünen Datenpunkt für die menschlichen Radiologen, die die Mammogramme interpretierten. Die Tatsache, dass der grüne Punkt näher an der Diagonale liegt als jeder andere Punkt auf der ROC-Kurve, bestätigt, dass das maschinelle Lernmodell tatsächlich besser war als der durchschnittliche menschliche Leser.
Ob das maschinelle Lernmodell die besten menschlichen Radiologen übertrifft, ist offensichtlich eine andere Frage.
Im Gesundheitswesen können im Gegensatz zu anderen Bereichen des maschinellen Lernens die Kosten eines falsch-negativen oder falsch-positiven Ergebnisses enorm sein. Aus diesem Grund müssen wir Modelle sorgfältig bewerten und bei der Auswahl des Cutoff-Werts eines Klassifikators für maschinelles Lernen wie dem Mammographie-Klassifikator sehr konservativ sein.
Wichtig ist auch, dass eine Person, die nicht an der Entwicklung des Modells beteiligt ist, das Modell sehr kritisch bewertet und testet.
Wenn die Mammographie in der Allgemeinmedizin im Gesundheitswesen eingeführt werden sollte, erwarte ich die folgenden aussagekräftigen Tests, um ihre Eignung nachzuweisen:
Wenn Sie der Meinung sind, dass ich etwas verpasst habe, lassen Sie es mich bitte wissen. Ich denke, wir sind kurz davor, diese Modelle in unseren Krankenhäusern in Aktion zu sehen, aber es gibt noch viele unbekannte Schritte, bevor die KI-Revolution das Gesundheitswesen erobert.
Vielen Dank an Ram Rajamaran für einige interessante Diskussionen zu diesem Problem!
Hamzelou, AI system is better than human doctors at predicting breast cancer, New Scientist (2020).
McKinney et al, International evaluation of an AI system for breast cancer screening, Nature (2020).
Suchen Sie Experten in Natürlicher Sprachverarbeitung? Veröffentlichen Sie Ihre Stellenangebote bei uns und finden Sie heute Ihren idealen Kandidaten!
Veröffentlichen Sie einen JobMittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.
Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.
Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.
What we can do for you