Deep-Learning-basierter automatischer Erkennungsalgorithmus für akute intrakranielle Blutungen: eine zulassungsrelevante randomisierte klinische Studie

Blog

HeimHeim / Blog / Deep-Learning-basierter automatischer Erkennungsalgorithmus für akute intrakranielle Blutungen: eine zulassungsrelevante randomisierte klinische Studie

May 15, 2023

Deep-Learning-basierter automatischer Erkennungsalgorithmus für akute intrakranielle Blutungen: eine zulassungsrelevante randomisierte klinische Studie

npj Digital Medicine Band

npj Digital Medicine Band 6, Artikelnummer: 61 (2023) Diesen Artikel zitieren

1614 Zugriffe

14 Altmetrisch

Details zu den Metriken

Eine akute intrakranielle Blutung (AIH) ist ein potenziell lebensbedrohlicher Notfall, der eine schnelle und genaue Beurteilung und Behandlung erfordert. Ziel dieser Studie ist die Entwicklung und Validierung eines Algorithmus der künstlichen Intelligenz (KI) zur Diagnose von AIH anhand von Bildern der Gehirn-Computertomographie (CT). Zur Validierung der Leistung eines KI-Algorithmus wurde eine retrospektive, zulassungsrelevante, randomisierte Crossover-Studie mit mehreren Lesern durchgeführt, die anhand von 104.666 Schnitten von 3.010 Patienten trainiert wurde. Gehirn-CT-Bilder (12.663 Schichten von 296 Patienten) wurden von neun Gutachtern ausgewertet, die einer der drei Untergruppen angehörten (nicht-radiologische Ärzte, n = 3; zertifizierte Radiologen, n = 3; und Neuroradiologen, n = 3) mit und ohne die Hilfe unseres KI-Algorithmus. Sensitivität, Spezifität und Genauigkeit wurden zwischen KI-ungestützten und KI-gestützten Interpretationen mithilfe des Chi-Quadrat-Tests verglichen. Die Interpretation der Gehirn-CT mit KI-Unterstützung führt zu einer deutlich höheren diagnostischen Genauigkeit als ohne KI-Unterstützung (0,9703 vs. 0,9471, p < 0,0001, patientenbezogen). Unter den drei Untergruppen der Gutachter weisen nichtradiologische Ärzte die größte Verbesserung der diagnostischen Genauigkeit bei der Interpretation von Gehirn-CTs mit KI-Unterstützung im Vergleich zu solchen ohne KI-Unterstützung auf. Für zertifizierte Radiologen ist die diagnostische Genauigkeit bei der Interpretation von Gehirn-CTs mit KI-Unterstützung deutlich höher als ohne KI-Unterstützung. Für Neuroradiologen führt die Interpretation von Gehirn-CTs mit KI-Unterstützung zwar zu einem Trend zu höherer diagnostischer Genauigkeit im Vergleich zur Interpretation ohne KI-Unterstützung, der Unterschied erreicht jedoch keine statistische Signifikanz. Bei der Erkennung von AIH führt die Interpretation der Gehirn-CT mit KI-Unterstützung zu einer besseren diagnostischen Leistung als ohne KI-Unterstützung, wobei die deutlichste Verbesserung bei nichtradiologischen Ärzten beobachtet wurde.

Akute intrakranielle Blutungen (AIH) sind eine lebensbedrohliche Krankheit mit einer 30-Tage-Sterblichkeitsrate zwischen 35 % und 52 %. Vor allem wird erwartet, dass nur 20 % der Überlebenden nach 6 Monaten eine vollständige funktionelle Genesung erreichen1,2,3. Magnetresonanztomographie-Scans (MRT) können hinsichtlich der Erkennung von AIH bei Patienten mit akuten fokalen Schlaganfallsymptomen genauso genau sein wie CT-Scans und sind hinsichtlich der Erkennung von Mikroblutungen genauer als CT-Scans. Dennoch sind kontrastfreie CT-Scans des Gehirns der am weitesten verbreitete Erstdiagnoseansatz zur Identifizierung von AIH, da MRT-Scans mehrere Nachteile haben, darunter ihre begrenzte Verfügbarkeit, lange Bildaufnahmezeiten, hohe Kosten und Probleme mit der Patientenverträglichkeit5,6

Trotz der klinischen Relevanz der Diagnose von AIH mithilfe von CT-Scans des Gehirns – falsch negative Ergebnisse können die korrekte Diagnose verzögern, was verheerende Folgen haben kann, während falsch positive Ergebnisse zu unnötigen Untersuchungen führen – bleibt die schnelle und genaue Beurteilung von AIH mithilfe von CT-Scans des Gehirns eine Herausforderung für Ärzte. Darüber hinaus stellen die großen Mengen an Bilddaten, die bewertet werden müssen, eine erhebliche Belastung für Radiologen dar, die die diagnostische Genauigkeit und Effizienz aufrechterhalten müssen7,8.

Im letzten Jahrzehnt hat die auf Deep Learning basierende Technologie der künstlichen Intelligenz (KI) mit Verbesserungen der Computerleistung und der Ansammlung von „Big Data“ erhebliche Fortschritte gemacht. Fortschritte in der auf Deep Learning basierenden Bilderkennung als Teil des maschinellen Lernens verändern den medizinischen Bereich und haben das Potenzial, die Prozesse im Bereich der medizinischen Bildgebung weiter zu verbessern9. Diese Innovationen können die diagnostische Genauigkeit erhöhen, eine schnelle Diagnose und eine verbesserte Behandlung verschiedener Erkrankungen ermöglichen und neue biologische Erkenntnisse ermöglichen. Verschiedene KI-Algorithmen für die AIH-Diagnose wurden entwickelt und zeigten vielversprechende Ergebnisse bei der Erkennung, Klassifizierung, Quantifizierung und Vorhersage von AIH mithilfe von Gehirn-CT-Scans7,8,10,11,12,13,14,15.

Frühere Studien, die Deep-Learning-Architekturen nutzten, verwendeten überwiegend Methoden zur Blutungserkennung, die auf der Kennzeichnung oder Segmentierung durch Experten basieren7,8,10,11,13,15,16,17. Die Einstufung von AIH hängt jedoch von der Meinung von Experten ab, und die Schulung des Systems hängt von der Kennzeichnung von AIH-Verdachtsgebieten durch Experten ab. Daher sind Meinungsverschiedenheiten zwischen Experten hinsichtlich der endgültigen Klassifizierung oder Kennzeichnung von Bildern unvermeidlich. Darüber hinaus tragen schlecht definierte Merkmale, Variabilität in Größe und Morphologie sowie die Abschwächung der AIH zu Unstimmigkeiten zwischen Beobachtern bei, selbst unter erfahrenen Neuroradiologen. In dieser Hinsicht kann ein auf unbeaufsichtigtem Training basierender Anomalieerkennungsprozess zusammen mit einem Blutungserkennungsprozess die Nachteile des überwachten Blutungserkennungsprozesses überwinden, der in herkömmlichen KI-Algorithmen zur intrakraniellen Blutungserkennung verwendet wird, was zu einer Verbesserung der Diagnoseleistung führt18,19,20,21 ,22. In Bezug auf Deep-Learning-Architekturen zur Blutungserkennung stützten sich die meisten früheren Untersuchungen auf auf Convolutional Neural Networks (CNN) basierende KI-Algorithmen, von denen berichtet wurde, dass sie intrakranielle Blutungen mit guter diagnostischer Leistung klassifizieren und quantifizieren können11,13,23,24, 25,26. Jüngste Studien haben neue Deep-Learning-Architekturen vorgeschlagen, die auf einem CNN-RNN-Ansatz (Joint Recurrent Neural Network) basieren, mit vielversprechenden Ergebnissen und unterstreichen deren Potenzial zur Unterstützung von Radiologen und Ärzten bei ihrem klinischen Diagnose-Workflow15,27.

Obwohl die hervorragende Leistung von Deep-Learning-basierten KI-Algorithmen in der internen Validierungskohorte nachgewiesen wurde, bleibt das Erreichen dauerhaft günstiger Ergebnisse ohne Leistungseinbußen im externen Validierungsdatensatz, der aus einer vielfältigen Patientenpopulation und einem vielfältigen Scanner besteht, eine Herausforderung28,29.

In dieser Studie haben wir einen Deep-Learning-basierten automatischen KI-Erkennungsalgorithmus zur Identifizierung von AIH auf Gehirn-CT-Scans entwickelt, der auf einem neuen Ansatz basiert, der Blutungserkennung (basierend auf einem gemeinsamen CNN-RNN-System) und Anomalieerkennung (basierend auf unbeaufsichtigtem Training) kombiniert. Verwendung eines großen Datensatzes. Wir bewerten die diagnostische Leistung dieses KI-Algorithmus in einem großen externen Validierungsdatensatz, um unseren Ansatz zu validieren, und führen außerdem eine retrospektive Multi-Reader-Studie durch, um die Verbesserung der diagnostischen Leistung mithilfe unseres KI-Algorithmus durch Kliniker unterschiedlicher Fachkenntnisse zu validieren.

Der Gesamt-AUROC für die KI-Leistung im externen Validierungsdatensatz betrug 0,992 bzw. 0,977 für patientenbezogene bzw. schichtweise Analysen. Die patienten- und schichtweise Analyse ergab eine Sensitivität von 94,4 % bzw. 79,0 % und eine Spezifität von 98,2 % bzw. 99,3 %. Einzelheiten zu den Ergebnissen der externen Validierung sind in Tabelle 1 und den Ergänzungstabellen 1–3 aufgeführt.

Die Gesamt-AUROC für die eigenständige KI-Leistung im Datensatz für die Leserbewertungsstudie betrug 0,9874 und 0,9671 für patientenbezogene bzw. schnittweise Analysen (Abb. 3 und 4). Bei der patientenbezogenen Analyse wurde die beste diagnostische Leistung mit einem Cut-off-Wert von 39,84 %, einer Sensitivität von 95,89 % und einer Spezifität von 95,33 % erzielt. Bei der schichtweisen Analyse wurde die beste diagnostische Leistung mit einem Cut-off-Wert von 7,70 %, einer Sensitivität von 89,87 % und einer Spezifität von 91,60 % erzielt. Bei einem Cut-off-Wert von 50,0 % betrugen die Sensitivität und Spezifität 93,84 % bzw. 97,33 % in der patientenweisen Analyse und 67,26 % bzw. 99,60 % in der schichtweisen Analyse (Abb. 1 und 2). ).

In der Leserbewertungsstudie zeigte die KI-unterstützte Gruppe in der patientenbezogenen Analyse eine deutlich höhere diagnostische Genauigkeit bei der AIH-Erkennung als die KI-unterstützte Gruppe (0,9703 [95 %-KI: 0,9632, 0,9765] vs. 0,9471 [95 %-KI). : 0,9379, 0,9553], p < 0,0001). Basierend auf einer Subgruppenanalyse erzielten nicht-radiologische Ärzte den größten Nutzen hinsichtlich der Verbesserung der Diagnosegenauigkeit mit KI-Unterstützung im Vergleich zu der Gruppe ohne KI-Unterstützung (0,9505 [95 %-KI: 0,9340, 0,9638] vs. 0,9189 [95 %-KI). : 0,8990, 0,9360], mit einer Verbesserung von 3,15 [95 %-KI: 0,86, 5,45], p = 0,0072) für nicht-radiologische Ärzte auf das Niveau von Radiologen ohne KI-Unterstützung (0,9459 [95 %-KI: 0,9290, 0,9599]) . Darüber hinaus zeigten zertifizierte Radiologen eine signifikante Verbesserung der diagnostischen Genauigkeit mit KI-Unterstützung im Vergleich zu der Gruppe ohne KI-Unterstützung (0,9741 [95 %-KI: 0,9614, 0,9835] vs. 0,9459 [95 %-KI: 0,9290, 0,9599]). mit einer Verbesserung von 2,82 [95 %-KI: 1,00, 4,63], p = 0,0025), mit einer Verbesserung für staatlich geprüfte Radiologen auf dem Niveau von Neuroradiologen ohne KI-Unterstützung (0,9764 [95 %-KI: 0,9641, 0,9853]). Notiz. ROC: Betriebscharakteristik des Empfängers.

In der Leserbewertungsstudie zeigte die KI-unterstützte Gruppe in der schichtweisen Analyse eine deutlich höhere diagnostische Genauigkeit bei der Erkennung von AIH als die KI-unterstützte Gruppe (0,9581 [95 %-KI: 0,9569, 0,9592] vs. 0,9522 [95]). % KI: 0,9509, 0,9534], p < 0,0001). Basierend auf der Untergruppenanalyse zeigten nicht-radiologische Ärzte und staatlich geprüfte Radiologen eine signifikante Verbesserung der Diagnosegenauigkeit mit KI-Unterstützung im Vergleich zu der Gruppe ohne KI-Unterstützung (für nicht-radiologische Ärzte: 0,9393 [95 %-KI: 0,9369, 0,9417). ] vs. 0,9306 [95 %-KI: 0,9280, 0,9332], mit einem Unterschied von 0,87 [95 %-KI: 0,52, 1,22], p < 0,0001, für zertifizierte Radiologen 0,9632 [95 %-KI: 0,9623, 0,9661] vs. 0,9567 [95 %-KI: 0,9546, 0,9587], mit einem Unterschied von 0,75 [95 %-KI: 0,48, 1,03], p < 0,0001). Notiz. ROC: Betriebscharakteristik des Empfängers.

In der Leserbewertungsstudie zeigte die KI-unterstützte Gruppe eine deutlich höhere diagnostische Genauigkeit bei der Erkennung von AIH als die KI-unterstützte Gruppe sowohl bei patientenbezogenen (0,9703 vs. 0,9471, p < 0,0001) als auch bei schichtweisen Analysen (0,9581 vs. 0,9522, p < 0,0001). Im Vergleich zur KI-unterstützten Gruppe erreichte die KI-unterstützte Gruppe eine deutlich höhere Sensitivität (0,9718 vs. 0,9437, p = 0,0003 für die patientenbezogene Analyse und 0,8469 vs. 0,8299, p < 0,0001 für die schichtweise Analyse) und Spezifität (0,9689). vs. 0,9504, p = 0,0145 für patientenbezogene Analyse und 0,9855 vs. 0,9824, p < 0,0001 für schichtweise Analyse) (Tabellen 2 und 3, Abb. 1 und 2).

Unter den drei Untergruppen der Gutachter zeigten die nicht-radiologischen Ärzte die größte Verbesserung der diagnostischen Genauigkeit mit der Verwendung von KI-Unterstützung im Vergleich zu denen ohne KI-Unterstützung (0,9505 vs. 0,9189, mit einem Unterschied von 3,15 %, p = 0,0072 für Patienten- weise Analyse und 0,9393 vs. 0,9306, mit einem Unterschied von 0,87 %, p < 0,0001 für schichtweise Analyse). Für die zertifizierten Radiologen führte die AIH-Erkennung mit KI-Unterstützung zu einer deutlich höheren diagnostischen Genauigkeit im Vergleich zu der ohne KI-Unterstützung (0,9741 vs. 0,9459, mit einem Unterschied von 2,82 %, p = 0,0025 für die patientenbezogene Analyse und 0,9632 vs. 0,9567, mit einer Differenz von 0,75 %, p < 0,0001 für schichtweise Analyse). Für Neuroradiologen zeigte die AIH-Erkennung mit KI-Unterstützung zwar einen Trend zu höherer diagnostischer Genauigkeit im Vergleich zur Erkennung ohne KI-Unterstützung, diese erreichte jedoch keine statistische Signifikanz (0,9865 vs. 0,9764, mit einem Unterschied von 1,01 %, p = 0,1138 für die patientenbezogene Analyse). und 0,9706 vs. 0,9691, mit einem Unterschied von 0,15 %, p = 0,2345 für schichtweise Analyse) (Tabellen 2 und 3, Abb. 1 und 2). Die diagnostische Leistung der Gutachter mit grundlegenden ROC-Kurven für die KI-Standalone-Leistung basierend auf patienten- und schichtweisen Analysen ist in den Abbildungen dargestellt. 1 bzw. 2.

Die GEE-Analyse ergab, dass die KI-Unterstützung zu einer signifikanten Steigerung der Genauigkeit sowohl bei der Patientenanalyse (3,67 für die KI-unterstützte Gruppe und 3,01 für die KI-unterstützte Gruppe, mit einem Unterschied von 0,66, p = 0,0075) als auch bei der schichtweisen Analyse führte ( 3,21 für die KI-unterstützte Gruppe und 3,03 für die KI-unterstützte Gruppe, mit einer Differenz von 0,18, p < 0,0001). Die Sensitivität erhöhte sich signifikant sowohl in der Patientenanalyse (4,24 für die KI-unterstützte Gruppe und 2,89 für die KI-unterstützte Gruppe, mit einem Unterschied von 1,35, p = 0,017) als auch in der schichtweisen Analyse (1,75 für die KI-unterstützte Gruppe und 1,69 für). die Gruppe ohne KI-Unterstützung, mit einer Differenz von 0,05, p = 0,3273). Auch die Spezifität nahm sowohl bei der Patientenanalyse (3,81 für die KI-unterstützte Gruppe und 3,17 für die KI-unterstützte Gruppe, mit einem Unterschied von 0,364, p = 0,0376) als auch bei der schichtweisen Analyse (4,56 für die KI-unterstützte Gruppe und 4,15) signifikant zu für die Gruppe ohne KI-Unterstützung mit einer Differenz von 0,41, p < 0,0001) (Ergänzungstabellen 4–7).

Der ICC gab an, dass die KI-unterstützte und die KI-ununterstützte Gruppe eine ausgezeichnete (0,9193) bzw. gute (0,8475) Zuverlässigkeit aufwiesen. Repräsentative Bilder der AIH-Erkennung aus Gehirn-CT-Bildern sind in Abb. 3 und der ergänzenden Abb. 1 dargestellt.

Eine KI-gestützte Gehirn-CT ergab, dass die basale Zisterne und die rechte Umgebungszisterne wahrscheinlich eine AIH-Position aufweisen. Die KI-gestützte Gehirn-CT lieferte AIH-Wahrscheinlichkeitswerte schichtweise (95,8 %) und patientenbezogen (99,4 %). Alle neun Gutachter stimmten der AIH-Diagnose sowohl für KI-ungestützte als auch KI-gestützte Interpretationen zu. b Die AI-unterstützte Gehirn-CT ergab, dass sich die AIH wahrscheinlich auf der linken Seite des Falx befindet. Die KI-gestützte Gehirn-CT lieferte die AIH-Wahrscheinlichkeitswerte schichtweise (62,2 %) und patientenbezogen (95,3 %). Bei der Interpretation ohne KI-Unterstützung hat ein Gutachter (nichtradiologischer Arzt) diesen Fall von AIH auf der linken Seite des Falx übersehen. Alle neun Gutachter stimmten der AIH-Diagnose sowohl für KI-ungestützte als auch KI-gestützte Interpretationen zu. c Die AI-unterstützte Gehirn-CT ergab, dass die AIH wahrscheinlich im linken Sulci parietalis lokalisiert ist. Die KI-gestützte Gehirn-CT lieferte AIH-Wahrscheinlichkeitswerte schichtweise (39,0 %) und patientenbezogen (46,3 %). Bei der Interpretation ohne KI-Unterstützung übersahen zwei Drittel der Gutachter (drei nicht-radiologische Ärzte, zwei staatlich geprüfte Radiologen und ein Neuroradiologe) diesen Fall von AIH im linken Sulci parietalis. Mithilfe von KI-Unterstützung konnten diese sechs Gutachter ihre Entscheidungen korrekt revidieren. d Die KI-gestützte Gehirn-CT ergab, dass der wahrscheinliche AIH-Standort der linke Frontalbereich ist. Die KI-gestützte Gehirn-CT lieferte die AIH-Wahrscheinlichkeitswerte schichtweise (54,9 %) und patientenbezogen (65,8 %). Bei der Interpretation ohne KI-Unterstützung gaben ein Drittel der Gutachter (ein nicht-radiologischer Arzt und zwei staatlich geprüfte Radiologen) an, dass es sich um eine AIH handelte. Mithilfe der KI-Unterstützung gab ein weiteres Drittel der Gutachter (ein nicht-radiologischer Arzt, ein staatlich geprüfter Radiologe und ein Neuroradiologe) an, dass es sich um einen AIH handelte. Die subtile hyperabschwächende Läsion im linken Frontalbereich war jedoch auf das Strahlhärtungsartefakt des Schädels zurückzuführen.

In der vorliegenden Studie haben wir über einen neuen KI-Algorithmus berichtet, der eine Kombination aus überwachtem Training zur Blutungserkennung und unüberwachtem Training zur Anomalieerkennung verwendet. Darüber hinaus haben wir eine gemeinsame CNN-RNN-Architektur zur Blutungserkennung eingesetzt. Unser KI-Algorithmus erreichte eine hohe Genauigkeit für die eigenständige KI-Erkennung, und seine Verwendung bei der KI-gestützten Interpretation führte zu einer überlegenen diagnostischen Leistung bei der Erkennung von AIH im Vergleich zur Interpretation ohne KI-Unterstützung.

In Bezug auf die AUROC-Werte wurde die Leistung des eigenständigen KI-Algorithmus in der externen Validierungsstudie (0,992 bzw. 0,977 bei patienten- bzw. schichtweisen Analysen) und der Leserbewertungsstudie (0,9874 bzw. 0,9671 bei patienten- bzw. schichtweisen Analysen) berücksichtigt ) waren vergleichbar mit der Leistung der Neuroradiologen-Untergruppe ohne KI-Unterstützung (0,9764 bzw. 0,9691 in patienten- bzw. schichtweisen Analysen). Diese diagnostischen Genauigkeiten waren höher als die in den meisten früheren Studien gemeldeten Ergebnisse7,8,10,11,13,15 und waren vergleichbar mit den Ergebnissen einer früheren Studie (AUROC = 0,991), in der berichtet wurde, dass die Leistung der eigenständigen KI vergleichbar war mit das von hochqualifizierten Experten13. Darüber hinaus war in der vorliegenden Studie die hohe Sensitivität von 95,89 % und die Spezifität von 95,33 %, die unser Ansatz bei einem Cut-off-Wert von 39,84 % in der patientenbezogenen Analyse erreichte, höher als die Werte, die von Gutachtern ohne KI-Unterstützung erreicht wurden (94,37 %). bzw. 95,04 %). Die vielversprechenden Ergebnisse unseres KI-Algorithmus unterstreichen sein Potenzial für die genaue Erkennung von AIH auf Gehirn-CT-Bildern.

In der Leserbewertungsstudie, die ein retrospektives, zulassungsrelevantes, randomisiertes Crossover-Studiendesign mit mehreren Lesern verwendete, zeigte die KI-unterstützte Gruppe eine deutlich höhere diagnostische Genauigkeit bei der Erkennung von AIH als die KI-unterstützte Gruppe. Darüber hinaus wurde die überlegene Leistung der KI-unterstützten Gruppe hinsichtlich der diagnostischen Genauigkeit mithilfe der GEE-Analyse validiert. Nach unserem besten Wissen wurde bisher nicht über die vorteilhaften Auswirkungen der KI-Unterstützung bei der Leserinterpretation zur Erkennung von AIH auf Gehirn-CT-Bildern berichtet. Die vielversprechenden Ergebnisse dieser Studie untermauern die praktische Relevanz des Einsatzes von KI im klinischen Umfeld zur Verbesserung der Patientenversorgung. Insbesondere erreichte die diagnostische Leistung von nicht-radiologischen Ärzten mit Hilfe unseres KI-Algorithmus das Niveau von Radiologen und die diagnostische Leistung von Radiologen das Niveau von Neuroradiologen bei der Erkennung von AIH auf Gehirn-CT-Bildern. Wir glauben, dass unser KI-Algorithmus eine Schlüsselrolle als zuverlässiger Assistent in der realen klinischen Praxis spielen könnte, wo eine schnelle Hilfe durch erfahrene Radiologen oder Neuroradiologen möglicherweise nicht verfügbar ist. Darüber hinaus kann unser KI-Algorithmus Radiologen und Neuroradiologen teilweise entlasten, die mit großen Mengen an CT-Bildern konfrontiert werden, die zeitnah mit hoher diagnostischer Genauigkeit und Effizienz interpretiert werden müssen. Die in dieser Studie beobachtete signifikante Verbesserung der Sensitivität deutet darauf hin, dass der vorliegende KI-Algorithmus das Auftreten falsch negativer Ergebnisse, bei denen AIH fälschlicherweise ausgeschlossen werden kann, reduzieren und so eine schnelle Behandlung ermöglichen kann, die für Patienten mit AIH von entscheidender Bedeutung ist.

Es ist interessant festzustellen, dass der Unterschied zwischen AI-unterstützter und AI-ununterstützter Empfindlichkeit einen niedrigeren Wert für die schnittweise Methode (1,70 %) als für die patientenweise Methode (2,82 %) zeigt, und die Verbesserung hinsichtlich Die Sensitivität für nicht-radiologische Ärzte auf patientenbezogener Ebene erreichte nicht die statistische Signifikanz auf schichtweiser Ebene (Tabellen 2 und 3). Darüber hinaus scheiterte laut GEE-Analyse das Erreichen einer statistisch signifikanten Überlegenheit nur bei der schichtweisen Analyse der Sensitivität (Ergänzungstabelle 6). Die geringe Sensitivität der eigenständigen KI auf schichtweiser Ebene (89,87 %) im Vergleich zu der auf patientenbezogener Ebene (95,89 %) könnte einen konsistenten positiven Effekt auf die Entscheidung zu einer Herausforderung machen. Darüber hinaus könnte sich der Rückgang der positiven Rolle stärker auf die Gruppe der nichtradiologischen Ärzte auswirken. Allerdings bleibt die statistisch signifikante Verbesserung der Empfindlichkeit in der Gruppe der Neuroradiologen nur schichtweise eine Herausforderung, die erklärt werden muss.

Obwohl die Spezifität in der KI-unterstützten Gruppe bei allen Lesern deutlich verbessert wurde, beobachteten wir keine statistisch signifikante Verbesserung der Spezifität für jede Gruppe. Dies deutet darauf hin, dass die Fähigkeit des aktuellen KI-Algorithmus zur Reduzierung falsch positiver Ergebnisse möglicherweise begrenzt ist und dass unser KI-Algorithmus eher als unterstützendes Werkzeug als als alternative Methode zur Erkennung von AIH auf Gehirn-CT-Bildern geeignet ist.

In der vorliegenden Studie beschreiben wir die Entwicklung eines neuen KI-Algorithmus, der Blutungserkennungs- und Anomalieerkennungsprozesse kombiniert, mit dem Ziel, die diagnostische Leistung für die Identifizierung von AIH auf Gehirn-CT-Bildern zu verbessern. Die meisten bisherigen KI-Algorithmen zur Analyse medizinischer Bildgebung, einschließlich derjenigen zur Erkennung intrakranieller Blutungen, wurden unter Verwendung einer überwachten Kennzeichnung von Trainingsbildern entwickelt, um den Biomarker-Erkennungsprozess zu erleichtern7,8,10,11,13,15,16,17. Obwohl das Training mit von Experten gekennzeichneten Bildern zu vielversprechenden Ergebnissen geführt hat27,30,31, sind Unstimmigkeiten in gekennzeichneten Bereichen zwischen Experten unvermeidbar. Darüber hinaus tragen schlecht definierte Merkmale, Variationen in Größe und Morphologie sowie die Abschwächung der AIH zu Unstimmigkeiten zwischen Beobachtern bei, die selbst zwischen erfahrenen Neuroradiologen auftreten können. Bei der Anomalieerkennung handelt es sich um den Prozess der Identifizierung abnormaler Bereiche auf der Grundlage eines unbeaufsichtigten Trainings unter Verwendung normaler Daten21,22,32. Die Anwendung der Anomalieerkennung basierend auf unbeaufsichtigtem Training unter Verwendung normaler Gehirn-CT-Bilder kann die Nachteile herkömmlicher KI-Algorithmen zur AIH-Erkennung überwinden, die auf überwachtem Training basieren. In der vorliegenden Studie könnte die Kombination aus Blutungserkennung und Anomalieerkennung auf der Grundlage eines relativ großen Datensatzes zu der überlegenen Leistung des aktuellen KI-Algorithmus beigetragen haben.

Um die oben genannten Probleme zu überwinden und die Diagnoseleistung zu verbessern, haben wir in unserem KI-Algorithmus ein kombiniertes CNN-RNN verwendet. Im Hinblick auf Deep-Learning-Architekturen wurden in früheren Studien überwiegend Algorithmen verwendet, die auf 2D- oder 3D-CNNs basieren11,13,23,24,25,26. Allerdings bestehen CT-Bilder des Gehirns aus einer Reihe von 2D-Bildern, die Informationen über tatsächliche 3D-Strukturen enthalten. Daher haben wir in der vorliegenden Studie eine Architektur entworfen, die besser für die Verarbeitung von 3D-Daten geeignet ist, und zusätzlich ein RNN-Modul auf das häufigere CNN-Modul angewendet. Die zusätzliche Verwendung dieses RNN ermöglichte genauere AIH-Wahrscheinlichkeitswerte für den Patienten und eine verbesserte diagnostische Leistung sowohl auf Patienten- als auch auf Schichtebene.

Weitere Arbeiten sind erforderlich, um den Nutzen dieses KI-Algorithmus aus klinischer Sicht zu untersuchen, einschließlich Untersuchungen zur damit verbundenen Morbidität oder Mortalität. In der vorliegenden Studie haben wir uns mit der diagnostischen Genauigkeit des vorliegenden KI-Algorithmus bei der Erkennung von AIH auf Gehirn-CT-Bildern befasst; Die kritischen Merkmale der AIH-Entwicklung, die mit den klinischen Ergebnissen verbunden sind, einschließlich Blutungsvolumen und -ausbreitung, erfordern jedoch eine Beurteilung mit anschließender Bildgebung, um ein vollständiges Verständnis der diagnostischen Genauigkeit unseres Ansatzes zu erlangen. Daher werden weitere Untersuchungen zum klinischen Nutzen des vorliegenden KI-Algorithmus bei Patienten mit kritischer AIH, für die klinische Ergebnisse verfügbar sind, seine mögliche Rolle bei der Diagnose und Behandlung dieser Erkrankung klären. Darüber hinaus entsprach die Leseumgebung in dieser experimentellen Studie nicht der täglichen Praxis, insbesondere im Hinblick auf die Verwendung klinischer Informationen. Im klinischen Umfeld trugen Patienteninformationen, einschließlich der Hauptbeschwerden, Symptome, Ergebnisse der körperlichen Untersuchung und der Krankengeschichte in der Vergangenheit, zu einer überlegenen diagnostischen Leistung der Ärzte bei. Daher ist die direkte Anwendung des vorliegenden KI-Algorithmus aufgrund seiner hervorragenden diagnostischen Leistung in dieser experimentellen Studie möglicherweise verfrüht. Darüber hinaus kann die Klassifizierung von AIH durch das Goldstandard-Prüfungsgremium in dieser Studie eine Einschränkung darstellen. Die Bestimmung des Goldstandards für AIH ist eine Herausforderung, insbesondere wenn das Ausmaß der Blutung so gering ist, dass keine Behandlung angezeigt ist und weitere diagnostische Schritte, wie z. B. eine Lumbalpunktion, nicht routinemäßig in Betracht gezogen werden und möglicherweise sogar ungenau sind. Die Grundwahrheit ist in solchen Fällen in der klinischen Routinemedizin möglicherweise nicht erkennbar. Um den natürlichen Nachteil bei der Diagnose von AIH zu minimieren, basierte der Goldstandard für die AIH-Klassifizierung in der vorliegenden Studie auf der Interpretation des Goldstandard-Prüfungsgremiums, bestehend aus drei Neuroradiologen mit mindestens 11 Jahren einschlägiger Erfahrung als Radiologen, darunter bei mindestens 7 Jahre Erfahrung als Neuroradiologe. Es war jedoch eine Herausforderung, eine vollständige Übereinstimmung zwischen den beiden primären Neuroradiologen zu erreichen. In der vorliegenden Studie betrug der gewichtete Kappa-Wert für die Interbeurteiler-Übereinstimmung zwischen den erfahrenen Neuroradiologen 0,9865, und zwei Fälle, die ursprünglich in die AIH-Gruppe aufgenommen wurden, wurden in die normale Gruppe (ohne AIH) umklassifiziert. Obwohl unser Ansatz, eine Goldstandard-Diagnose zu erreichen, vernünftig war, kann es Einschränkungen hinsichtlich der Eignung unserer Methode zur Identifizierung des Goldstandards geben, der zur Validierung des KI-Algorithmus verwendet wird, der diesen Entscheidungen zufolge eine diagnostische Genauigkeit von bis zu 0,9874 erreichte . Schließlich stellen demografische Merkmale der eingeschlossenen Fälle und das retrospektive Design der Studie, das eine mögliche Selektionsverzerrung zulässt, weitere Einschränkungen dar.

Zusammenfassend haben wir einen auf Deep Learning basierenden KI-Algorithmus für die automatische AIH-Erkennung auf Gehirn-CT-Bildern entwickelt, der auf einer Kombination aus einem Blutungserkennungsprozess, der eine kombinierte CNN-RNN-Architektur verwendet, und einem Anomalieerkennungsprozess, der unbeaufsichtigtes Training verwendet, basiert. Die diagnostische Leistung des KI-Algorithmus wurde in einem großen externen Validierungsdatensatz validiert. Darüber hinaus wurde in dieser retrospektiven Multi-Reader-Studie auch die Verbesserung der Diagnoseleistung mit KI-Unterstützung im Vergleich zu ohne KI-Unterstützung validiert.

Wir haben einen auf Deep Learning basierenden KI-Algorithmus (Medical Insight+ Brain Hemorrhage, SK Inc. C&C, Seongnam, Republik Korea) für die automatische AIH-Erkennung bei Gehirn-CT-Scans entwickelt und validiert. Diese Studie wurde von den institutionellen Prüfungsausschüssen der teilnehmenden Institutionen genehmigt (H-2007-061-1140, Institutional Review Board des Seoul National University Hospital [Institution A] und AJIRB-DEV-DE3-20-379, Ajou University Medical Center Institutional Review). Aufgrund des retrospektiven Charakters dieser Studie wurde auf das Erfordernis einer Einwilligung nach Aufklärung verzichtet.

Zur Entwicklung des KI-Algorithmus zur Verwendung mit unserer Software zur Diagnoseunterstützung wurden 104.666 Schnitte (28.351 [27,1 %] mit AIH und 76.315 [72,9 %] ohne AIH) von 3.010 Patienten (2010 [66,8 %] mit AIH und 1.000 [33,2 %] ohne AIH verwendet AIH) von zwei Institutionen (Seoul National University Hospital [Institution A] und Ajou University Medical Center [Institution B]) wurden für die Modellentwicklung verwendet. Die Daten wurden von Patienten in den Einrichtungen A und B zwischen April 2009 und Dezember 2015 bzw. zwischen April 2004 und April 2020 erhoben. AIH bei der zugrunde liegenden Pathologie (einschließlich intratumoraler Blutung und hämorrhagischer Transformation an der Stelle des akuten ischämischen Schlaganfalls) sowie solitäre AIH wurden ebenfalls in die AIH-Gruppe aufgenommen. Der Großteil des Entwicklungsdatensatzes (2632 von insgesamt 3010 Patienten [87,4 %]) hatte eine Schichtdicke von 5 mm (2,5 mm [n = 3], 3,0 mm [n = 104], 3,75 mm [n = 1], 4,0 mm [n = 40], 4,5 mm [n = 209], 4,8 mm [n = 12], 5,3125 mm [n = 1], 6,0 mm [n = 4] und 7,0 mm [n = 4]).

Für die externe Validierung der diagnostischen Leistung des AI-Algorithmus wurden 1.855.465 Schichten (73.467 [4,0 %] mit AIH und 1.781.998 [96,0 %] ohne AIH) von 49.841 Patienten (6442 [12,9 %] mit AIH und 43.399 [87,1 %] ohne AIH) im AI Hub unter der Leitung der Korean National Information Society Agency (https://aihub.or.kr/aidata/34101) verwendet. Dieser Datensatz wurde im Jahr 2020 von sechs medizinischen Einrichtungen in Korea im Rahmen eines großen Datenerfassungsprojekts zu zerebrovaskulären Erkrankungen erfasst. Die Krankenhäuser, die an der Datenerfassung für den KI-Hub beteiligt sind, unterscheiden sich von den Krankenhäusern, von denen der Entwicklungsdatensatz erfasst wurde. Die Entscheidung darüber, ob alle 1.855.465 Schichten von 49.841 Patienten entweder AIH oder normal waren, wurde auf der Grundlage der Bildinterpretation durch die Neuroradiologen jeder Einrichtung getroffen. Insgesamt 6442 CT-Bilder zeigten AIH, darunter 2424 Fälle von Subarachnoidalblutung, 2738 Fälle von Subduralblutung, 371 Fälle von Epiduralblutung, 1266 Fälle von intraventrikulärer Blutung und 3367 Fälle von intraparenchymaler Blutung (Hinweis: Überlappende Subtypen waren möglich). Insgesamt 73.467 Schnitte zeigten AIH, darunter 32.751 Fälle von Subarachnoidalblutung, 39.604 Fälle von Subduralblutung, 4.567 Fälle von Epiduralblutung, 18.220 Fälle von intraventrikulärer Blutung und 35.669 Fälle von intraparenchymaler Blutung (Anmerkung: überlappende Subduralblutung). Typen waren möglich). Eine Zusammenfassung der Patienten- und Scannerinformationen zur externen Validierung finden Sie in den Ergänzungstabellen 8 und 9.

Zur Leserbeurteilung wurde ein vom Entwicklungsdatensatz zeitlich getrennter Datensatz erfasst. Insgesamt wurden 12.663 Gehirn-CT-Schnitte (2.508 AIH [19,8 %] und 10.155 normal [81,2 %]) von 296 Patienten (146 AIH [49,3 %] und 150 normale [51,7 %]) CT-Schnitte von zwei Institutionen (Seoul National) entnommen Universitätsklinikum [Einrichtung A] und Ajou University Medical Center [Einrichtung B]). Die Daten wurden von Patienten in den Einrichtungen A und B zwischen Januar 2016 und Dezember 2019 bzw. zwischen April 2004 und April 2020 erhoben. Patienten, die in den Entwicklungsdatensatz aufgenommen wurden, waren nicht in den Leserstudiendatensatz aufgenommen.

Alle 296 vollständigen CT-Bilder, die die gegenüber zuvor gemeldeten Kriterien geänderten Kriterien für die Bildqualität erfüllten, wurden als Datensatz für die Leserbewertungsstudie aufgenommen (Ergänzungstabelle 10)33,34. Die Anzahl der erforderlichen CT-Bilder wurde mithilfe der Trennschärfeschätzungsmethode berechnet, wobei das Signifikanzniveau auf 5 % und die Trennschärfe auf 90 % festgelegt wurden. Diese basierte auf einer Sensitivität von 88,6 %, wie zuvor berichtet27, und einer Sensitivität von 98,5 % aus der internen Validierung von der aktuelle KI-Algorithmus. Dies führte zu insgesamt 148 CT-Bildern für jede Gruppe, was einer Abbrecherquote von 15 % entsprach. Basierend auf einer Spezifität von 88,6 % in einer früheren Studie27 und einer Spezifität von 96,0 % aus der internen Validierung des aktuellen KI-Algorithmus wurden außerdem 114 CT-Bilder für jede Gruppe erhalten, was einer Abbrecherquote von 15 % entspricht.

Der Goldstandard für die Interpretation aller 12.663 Schichten aus 296 CT-Bildern als entweder AIH oder normal wurde durch sorgfältigen Konsens eines Goldstandard-Prüfungsgremiums erreicht, das aus drei Neuroradiologen mit mindestens 11 bzw. 7 Jahren Erfahrung als Radiologen bzw. Neuroradiologen bestand. Für die CT-Interpretation interpretierten zwei Radiologen unabhängig voneinander das Vorhandensein oder Fehlen von AIH sowohl patientenbezogen als auch schichtweise. Ein dritter Neuroradiologe überprüfte die Fälle, bei denen es zwischen den beiden ersten Neuroradiologen Meinungsverschiedenheiten gab, um eine endgültige Entscheidung zu treffen. Der gewichtete Kappa-Wert der Interbeurteiler-Übereinstimmung zwischen den anfänglichen unabhängigen Interpretationen durch erfahrene Neuroradiologen betrug 0,9865 [95 %-KI: 0,9732, 0,9997] für die patientenbezogene Analyse und basierte auf den Interpretationen des Goldstandard-Prüfungsgremiums. Zwei Fälle, die laut Krankenakten zunächst der AIH-Gruppe zugeordnet worden waren, wurden in die Normalgruppe umklassifiziert. Insgesamt zeigten 146 CT-Bilder AIH, darunter 101 Fälle von Subarachnoidalblutung, 72 Fälle von Subduralblutung, 20 Fälle von Epiduralblutung, 40 Fälle von intraventrikulärer Blutung und 66 Fälle von intraparenchymaler Blutung (Hinweis: Überlappende Subtypen waren möglich). Insgesamt 2508 Schnitte zeigten AIH, darunter 1408 Fälle von Subarachnoidalblutung, 1150 Fälle von Subduralblutung, 228 Fälle von Epiduralblutung, 240 Fälle von intraventrikulärer Blutung und 535 Fälle von intraparenchymaler Blutung (Hinweis: Überlappende Subtypen waren möglich). Eine Zusammenfassung der Leserstudienpopulation ist in der Ergänzungstabelle 11 dargestellt.

Für die Entwicklung des KI-Algorithmus wurden 28.351 Schichten von 2010 Patienten mit AIH und 1.000 normalen Teilnehmern von Neuroradiologen mit nordicICE Version 4.1.3 (NordicNeuroLab, Bergen, Norwegen) mit Anmerkungen versehen, wobei ein besonderer Schwerpunkt auf AIH-Bereichen lag. Um die Nachteile der Variabilität zwischen Beobachtern durch überwachtes Training zu überwinden, haben wir einen neuen KI-Algorithmus entwickelt, der auf einer Kombination aus einem überwachten Blutungserkennungsprozess und einem unbeaufsichtigten Anomalieerkennungsprozess basiert.

Der Zweck des Blutungserkennungsprozesses besteht darin, vorherzusagen, ob AIH auf Gehirn-CT-Bildern vorhanden ist. Dieser Prozess besteht aus zwei Modulen15,27,35. Das erste ist ein CNN-basiertes Blutungserkennungsmodul, das den Merkmalsvektor und den AIH-Score für das Ziel bereitstellt. Das zweite ist ein RNN-basiertes Sequenzmodul mit Doppelschichten. In diesem Modul werden genauere AIH-Scores für jedes Segment erstellt, indem die Merkmalsvektoren und Scores aus dem ersten Modul als Eingaben verwendet werden, um die Einschränkungen von CNNs in Bezug auf die 3D-Bilddatenanalyse zu überwinden. Darüber hinaus wurden für jeden Patienten gleichzeitig Scores erfasst.

Ein Anomalieerkennungsprozess wurde angewendet, um vorherzusagen, ob Anomalien auf Gehirn-CT-Bildern vorhanden waren. In diesem Prozess wurde ein Generierungsmodul verwendet, das auf einem Variations-Auto-Encoder36,37 und einem generativen gegnerischen Netzwerk38 basiert. Das Generierungsmodul wurde darauf trainiert, unter Verwendung von Bildern aus der Normalgruppe normale CT-Schnitte (wiederhergestellte CT-Bilder) zu erzeugen. Daher zeigte ein Vergleich der wiederhergestellten und eingegebenen CT-Bilder Bereiche mit Anomalien an, wenn bei der Blutungserkennung Bereiche berücksichtigt wurden, bei denen vermutet wurde, dass sie AIH aufweisen.

Schließlich wurden dem Betrachter des Bildarchivierungs- und Kommunikationssystems (PACS) zusammen mit den Original-CT-Bildern des Gehirns KI-gestützte CT-Bilder des Gehirns bereitgestellt, die eine eingebettete Heatmap enthielten, die den wahrscheinlichen Ort von AIH gemäß patienten- und schichtweiser AIH-Wahrscheinlichkeitsbewertungen darstellte (Abb. 1). Eine Übersicht und Details der KI-Algorithmusarchitektur sind in Abb. 4 und den ergänzenden Abbildungen dargestellt. 2 und 3.

Das Diagramm zeigt die Architektur des vorgeschlagenen KI-Algorithmus. Dieser neue KI-Algorithmus kombinierte einen überwachten Blutungserkennungsprozess und einen unbeaufsichtigten Anomalieerkennungsprozess. Darüber hinaus wurde bei der Blutungserkennung eine kombinierte CNN-RNN-Architektur eingesetzt. Das Vorhandensein oder Nichtvorhandensein wird durch den Blutungserkennungsprozess bestimmt. Als Ergebnis dieses Blutungserkennungsprozesses liefert der KI-Algorithmus den AIH-Score patienten- und schichtweise. Der KI-Algorithmus stellt die Anomaliekarte für AIH-Patienten durch Subtraktion zwischen dem ursprünglichen CT-Bild und dem wiederhergestellten CT-Bild (künstlich generiertes normales Bild basierend auf dem unbeaufsichtigten Training aus dem normalen Datensatz) und Nachbearbeitung bereit. Die durchschnittliche zusätzliche Zeit für den Zugriff auf die KI-gestützten CT-Bilder auf dem PACS-Viewer betrug 97,4 Sekunden. Die Zeit vom PACS-Server zur KI, die KI-Verarbeitungszeit und die Zeit von der KI zum PACS-Viewer betrugen 54,6 Sekunden (Bereich: 37–91 Sekunden), 11,8 Sekunden (Bereich: 0,8–90,6 Sekunden) und 31,0 Sekunden (Bereich: 30–33 Sekunden). ). Notiz. AIH akute intrakranielle Blutung, PACS-Bildarchivierungs- und Kommunikationssystem, CNN Convolutional Neural Network, RNN Recurrent Neural Network, VAE Variational Autoencoder, GAN Generative Adversarial Network.

AIH-Wahrscheinlichkeitswerte pro Patient und pro Schicht wurden verwendet, um die eigenständigen Leistungsmetriken unseres KI-Algorithmus zu bewerten, einschließlich Genauigkeit, Empfindlichkeit, Spezifität, positiver Vorhersagewert, negativer Vorhersagewert, F1-Wert und Fläche unter der Betriebskennlinie des Empfängers (AUROC).

AIH-Wahrscheinlichkeitswerte pro Patient und pro Schicht wurden verwendet, um die eigenständigen Leistungsmetriken unseres KI-Algorithmus zu bewerten, einschließlich AUROC, Sensitivität und Spezifität.

Es wurde eine retrospektive, multi-reader, Crossover, Überlegenheit, zulassungsrelevante, randomisierte Studie durchgeführt, um die Wirksamkeit der Software zu bewerten, die die Diagnoseentscheidung in Bezug auf die Identifizierung und Erkennung von intrakraniellen Blutungen auf Gehirn-CT-Scans unterstützt (Clinical Research Information Service of Republic of). Korea [https://cris.nih.go.kr; Kennung: KCT0006734], ein koreanisches Primärregister der International Clinical Trials Registry Platform der Weltgesundheitsorganisation, das unter der Leitung der Korea Disease Control and Prevention Agency steht) ( Ergänzende Anmerkung (Studiendetails)).

Diese retrospektive Multi-Reader-Studie wurde mit neun Gutachtern aus vier Institutionen in Südkorea (Seoul National University Hospital, Ajou University Medical Center, Bundang Seoul National University Hospital und Seongnam Medical Center) durchgeführt, wobei als Studie 12.663 Gehirn-CT-Schnitte von 296 Patienten verwendet wurden Datensatz. Neun Ärzte aus drei verschiedenen Untergruppen mit gleicher Anzahl (d. h. drei nicht-radiologische Ärzte mit 5–7 Jahren Erfahrung in dieser Rolle, drei staatlich geprüfte Radiologen mit 5–7 Jahren Erfahrung in dieser Rolle und drei Neuroradiologen mit Facharztausbildung). mit 7–11 Jahren Erfahrung als Radiologe, davon 3–7 Jahre Erfahrung als Neuroradiologe) nahmen als Gutachter teil.

In dieser retrospektiven, zulassungsrelevanten, randomisierten Crossover-Studie mit mehreren Lesern wurde der vollständige CT-Datensatz vor der ersten Bewertung in die Gruppen A und B aufgeteilt, die jeweils CT-Bilder von 148 Patienten umfassten, und die Nummern für die sequentielle Bewertung wurden zufällig zugewiesen. Gruppe A bestand aus Original-CT-Bildern und entsprechenden KI-unterstützten CT-Bildern, während Gruppe B nur aus Original-CT-Bildern ohne KI-unterstützte CT-Bilder bestand. Die KI-gestützten CT-Bilder lieferten eine Heatmap mit Informationen zum vermuteten Ort der AIH und zur Wahrscheinlichkeit einer AIH, patienten- und schnittweise. Jeder Gutachter überprüfte die CT-Bilder unabhängig auf die Erkennung von AIH. Der PACS-Bildbetrachter wurde verwendet, um CT-Bilder patienten- und schichtweise zu beurteilen. Die Gutachter waren gegenüber den Entscheidungen des Goldstandard-Prüfungsgremiums in Bezug auf AIH und den Anteil der AIH-Fälle im bewerteten Datensatz blind. Nach einer Auswaschphase von 4–5 Wochen wurde eine zweite Bewertung durchgeführt. In der zweiten Bewertung wurde der Datensatz der Gruppe A, der während der ersten Bewertung Original- und KI-unterstützte CT-Bilder umfasste, so geändert, dass er nur die Original-CT-Bilder ohne KI-unterstützte CT-Bilder umfasste, während der Gruppe B KI-unterstützte CT-Bilder hinzugefügt wurden Datensatz, der zuvor nur die Original-CT-Bilder ohne KI-gestützte CT-Bilder enthielt. Die Nummern für sequentielle Bewertungen wurden nach dem Zufallsprinzip neu vergeben. Jeder Gutachter wiederholte den gleichen Überprüfungsprozess wie bei der ersten Bewertung. Eine schematische Übersicht über das Studiendesign ist in Abb. 5 dargestellt.

Das schematische Diagramm zeigt das retrospektive, zulassungsrelevante, randomisierte Crossover-Studiendesign, das in der vorliegenden Studie verwendet wurde (links). Bei der ersten Bildüberprüfung bestand Gruppe A aus Original-CT-Bildern und entsprechenden KI-unterstützten CT-Bildern, während Gruppe B nur aus den Original-CT-Bildern ohne KI-unterstützte CT-Bilder bestand. Nach einer Auswaschphase von 4 bis 5 Wochen wurde der Datensatz der Gruppe A bei der zweiten Bildüberprüfung so geändert, dass er nur die ursprünglichen CT-Bilder ohne KI-unterstützte CT-Bilder enthielt, während KI-unterstützte CT-Bilder dem Datensatz der Gruppe B hinzugefügt wurden . Die KI-gestützten CT-Bilder lieferten patienten- und schichtweise eine Heatmap mit Informationen über den vermuteten Ort und die Wahrscheinlichkeit einer AIH (rechts).

Die KI-Bestimmung basierte darauf, ob die vom KI-Algorithmus bereitgestellte Wahrscheinlichkeit gleich oder über dem Grenzwert lag. Bei der externen Validierung galt eine Entscheidung als richtig, wenn die KI-Bestimmung mit der vorgeschlagenen Entscheidung übereinstimmte, die auf der Grundlage der Basisinformationen im externen Validierungsdatensatz getroffen wurde; Sensitivität und Spezifität wurden mit einem Cutoff-Wert von 50,0 % berechnet. Bei einer eigenständigen KI-Bewertung galt eine Entscheidung jedoch als richtig, wenn die KI-Bestimmung mit der Entscheidung des Goldstandard-Prüfungsgremiums für die AUROC-Analyse übereinstimmte; Sensitivität und Spezifität wurden ebenfalls mit einem Cutoff-Wert von 50,0 % berechnet.

In der Leserstudie wurde die Richtigkeit einer Entscheidung anhand der Frage ermittelt, ob die Entscheidung des Lesers mit der Entscheidung des Goldstandard-Prüfungsgremiums übereinstimmte. Sensitivität, Spezifität und Genauigkeit wurden zwischen KI-unterstützten und KI-ununterstützten Gruppen mithilfe des Chi-Quadrat-Tests verglichen. Um die überlegene Leistung der KI-unterstützten Gruppe im Vergleich zu der der KI-ununterstützten Gruppe zu validieren, wurde für Signifikanztests und zur Schätzung der 95 %-Konfidenzintervalle (CIs) eine logistische Regression unter Verwendung der Methode der generalisierten Schätzgleichung (GEE) verwendet. Die Übereinstimmung zwischen Beobachtern nach AIH-Subtyp wurde mithilfe eines klasseninternen Korrelationskoeffizienten basierend auf einer patientenbezogenen Analyse analysiert. Alle Analysen wurden mit der SAS-Statistiksoftware (Version 9.4; SAS Institute, Cary, NC, USA) durchgeführt.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Research Reporting Summary.

Weitere Dokumente zu dieser Studie sind auf begründete Anfrage beim entsprechenden Autor erhältlich. Die Datensätze des Seoul National University Hospital und des Ajou University Medical Center wurden unter Lizenz für die aktuelle Studie verwendet und sind nicht öffentlich verfügbar.

Der zum Trainieren des KI-Modells verwendete Code hängt von Annotation, Infrastruktur und Hardware ab; Daher kann es nicht freigegeben werden. Alle experimentellen und Implementierungsdetails, die geteilt werden können, werden jedoch ausführlich in der Ergänzenden Anmerkung (Studiendetails) beschrieben. Der aus dieser Studie entwickelte KI-Algorithmus ist über das kommerzielle Produkt SK Inc. C&C Medical Insight+ Brain Hemorrhage erhältlich.

Qureshi, AI, Mendelow, AD & Hanley, DF Intrazerebrale Blutung. Lancet 373, 1632–1644 (2009).

Artikel PubMed PubMed Central Google Scholar

Broderick, J. et al. Leitlinien für die Behandlung spontaner intrazerebraler Blutungen bei Erwachsenen: Aktualisierung 2007: eine Leitlinie des Stroke Council der American Heart Association/American Stroke Association, des High Blood Pressure Research Council und der interdisziplinären Arbeitsgruppe „Quality of Care and Outcomes in Research“. Schlaganfall 38, 2001–2023 (2007).

Artikel PubMed Google Scholar

van Asch, CJ et al. Inzidenz, Letalität und funktionelles Ergebnis intrazerebraler Blutungen im Laufe der Zeit, je nach Alter, Geschlecht und ethnischer Herkunft: eine systematische Überprüfung und Metaanalyse. Lancet Neurol. 9, 167–176 (2010).

Artikel PubMed Google Scholar

Kidwell, CS et al. Vergleich von MRT und CT zur Erkennung einer akuten intrazerebralen Blutung. JAMA 292, 1823–1830 (2004).

Artikel CAS PubMed Google Scholar

Cordonnier, C., Demchuk, A., Ziai, W. & Anderson, CS Intrazerebrale Blutung: aktuelle Ansätze zur Akutbehandlung. Lancet 392, 1257–1268 (2018).

Artikel PubMed Google Scholar

Morotti, A. & Goldstein, JN Diagnose und Behandlung akuter intrazerebraler Blutungen. Emerg. Med. Klin. Norden. Bin. 34, 883–899 (2016).

Artikel PubMed PubMed Central Google Scholar

Lee, JY, Kim, JS, Kim, TY & Kim, YS Erkennung und Klassifizierung intrakranieller Blutungen auf CT-Bildern mithilfe eines neuartigen Deep-Learning-Algorithmus. Wissenschaft. Rep. 10, 20546 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Hwang, I. et al. Vorhersage des Gehirnalters anhand routinemäßiger T2-gewichteter Spin-Echo-Magnetresonanzbilder des Gehirns mit einem tiefen Faltungsnetzwerk. Neurobiol. Alter 105, 78–85 (2021).

Artikel PubMed Google Scholar

Hosny, A., Parmar, C., Quackenbush, J., Schwartz, LH & Aerts, H. Künstliche Intelligenz in der Radiologie. Nat. Rev. Cancer 18, 500–510 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Arbabshirani, MR et al. Fortschrittliches maschinelles Lernen in Aktion: Identifizierung intrakranieller Blutungen anhand von Computertomographie-Scans des Kopfes mit Integration klinischer Arbeitsabläufe. NPJ-Ziffer. Med. 1, 9 (2018).

Artikel PubMed PubMed Central Google Scholar

Chilamkurthy, S. et al. Deep-Learning-Algorithmen zur Erkennung kritischer Befunde in Kopf-CT-Scans: eine retrospektive Studie. Lancet 392, 2388–2396 (2018).

Artikel PubMed Google Scholar

Ginat, DT Analyse von Kopf-CT-Scans, die von Deep-Learning-Software als akute intrakranielle Blutung identifiziert wurden. Neuroradiologie 62, 335–340 (2020).

Artikel PubMed Google Scholar

Kuo, W., Hne, C., Mukherjee, P., Malik, J. & Yuh, EL Erkennung akuter intrakranieller Blutungen auf Expertenniveau in der Computertomographie des Kopfes mithilfe von Deep Learning. Proz. Natl. Acad. Wissenschaft. USA 116, 22737–22745 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Soun, JE et al. Künstliche Intelligenz und Bildgebung bei akutem Schlaganfall. Bin. J. Neuroradiol. 42, 2–11 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Ye, H. et al. Präzise Diagnose intrakranieller Blutungen und Subtypen mithilfe eines dreidimensionalen Gelenkfaltungs- und rekurrenten neuronalen Netzwerks. EUR. Radiol. 29, 6191–6201 (2019).

Artikel PubMed PubMed Central Google Scholar

Schmidt-Erfurth, U. et al. Maschinelles Lernen zur Analyse des prognostischen Werts aktueller bildgebender Biomarker bei neovaskulärer altersbedingter Makuladegeneration. Ophthalmol. Retina 2, 24–30 (2018).

Artikel PubMed Google Scholar

Wang, Z. et al. Nicht-invasive Klassifizierung von Mikroverkalkungen mittels Phasenkontrast-Röntgenmammographie. Nat. Komm. 5, 3797 (2014).

Artikel CAS PubMed Google Scholar

Fernando, T., Gammulle, H., Denman, S., Sridharan, S. & Fookes, CJ ae-p. Deep Learning zur Erkennung medizinischer Anomalien – eine Umfrage. https://arxiv.org/abs/2012.02364 (2020).

Ironside, N. et al. Vollautomatischer Segmentierungsalgorithmus für die volumetrische Hämatomanalyse bei spontaner intrazerebraler Blutung. Schlaganfall 50, 3416–3423 (2019).

Artikel PubMed Google Scholar

Jang, J., Lee, HH, Park, JA & Kim, H. Unüberwachte Anomalieerkennung mithilfe generativer gegnerischer Netzwerke in (1)H-MRS des Gehirns. J. Magn. Resonanz. 325, 106936 (2021).

Artikel CAS PubMed Google Scholar

Schlegl, T., Seebock, P., Waldstein, SM, Langs, G. & Schmidt-Erfurth, U. f-AnoGAN: schnelle unüberwachte Anomalieerkennung mit generativen gegnerischen Netzwerken. Med. Bild Anal. 54, 30–44 (2019).

Artikel PubMed Google Scholar

Schlegl, T., Seeböck, P., Waldstein, SM, Schmidt-Erfurth, U. & Langs, GJ ae-p. In: Informationsverarbeitung in der medizinischen Bildgebung. https://arxiv.org/abs/1703.05921 (2017).

Dawud, AM, Yurtkan, K. & Oztoprak, H. Anwendung von Deep Learning in der Neuroradiologie: Klassifizierung von Hirnblutungen mithilfe von Transferlernen. Berechnen. Intellekt-Neurowissenschaften. 2019, 4629859 (2019).

Artikel PubMed PubMed Central Google Scholar

Lee, H. et al. Ein erklärbarer Deep-Learning-Algorithmus zur Erkennung akuter intrakranieller Blutungen aus kleinen Datensätzen. Nat. Biomed. Ing. 3, 173–182 (2019).

Artikel PubMed Google Scholar

Prevedello, LM et al. Automatisiertes System zur Identifizierung kritischer Testergebnisse und Online-Benachrichtigung mithilfe künstlicher Intelligenz in der Bildgebung. Radiologie 285, 923–931 (2017).

Artikel PubMed Google Scholar

Titano, JJ et al. Automatisierte Deep-Neuronale-Netzwerk-Überwachung von Schädelbildern für akute neurologische Ereignisse. Nat. Med. 24, 1337–1341 (2018).

Artikel CAS PubMed Google Scholar

Grewal, M., Srivastava, MM, Kumar, P. & Varadarajan, S. In: 2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI 2018) 281–284 (2018).

Mauri, L. & Damiani, E. Schätzung der Verschlechterung von Datenressourcen für maschinelles Lernen. ACM J. 14, https://doi.org/10.1145/3446331 (2022).

Young, Z. & Steele, R. Empirische Bewertung der Leistungsverschlechterung von auf maschinellem Lernen basierenden Vorhersagemodellen – eine Fallstudie in Gesundheitsinformationssystemen. Int. J. Inf. Geschäftsführer 2, 10070 (2022).

Google Scholar

Esteva, A. et al. Klassifizierung von Hautkrebs mit tiefen neuronalen Netzen auf Dermatologenebene. Natur 542, 115–118 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Kooi, T. et al. Groß angelegtes Deep Learning zur computergestützten Erkennung mammografischer Läsionen. Med. Bild. Anal. 35, 303–312 (2017).

Artikel PubMed Google Scholar

Zhang, LW, Lin, J. & Karim, R. Adaptive Kerndichte-basierte Anomalieerkennung für nichtlineare Systeme. Wissen. Basierend auf Syst. 139, 50–63 (2018).

Artikel Google Scholar

Fletcher, JG et al. Evaluierung einer Spiralkopf-CT mit niedrigerer Dosis zur Erkennung intrakranieller Befunde, die neurologische Defizite verursachen. Bin. J. Neuroradiol. 40, 1855–1863 (2019).

CAS PubMed PubMed Central Google Scholar

Fletcher, JG et al. Beobachterleistung bei der Erkennung und Klassifizierung bösartiger Leberknötchen und -massen mit CT-Bildraumentrauschung und iterativer Rekonstruktion. Radiologie 276, 465–478 (2015).

Artikel PubMed Google Scholar

Sage, A. & Badura, P. Intrakranielle Blutungserkennung im Kopf-CT mithilfe eines doppelt verzweigten Faltungs-Neuronalen Netzwerks, einer Support-Vektor-Maschine und eines Zufallswalds. Appl. Wissenschaft. 10, https://doi.org/10.3390/app10217577 (2020).

Kingma, DP & Welling, M. In: Internationale Konferenz zum Thema Lernen von Repräsentationen. https://arxiv.org/abs/1312.6114 (2013).

Kingma, DP & Welling, M. Eine Einführung in Variations-Autoencoder. Gefundene Trends Mach. Lernen. 12, 4–89 (2019).

Artikel Google Scholar

Goodfellow, IJ et al. In: Neuronale Informationsverarbeitungssysteme. https://arxiv.org/abs/1406.2661 (2014).

Referenzen herunterladen

Diese Studie wurde von SK Inc. C&C finanziert. Der Geldgeber der Studie war an der Sammlung, Verwaltung und Analyse der Daten beteiligt, die bei der Entwicklung von KI-Algorithmen verwendet wurden. Der korrespondierende Autor hatte vollen Zugriff auf die meisten Datensätze und alle zusammenfassenden Schätzungen aus jedem Datensatz und trug die endgültige Verantwortung für die Entscheidung, das Manuskript zur Veröffentlichung einzureichen. Wir danken Synex für die Studienkoordination.

Institut für Strahlenmedizin, Medizinisches Forschungszentrum der Seoul National University, Seoul, Republik Korea

Tae Jin Yun, Seung Hong Choi, Roh-Eul Yoo & In Pyeong Hwang

Abteilung für Radiologie, Seoul National University Hospital, Seoul, Republik Korea

Tae Jin Yun, Seung Hong Choi, Roh-Eul Yoo & In Pyeong Hwang

Abteilung für Radiologie, Medizinische Fakultät der Ajou-Universität, Suwon, Republik Korea

Jin Wook Choi, Miran Han und Woo Sang Jung

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

TJY und JWC konzipierten und gestalteten die Studie. TJY, JWC, MH, WSJ, SHC, R.-EY und IPH sammelten und kuratierten die Daten für die KI-Entwicklung. TJY und JWC sammelten und kuratierten die Daten für die Leserstudie. TJY und JWC haben das Leserstudienprotokoll entworfen. TJY und JWC führten die statistische Analyse durch. TJY und JWC interpretierten die Ergebnisse der Validierungsstudie. TJY und JWC haben den ersten Entwurf geschrieben. Alle Autoren haben den Bericht anschließend überarbeitet. TJY und JWC betreuten das Projekt.

Korrespondenz mit Jin Wook Choi.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Yun, TJ, Choi, JW, Han, M. et al. Deep-Learning-basierter automatischer Erkennungsalgorithmus für akute intrakranielle Blutungen: eine zulassungsrelevante randomisierte klinische Studie. npj Ziffer. Med. 6, 61 (2023). https://doi.org/10.1038/s41746-023-00798-8

Zitat herunterladen

Eingegangen: 10. September 2022

Angenommen: 10. März 2023

Veröffentlicht: 07. April 2023

DOI: https://doi.org/10.1038/s41746-023-00798-8

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt