Ein grundlegender Vision-Transformer verbessert die Diagnoseleistung für Elektrokardiogramme

npj Digital Medicine Band 6, Artikelnummer: 108 (2023) Diesen Artikel zitieren

Details zu den Metriken

Das Elektrokardiogramm (EKG) ist ein allgegenwärtiges diagnostisches Verfahren. Für die EKG-Analyse eingesetzte Convolutional Neural Networks (CNNs) erfordern große Stichprobengrößen, und Transfer-Learning-Ansätze für biomedizinische Probleme können zu einer suboptimalen Leistung führen, wenn das Vortraining an natürlichen Bildern durchgeführt wird. Wir nutzten maskierte Bildmodellierung, um ein visionsbasiertes Transformatormodell, HeartBEiT, für die Analyse von Elektrokardiogramm-Wellenformen zu erstellen. Wir haben dieses Modell anhand von 8,5 Millionen EKGs vorab trainiert und dann die Leistung mit Standard-CNN-Architekturen zur Diagnose von hypertropher Kardiomyopathie, niedriger linksventrikulärer Ejektionsfraktion und ST-Hebungs-Myokardinfarkt verglichen, wobei wir unterschiedliche Trainingsstichprobengrößen und unabhängige Validierungsdatensätze verwendet haben. Wir stellen fest, dass HeartBEiT im Vergleich zu anderen Modellen eine deutlich höhere Leistung bei geringeren Stichprobengrößen aufweist. Wir stellen außerdem fest, dass HeartBEiT die Erklärbarkeit der Diagnose verbessert, indem es biologisch relevante Regionen des EKG im Vergleich zu Standard-CNNs hervorhebt. Domänenspezifische vorab trainierte Transformatormodelle können die Klassifizierungsleistung von Modellen übertreffen, die auf natürlichen Bildern trainiert wurden, insbesondere bei sehr geringen Datenmengen. Die Kombination aus Architektur und einem solchen Vortraining ermöglicht eine genauere und detailliertere Erklärbarkeit von Modellvorhersagen.

Das Elektrokardiogramm (EKG) ist eine Aufzeichnung der elektrischen Aktivität im Herzen auf Körperoberflächenebene. Aufgrund seiner geringen Kosten, Nicht-Invasivität und breiten Anwendbarkeit bei Herzerkrankungen ist das EKG eine allgegenwärtige Untersuchung und allein in den Vereinigten Staaten1 werden jedes Jahr über 100 Millionen EKGs in verschiedenen Gesundheitseinrichtungen durchgeführt. Allerdings ist der Umfang des EKG begrenzt, da Ärzte nicht konsistent Muster identifizieren können, die für eine Krankheit repräsentativ sind – insbesondere bei Erkrankungen, für die es keine etablierten Diagnosekriterien gibt, oder in Fällen, in denen solche Muster für eine menschliche Interpretation zu subtil oder chaotisch sein könnten.

Deep Learning wurde für verschiedene diagnostische und prognostische Anwendungsfälle auf EKG-Daten angewendet2,3,4,5,6. Der überwiegende Teil dieser Arbeit basiert auf Convolutional Neural Networks (CNNs)7. Wie andere neuronale Netze sind CNNs Konstrukte mit hoher Varianz8 und erfordern große Datenmengen, um eine Überanpassung zu verhindern9. CNNs müssen außerdem speziell für die Dimensionalität eingehender Daten entwickelt werden und werden zur Interpretation von EKGs sowohl als 1D-Wellenformen als auch als 2D-Bilder verwendet10.

In diesem Zusammenhang stellt die Interpretation von EKGs als 2D-Bilder einen Vorteil dar, da weithin verfügbare vorab trainierte Modelle vorhanden sind, die oft als Ausgangspunkt für Modellierungsaufgaben an kleineren Datensätzen dienen11. Diese Technik wird als Transferlernen beschrieben, bei der ein Modell, das auf einem größeren, möglicherweise nicht zusammenhängenden Datensatz trainiert wird, auf einen kleineren Datensatz abgestimmt wird, der für ein Problem relevant ist12. Transferlernen ist im Gesundheitswesen besonders nützlich, da die Größe der Datensätze aufgrund begrenzter Patientenkohorten, der Seltenheit der interessierenden Ergebnisse und der mit der Erstellung nützlicher Etiketten verbundenen Kosten begrenzt ist. Daher bilden Sehmodelle, die zunächst unter Aufsicht auf natürlichen Bildern13 trainiert wurden, häufig die Grundlage für Modelle, die im Gesundheitswesen verwendet werden. Leider ist Transferlernen mit solchen natürlichen Bildern keine universelle Lösung und führt bekanntermaßen zu suboptimalen Ergebnissen, wenn erhebliche Unterschiede in den Datensätzen vor dem Training und der Feinabstimmung bestehen14.

Transformatorbasierte neuronale Netze nutzen den Aufmerksamkeitsmechanismus15, um Beziehungen zwischen diskreten Eingabedateneinheiten, sogenannten Token16, herzustellen und zu definieren. Ein wesentlicher Vorteil, den Transformatoren ermöglichen, ist das unbeaufsichtigte Lernen aus großen Korpora unbeschrifteter Daten, um Beziehungen zwischen Token zu lernen und diese Informationen dann für andere nachgelagerte Aufgaben zu nutzen16. Aufgrund der Leichtigkeit, mit der unstrukturierter Text in Token zerlegt werden kann, waren Transformatoren bei NLP-Aufgaben (Natural Language Processing) äußerst erfolgreich17,18. Neuere Arbeiten haben die Funktionalität solcher Modelle auf visionsbasierte Aufgaben ausgeweitet, was zum Aufkommen des Vision Transformer16,19 geführt hat.

Die ersten Vision-Transformatoren wurden anhand riesiger beschrifteter Datensätze vorab trainiert und dann anhand kleinerer Datensätze verfeinert, um eine bessere Leistung gegenüber CNNs bei der natürlichen Bildklassifizierung zu erzielen20. In jüngerer Zeit hat der BEiT-Ansatz (Bidirektionale Encoder-Darstellung von Image Transformers) die Nutzung großer, unbeschrifteter Datensätze für transformatorische neuronale Netze vor dem Training ermöglicht21. Dieser Ansatz besteht darin, Teile eines Eingabebildes in diskrete Token oder Patches umzuwandeln. Solche Token können als Analogie zu den Wörtern innerhalb eines Satzes betrachtet und zum Vorabtraining eines Transformators verwendet werden, ähnlich wie ein Sprachmodell (Abb. 1). Da Transformatoren globale Abhängigkeiten22 zwischen allen Merkmalen der bereitgestellten Eingaben berücksichtigen, kann ein solches Vortraining besonders für EKGs von Vorteil sein. Bestimmte pathologische Muster wie S1Q3T3 treten in verschiedenen Teilen einer Aufzeichnung auf23, und ein Modell, das nur zusammenhängende Regionen berücksichtigt, kann sie möglicherweise völlig übersehen.

Vortraining des HeartBEiT-Modells. (1) Jedes Original-EKG ist in 14 × 14 Patches (2) mit 16 × 16 Pixeln unterteilt. Diese Patches sind tokenisiert und einige von ihnen sind maskiert (3). Das Dall-E-Modell (4) fungiert als Tokenizer und wandelt das Bild in diskrete Token (5) um, die dann Teil des Masked Image Modeling-Prozesses (6) werden. Dadurch können die Aufmerksamkeitsmodule des HeartBEiT-Modells vorab trainiert werden (7), und das Modell kann dann nach dem Hinzufügen eines Multi-Layer-Perceptron-Klassifizierungskopfs (10) für die nachgelagerte Feinabstimmung und Inferenz (8, 9) verwendet werden.

Wir erstellen ein Vision-Transformer-Modell, das auf einem großen Korpus von mehreren Millionen EKGs einer vielfältigen Bevölkerung vorab trainiert wurde. Wir nutzen dieses Modell, um spezielle Modelle für Anwendungsfälle zu erstellen, bei denen möglicherweise nur wenige Daten verfügbar sind. Anschließend vergleichen wir Leistungs- und Ausprägungskarten mit Basismodellen, die ähnlichen Einschränkungen unterliegen.

Wir haben insgesamt 511.491 EKGs von MSHS in den Trainings- oder Feinabstimmungssatz, 20.448 Proben von MSHS in Tests und 1.480 von Morningside in die externe Validierung einbezogen. Die niedrige LVEF-Prävalenz betrug im Trainingssatz 18 % (Tabelle 1).

HeartBEiT übertraf andere CNN-Modelle bei niedriger LVEF-Klassifizierung bei allen Fraktionen der Trainingsdaten (Abb. 2; Ergänzungstabelle 1). Bei 1 % der Trainingsdaten (5114 Proben) war die Leistung (AUROC: 0,86, 95 %-KI: 0,86–0,86) 28,4 % besser als beim ViT-B/16-Modell (AUROC: 0,67, 95 %-KI 0,67–0,67). 5,2 % besser als EfficientNet-B4 (AUROC: 0,82, 95 %-KI: 0,82–0,82) und 2,4 % besser als ResNet-152 (AUROC: 0,84, 95 %-KI: 0,84–0,84) in internen Tests (ergänzende Abbildung 2). ). Diese Trends wurden über die gesamte externe Validierung hinweg beibehalten, wobei HeartBEiT (AUROC: 0,87, 95 %-KI: 0,87–0,87) die CNNs um 4–18 % übertraf (ergänzende Abbildung 3).

a Interne Testleistung (4 Einrichtungen am Berg Sinai). b Leistungsunterschied bei internen Tests. c Externe Validierungsleistung (Morningside-Patienten). d Leistungsunterschied bei der externen Validierung. Die rote gestrichelte Linie in (b) und (d) zeigt die HeartBEiT-Leistung an.

Unter Verwendung von AUPRC als Metrik übertraf das HeartBEiT-Modell (AUPRC: 0,59, 95 %-KI: 0,59–0,59) bei 1 % der Trainingsdaten und bei einer Prävalenz von 18,5 % in der internen Testkohorte ViT-B/16 (AUPRC: 0,31, 95 %-KI 0,31–0,31) um 90,3 %, EfficientNet-B4 (AUPRC: 0,48, 95 %-KI: 0,48–0,48) um 22,9 % und ResNet-152 (AUPRC: 0,52, 95 %-KI: 0,52–0,52) um 13,5 % (Ergänzungstabelle 2, Ergänzende Abbildungen 4–6). In der externen Validierungskohorte hatte HeartBEiT den höchsten AUPRC von 0,73 (95 %-KI: 0,73–0,73).

Bei 100 % der Trainingsdaten (511.491 Proben) stimmte die Leistung aller Modelle besser überein. Bei internen Tests gab es keinen Leistungsunterschied zwischen HeartBEiT, EfficientNet-B4 und ResNet-152, und bei der externen Validierung für AUROC wurde ein Unterschied von 1,1–4,5 % beobachtet. Für AUPRC erzielte HeartBEiT jedoch immer noch eine verbesserte Leistung von 0–17,7 % in internen und externen Datensätzen.

Die GRAD-CAM-Analyse zeigte, dass Bereiche um die QRS-Komplexe jeder Ableitung bei 1 % der Trainingsdaten von HeartBEiT hervorgehoben wurden (ergänzende Abbildung 7a). Als 100 % der Trainingsdaten implementiert waren, wurden die Schwerpunkte um die QRS-Komplexe von Ableitung I herum stärker ausgeprägt (ergänzende Abbildung 7b).

Wir haben den HeartBEiT-Transformator anhand von 78.831 EKGs aus vier Krankenhäusern der MSHS optimiert. Die Tests wurden an 20.448 EKGs dieser Krankenhäuser durchgeführt, und 3.859 EKGs einer Gruppe von Patienten aus Morningside wurden für die externe Validierung verwendet (Tabelle 1). Die Prävalenz von HCM im Trainingssatz betrug 38 %.

HeartBEiT übertraf die anderen Modelle bei der Diagnose von HCM bei allen Fraktionen der Trainingsdaten (Abb. 3; Ergänzungstabelle 1). Bei 1 % der Trainingsdaten übertraf die Leistung des HeartBEiT-Modells bei einem AUROC von 0,77 (95 %-KI: 0,77–0,77) intern die von ViT-B/16 um 26,2 % und die von EfficientNet-B4 und ResNet-152 um 6,9 % Tests (ergänzende Abbildung 2). Ähnliche Ergebnisse wurden für die externe Validierung mit dem HeartBEiT-Modell beobachtet, das einen AUROC von 0,74 (95 %-KI: 0,74–0,74) aufwies und ViT-B/16 (0,61, 95 %-KI 0,61–0,61) um 21,3 % übertraf, EfficientNet-B4 (0,69, 95 %-KI: 0,68–0,70) um 7,2 % und ResNet-152 (0,68, 95 %-KI: 0,68–0,69) um 8,8 % (ergänzende Abbildung 3).

Die Leistungsunterschiede waren für AUPRC bei 1 % der verwendeten Trainingsdaten viel ausgeprägter (Ergänzungstabelle 2; Ergänzende Abbildung 8). Unter Verwendung von 1 % der Trainingsdaten und einer Ergebnisprävalenz von 38,8 % in der internen Testkohorte übertraf das HeartBEiT-Modell (AUPRC: 0,67, 95 %, CI: 0,67–0,67) die Leistung von ViT-B/16 (AUPRC: 0,49, 95 %-KI 0,49–0,49) um 36,7 %, EfficientNet-B4 (AUPRC: 0,63, 95 %-KI: 0,63–0,63) um 6,3 % und ResNet-152 (AUPRC: 0,64, 95 %-KI: 0,64–0,64) um 4,7 % (Ergänzende Abbildung 5). Bei der externen Validierung zeigte HeartBEiT weiterhin die beste Leistung mit einem AUPRC von 0,64 (95 %-KI: 0,64–0,64) (ergänzende Abbildung 6).

Der HeartBEiT-Leistungsvorteil verringerte sich allmählich mit zunehmender Menge an Trainingsdaten. Im Vergleich zu 100 % der Trainingsdaten betrug der Leistungsunterschied bis zu 2,5 % bei internen Tests und 3,9 % bei externer Validierung für AUROC und bis zu 4,2 % bzw. 7,1 % bei internen Tests und externer Validierung für AUPRC.

Die GRAD-CAM-Analyse ergab, dass bei 1 % der Daten die QRS-Komplexe der Ableitungen I, V2 und V5 sowie das ST-Segment von V6 als wichtige Regionen für die Vorhersage von HCM durch HeartBEiT bezeichnet wurden (ergänzende Abbildung 9a). Im Gegensatz dazu konzentrierten sich die von HeartBEiT identifizierten Schlüsselbereiche bei 100 % der Trainingsdaten stärker auf den Beginn von V5 (ergänzende Abbildung 9b).

Der PTB-XL-Datensatz enthält insgesamt 21.799 EKGs von 18.869 Patienten: 17.449 EKGs wurden zur Feinabstimmung und 4.352 zum Testen des Modells verwendet. Die Prävalenz von STEMI lag im Trainingssatz bei etwa 5,7 % und im Testsatz bei 5,4 % (Tabelle 1).

Der AUROC-Leistungsvorteil von HeartBEiT war bei kleineren Anteilen der für das Training verwendeten Trainingsdaten größer (Abb. 4; Ergänzungstabelle 1). In internen Tests betrug der AUROC von HeartBEiT 0,88 (95 %-KI: 0,88–0,89) mit einer Leistungsverbesserung von 4,8–10 % im Vergleich zu den anderen Modellen bei 1 % der Trainingsdaten (ergänzende Abbildung 2). Dieser Vorteil änderte sich im Vergleich zu ViT-B/16, EfficientNet-B4 und ResNet-152 auf etwa 20,3 %, 1,1 % bzw. 2,2 %, wenn alle verfügbaren Trainingsdaten (17.449 Proben) verwendet wurden.

a Interne Testleistung. b Leistungsunterschied bei internen Tests. Die gestrichelte rote Linie in (b) zeigt die HeartBEiT-Leistung an.

Dieser Leistungsvorteil wurde für AUPRC noch deutlicher: HeartBEiT (AUPRC: 0,56, 95 %-KI 0,56–0,66) übertraf ViT-B/16 (0,27, 95 %-KI 0,26–37) um 107,4 %, ResNet-152 (0,47, 95 %-KI 0,46–0,47) um 19,1 % und das EfficientNet-B4 (0,40, 95 %-KI 0,40–0,41) um 40,0 % bei einem 1 %-Anteil der Trainingsdaten (Ergänzungstabelle 2; Ergänzende Abbildung 5; Ergänzende Abbildung 10). ). Bei 100 % der Trainingsdaten war die Leistung von HeartBEiT (AUPRC: 0,67, 95 %-KI: 0,66–0,67) jedoch nicht signifikant niedriger als die von EfficientNet-B4 (AUPRC: 0,68, 95 %-KI: 0,67–0,68).

Bei der STEMI-Erkennung zeigte der ViT-B/16 Vision Transformer eine Trainingsinstabilität, wenn mehr als 10 % der Trainingsdaten verwendet wurden, während andere Hyperparameter wie die Lernrate konstant gehalten wurden. Diese Instabilität wurde nur für dieses Ergebnis beobachtet und die gemeldete Leistung entspricht den besten Messwerten, die vor dem Fehler der Trainingsmethoden erreicht wurden.

ST-Segmente in jeder Ableitung wurden gemäß der GRAD-CAM-Analyse von HeartBEiT bei 1 % der Trainingsdaten als wichtige Bereiche hervorgehoben (Abb. 5). Bei 100 % der Trainingsdaten wurden diese mit HeartBEiT bezeichneten Bereiche um die ST-Segmente der Ableitungen V3 und V4 lokalisiert (ergänzende Abbildung 11).

ein ViT-B/16. b EfficientNet-B4. c ResNet-152. d HeartBEiT. HeartBEiT lokalisiert sich auf die ST-Segmente. Andere Modelle heben wichtige Merkmale diffuser hervor und sind möglicherweise klinisch weniger nützlich.

Der durchschnittliche paarweise Wasserstein-Abstand für den EKG-gegen-EKG-Satz betrug 2,14. Im Vergleich dazu betrug dieser Wert 45,48 für den Satz ImageNet vs. ImageNet und 128,44 für den Satz EKG vs. ImageNet (ergänzende Abbildung 12).

Anhand von 8,5 Millionen EKGs von 2,1 Millionen Patienten, die über einen Zeitraum von vier Jahrzehnten gesammelt wurden, haben wir Masked Image Modeling genutzt, um ein Vision-based Transformer (HeartBEiT)-Modell für EKG-Daten zu erstellen, das als universeller Ausgangspunkt für nachgelagerte Schulungen zu interessierenden Ergebnissen dienen kann . Wir haben dieses Modell anhand von Daten aus vier Krankenhäusern innerhalb des Gesundheitssystems des Mount Sinai und extern validierten abgeleiteten Modellen anhand von Daten aus einem anderen Krankenhaus anhand von zwei Ergebnissen verfeinert. Wir haben dieses Modell auch für die STEMI-Erkennung mithilfe von Daten aus der öffentlich zugänglichen PTB-XL-Datenbank verfeinert und anschließend das abgeleitete Modell anhand einer Gruppe von Patienten getestet, die sich nicht in der Lage befanden. In jedem Fall wurde unser Modell mit zwei CNNs und einem anderen Vision Transformer verglichen, die alle denselben Trainingsbedingungen unterlagen. Schließlich haben wir einen zusätzlichen Aspekt der klinischen Nützlichkeit dieser Modelle bewertet, indem wir Ausprägungskarten für Eingabeproben erstellt haben.

Die Leistung neuronaler Netzwerke kann stark von der Menge der verfügbaren Daten beeinflusst werden24, und eine Überanpassung kann leicht zu Systemen mit kleinen Datenmengen führen25. Allerdings sind kuratierte, gekennzeichnete Daten eine knappe Ressource. Dies gilt insbesondere im Gesundheitswesen, wo die Durchführung von Tests an Patienten, die Erkennung relevanter Pathologien und die Erfassung von Daten zu klinischen Ergebnissen mühsam und teuer ist. Neben den finanziellen Kosten für die Datenerfassung und -kennzeichnung kann auch Zeit ein weiterer Faktor sein, der die Erfassung größerer Datensätze verhindert. Bei neu auftretenden Problemen im Bereich der öffentlichen Gesundheit, wie beispielsweise der jüngsten COVID-19-Pandemie, stehen möglicherweise nur wenige Daten für die Entwicklung nützlicher Modelle zur Verfügung. Unter solchen Umständen können Modelle, die mit einem Bruchteil der für andere Ansätze erforderlichen Daten arbeiten können, zu einer schnelleren und angemesseneren Diagnose und Triage beitragen.

Über alle Ergebnisse, Datensätze und Leistungsmetriken hinweg erzielte HeartBEiT eine gleichwertige Leistung mit einer Größenordnung weniger (100 % gegenüber 10 %) Trainingsdaten entsprach anderen Modellen, die zehnmal so viele Daten verwendeten. Diese Leistung blieb bei der externen Validierung nicht nur für die fein abgestimmten Modelle erhalten, sondern auch für das vorab trainierte Modell, wenn es mit einem völlig neuen Datensatz aus einem unabhängigen Datensatz bestehend aus a verwendet wurde geografisch getrennte Kohorte von Patienten.

Von besonderer Bedeutung ist der erhöhte Leistungsunterschied im AUPRC – ein besserer Indikator für die Leistung in Datensätzen mit starkem Klassenungleichgewicht, bei denen die isolierte Betrachtung von AUROC möglicherweise weniger nützlich ist. Aufgrund relativ niedriger Ereignisraten weisen medizinische Datensätze tendenziell solche Klassenungleichgewichte auf. Beispielsweise übertraf HeartBEiT bei der Erkennung von STEMI mit einer Outcome-Prävalenz von 5,6 % im 1 %-Trainingsdatenregime die AUPRC der CNNs um 19,1 % bzw. 40 % und verdoppelte gleichzeitig die Leistung des ImageNet Vision Transformer. Diese Ergebnisse deuten auch darauf hin, dass das Vortraining auf natürlichen Bildern nicht immer die optimale Lösung für die Erstellung von Modellen für das Gesundheitswesen ist – eine Tatsache, die auch durch das Ausmaß der Ungleichheit im durchschnittlichen Wasserstein-Abstand zwischen natürlichen Bildern und EKGs belegt wird.

Ein offensichtlicher klinischer Vorteil der Verwendung von Transformatoren mit dem in dieser Arbeit beschriebenen Erklärbarkeitsrahmen ist die Granularität der Ausprägungskartierung. Selbst bei ähnlichen Leistungsniveaus neigen die gezeigten CNNs dazu, wichtige Bereiche zusammenzuführen und dadurch die stärksten Determinanten einer Vorhersage zu verschleiern. Im Vergleich dazu konzentrieren sich Salienzkarten für Transformatoren tendenziell auf diese Determinanten. Eine solche granulare Erklärbarkeit kann sowohl die Übernahme von Deep-Learning-Modellen durch Ärzte als auch das Verständnis von Pathologien unterstützen, für die es keine diagnostischen Leitlinien für ein EKG gibt. Diese Faktoren lassen sich gut für die STEMI-Erkennung demonstrieren, bei der das pathognomonische Muster gut etabliert ist und das ST-Segment konsistent hervorgehoben wird, selbst wenn 1 % der Daten zur Feinabstimmung verwendet werden (Abb. 5). Im Fall der LVEF-Bestimmung gibt es keine klaren diagnostischen Richtlinien, die Humanmedizinern helfen können. In diesem Fall konzentrieren sich Salienzkarten tendenziell auf QRS-Komplexe, die den Nettovektor der Depolarisation des Großteils der Herzkammermuskulatur anzeigen und auf die Fähigkeit des Transformators hinweisen, sich auf die dem Krankheitszustand zugrunde liegenden Mechanismen zu konzentrieren.

Unsere Arbeit muss vor dem Hintergrund bestimmter Einschränkungen betrachtet werden. Das Vortraining von Transformatoren ist in der Regel sehr rechenintensiv. Daher waren wir hinsichtlich der Größe des Transformatormodells auf 86 M Parameter sowie der Dimensionen der Eingabedaten, die wir nutzen konnten, begrenzt. Wir glauben jedoch, dass diese Arbeit als Beweis für die Durchführbarkeit und Vorteile unseres HeartBEiT-Modells dient, und zukünftige Arbeiten werden sich mit der Skalierung dieses Modells befassen, um eine bessere Leistung vor dem Live-Einsatz zu ermöglichen.

Zusammenfassend lässt sich sagen, dass vorab trainierte Transformatormodelle eine robuste, auf tiefem Lernen basierende EKG-Klassifizierung selbst in stark datenbeschränkten Regimen ermöglichen. Spezifischere, qualitativ hochwertigere und granularere Ausprägungskarten können die Akzeptanz von Modellvorhersagen durch Kliniker verbessern.

Wir haben alle verfügbaren EKG-Daten von fünf Krankenhäusern innerhalb des Mount Sinai Health System (MSHS) genutzt, um unser Modell vorab zu trainieren. Diese Krankenhäuser (Mount Sinai Hospital, Morningside, West, Beth Israel und Brooklyn) versorgen eine große Patientenpopulation, was die demografische Vielfalt von New York City widerspiegelt. Für die Jahre 1980–2021 wurden EKG-Daten aus dem GE MUSE-System abgerufen, was insgesamt etwa 8,5 Millionen diskreten EKG-Aufzeichnungen für 2,1 Millionen Patienten entspricht. EKG-Daten wurden als strukturierte XML-Dateien erhalten, die sowohl Rohwellenformen als auch Metadaten zu Patientenidentifikatoren, Zeit, Ort und Indikation enthielten.

Zur ergebnisspezifischen Feinabstimmung des Modells haben wir aus verfügbaren Echokardiogrammberichten Ground-Truth-Labels für den Wert der linksventrikulären Ejektionsfraktion (LVEF) gesammelt. Die Modellierungsaufgabe bestand in der Klassifizierung von Patienten mit einer LVEF ≤ 40 %, was eine Herzinsuffizienz mit reduzierter Ejektionsfraktion26 definiert. Wir haben auch Hinweise gesammelt, die auf die Diagnose einer hypertrophen Kardiomyopathie hinweisen – einer genetischen Erkrankung, bei der die Herzkammern eine pathologische Verdickung erfahren, die zum Verlust der Herzfunktion und einer Prädisposition für tödliche Arrhythmien führt. Diese Bezeichnungen wurden mithilfe der Verarbeitung natürlicher Sprache generiert, um unstrukturierte Echokardiogrammberichte auf jede Erwähnung von „HCM“ / „Hypertrophe Kardiomyopathie“ zu analysieren – mit oder ohne dazwischenliegender Qualifizierungsmerkmal hinsichtlich der obstruktiven Natur der Pathologie.

Schließlich nutzten wir den öffentlich verfügbaren PTB-XL-Datensatz für eine zusätzliche externe Validierung. Dieser Datensatz enthält 21.799 EKGs von 18.869 Patienten von Oktober 1989 bis Juni 1996. Diese Daten wurden von zwei Kardiologen mit Anmerkungen versehen und enthalten fundierte diagnostische Angaben, z. B. ob ein EKG auf eine normale Aufzeichnung hinweist oder auf Veränderungen, die auf eine akute Ischämie hinweisen. EKG-Aufzeichnungen aus dieser Datenbank wurden zur Feinabstimmung von Modellen zur Erkennung von ST-Hebungs-Myokardinfarkten (STEMI) verwendet. STEMIs werden durch einen akuten Verlust der Blutversorgung des Herzgewebes verursacht und können zu einer Vielzahl von Komplikationen führen, die vom Verlust der Kontraktilfunktion bis zum Tod reichen.

Die in dieser Studie verwendeten EKGs enthalten jeweils Wellenformdaten, die von einer von zwölf Ableitungen aufgezeichnet wurden, wobei jede Ableitung eine andere Perspektive auf die elektrische Aktivität des Herzens darstellt. Beide Datensätze enthalten EKGs mit entweder 5 oder 10 s Wellenformdaten pro Ableitung, die mit einer Rate von 500 Hz abgetastet wurden, also insgesamt 2500 oder 5000 Abtastungen. Der MSHS-Datensatz enthält keine Daten zu Ableitungen III, aVF, aVL oder aVR. Diese Ableitungen werden jedoch abgeleitet, da sie aus linearen Transformationen der Vektoren, die die anderen Ableitungen darstellen, wiederhergestellt werden können. Um die Einheitlichkeit aller Proben und Datensätze zu gewährleisten, wurden alle EKGs auf 2500 Proben gekürzt.

Wir haben Rauschen in EKG-Aufzeichnungen durch die Anwendung eines Butterworth-Bandpassfilters (0,5 Hz–40 Hz) korrigiert, gefolgt von der Anwendung eines Medianfilters auf rohe Wellenformdaten. Die so abgeleiteten verarbeiteten Wellenformdaten wurden organisiert, um die Reihenfolge der Ableitungen beizubehalten, und in Bildern dargestellt, wobei jedes Bild insgesamt acht Ableitungen (I, II und V1–V6) enthielt. Die Bilder wurden im.png-Format (Portable Network Graphics) mit einer Auflösung von 1000 × 1000 Pixeln gespeichert, um Komprimierungsartefakte zu vermeiden. Darüber hinaus wurden die Ausgabebilder mit drei Farbkanälen gespeichert, um die Kompatibilität mit auf ImageNet trainierten CNNs zu gewährleisten.

Token können als diskrete vordefinierte Sequenzen definiert werden, die auf semantischer Basis gruppiert und gemeinsam analysiert werden. Im Kontext der Sprachmodellierung können Token einfach die Wörter sein, die einen Textkörper bilden. Der Prozess der Aufteilung von Daten in solche diskreten Sequenzen und der Zuweisung eindeutiger numerischer Kennungen wird als Tokenisierung27 bezeichnet.

Eine häufig zum Vorabtraining von Sprachmodellen verwendete Methode heißt Masked Language Modeling (MLM)28, wobei ein festgelegter Prozentsatz der Anzahl der in das Modell eingegebenen Token maskiert oder ausgeblendet wird und Modelle vorab trainiert werden, indem sie diese maskiert vorhersagen Token. Das Sammeln und Kennzeichnen von Daten kann ein teurer Prozess sein, und bei medizinischen Datensätzen sind diese Kosten noch höher. Ein wesentlicher Vorteil von MLM besteht darin, dass es die Verwendung großer Mengen unbeschrifteter Daten zum Vorabtrainieren von Modellen ermöglicht.

Der BEiT-Ansatz erweitert MLM auf Masked Image Modeling (MIM), wobei 2D-Eingabebilder in Patches mit Rohpixeln aufgeteilt werden, die dann in tokenisierte Darstellungen des Eingabebilds umgewandelt werden (Abb. 1). Diese Tokenisierung wird mithilfe eines separat trainierten Bild-Tokenizers erreicht, der jeden Patch in ein einzelnes numerisches Token umwandelt. Wir haben für die Konvertierung von EKG-Bildern denselben öffentlich verfügbaren Bild-Tokenizer (Dall-E) verwendet wie die ursprüngliche BEiT-Implementierung.

Wir haben ein 12-schichtiges Transformatormodell mit einer versteckten Schichtgröße von 768 und 12 Aufmerksamkeitsköpfen für insgesamt etwa 86 M Parameter instanziiert. Dieses Modell und seine nachgeschalteten Derivate werden im Text dieser Arbeit als „HeartBEiT“ bezeichnet.

Wir verglichen die nachgelagerte problemspezifische Leistung dieses Modells mit einem ImageNet-basierten Vision-Transformer gleicher Größe (ViT-B/16: 86 M Parameter) sowie mit CNN-basierten Ansätzen, die für Deep Learning üblich sind und auf EKGs angewendet werden. Dazu gehören das größte verfügbare vorab trainierte ResNet-Modell (ResNet-152: 60 M Parameter) und eine rechentechnisch kostengünstigere Architektur (EfficientNet-B4: 19 M Parameter), die bekanntermaßen trotz weniger Parameter eine bessere Leistung bei der Bildklassifizierung zeigt. Alle Basislinien wurden überwacht auf dem ImageNet1K-Datensatz vorab trainiert, der 1,2 Millionen beschriftete Trainingsbilder enthielt.

Die Größe der Eingabebilder wurde auf 224 × 224 Pixel geändert, sie wurden ansonsten jedoch keiner weiteren Vorverarbeitung unterzogen. Im Gegensatz zu natürlichen Bildern müssen bei EKG-Kurven Morphologie und Ordnung beibehalten werden. Zufälliger Verlust von Informationen, die möglicherweise nur in bestimmten Segmenten eines EKG vorhanden sind.

Eingabebilder wurden in quadratische Felder mit jeweils 16 Pixeln aufgeteilt, sodass insgesamt 196 Felder pro Eingabebild vorhanden waren (Abb. 5). 40 % der Eingabefelder wurden für die Eingabe in das neuronale Netzwerk maskiert. Wir haben den AdamW-Optimierer mit einer Lernrate von 5e-4 verwendet. Das HeartBEiT-Modell wurde auf einem Knoten vorab trainiert, der aus 4 NVIDIA A100-40G-GPUs bestand. Bei etwa 6 Stunden pro Epoche dauerte das Vortraining des Modells für 300 Epochen etwa 2,5 Monate. In allen Fällen wurden die in der 300. Epoche gespeicherten Modellparameter für die nachgelagerte Feinabstimmung verwendet (ergänzende Abbildung 1).

Vorab trainierte Modelle wurden einer Feinabstimmungsaufgabe unterzogen, um die Leistung bei der EKG-basierten Klassifizierung zu demonstrieren und zu vergleichen. Wir haben Daten von 4 Krankenhäusern zum Nachweis einer LVEF von < 40 % und zur Diagnose von HCM verwendet. In beiden Fällen wurde die Leistung des fein abgestimmten Modells extern anhand von Daten des Morningside-Krankenhauses validiert. Daten aus der PTB-XL-Datenbank wurden zur Feinabstimmung des vorab trainierten HeartBEiT-Modells sowie der anderen Modelle zur Erkennung von STEMI verwendet.

Die Daten wurden in einen Trainingsdatensatz, einen internen Testdatensatz und gegebenenfalls einen externen Validierungsdatensatz unterteilt. Wir modellierten Bedingungen extremen Datenmangels, indem wir die Trainingsdaten auf 1 %, 10 %, 25 %, 50 % oder 100 % reduzierten und die resultierenden Modelle dann mit gängigen Testdaten testeten. In allen Fällen wurde Group Shuffle Splitting mit einem konstanten Zufallsstartwert verwendet, um sicherzustellen, dass weder in den Trainings- noch in den Testdaten Patienten vorhanden waren und dass in beiden Datensätzen in allen Durchläufen dieselben Patienten enthalten waren.

Wir haben den Klassifizierungskopf jedes Modells auf eine Größe von zwei Neuronen eingestellt und den CrossEntropy-Verlust genutzt. Zur Feinabstimmung wurde der Adam-Optimierer auf einem OneCycle-Lernratenplan zwischen 3e-4 und 1e-3 über 30 Epochen verwendet, und die gemeldeten Leistungsmetriken entsprechen der besten Leistung, die in diesen Epochen erzielt wurde. Zur Berechnung und zum Vergleich der Modellleistung wurden die schwellenunabhängigen Metriken „Area Under the Receiver Operating Characteristic Curve“ (AUROC) und „Area Under the Precision Recall Curve“ (AUPRC) verwendet. 95 %-Konfidenzintervalle für Flächen unter der Kurve wurden durch 500 Iterationen des Bootstrap generiert.

Die Wasserstein-Distanz29 ist ein Maß für die Kosten, die erforderlich sind, um eine Verteilung in eine andere umzuwandeln. Bei zwei diskreten Bildern ist die Größe des Wasserstein-Abstands zwischen ihnen direkt proportional zu ihrer Unähnlichkeit. Höhere Wasserstein-Abstände zwischen Vortrainings- und Feinabstimmungsdaten können beim Transferlernen zu suboptimalen Ergebnissen führen.

Wir haben jeweils 1000 Bilder zufällig aus den ImageNet- und EKG-Datensätzen ausgewählt. Die Größe aller Proben aus jeder Kohorte wurde auf 224 × 224 Pixel geändert und mit allen anderen Proben aus derselben Kohorte sowie der anderen Kohorte gepaart, um insgesamt drei solcher Kombinationen zu erhalten: EKG vs. EKG, EKG vs. ImageNet, ImageNet vs. ImageNet. Jede dieser Operationen ergab insgesamt 106 Paare. Die Wasserstein-Distanz wurde für jedes resultierende Bildpaar berechnet und über die Kohortenkombination gemittelt.

Die Erklärbarkeit des Modells wurde mithilfe der GradCAM-Bibliothek (Gradient-Weighted Class Activation Mapping)30 generiert. Die generierten Zuordnungen wurden als Überlagerung über das ursprüngliche Eingabebild aufgetragen, um zu zeigen, welcher Teil einer Eingabe am meisten zu einer Vorhersage beigetragen hat.

Alle Analysen wurden mit den Bibliotheken Pandas, Numpy, Python Image Library (PIL), SciPy, Scikit-Learn, Torchvision, Timm und PyTorch durchgeführt. Die Darstellung erfolgte mithilfe der Matplotlib- und Seaborn-Bibliotheken. Der gesamte Code wurde für und innerhalb der 3.8.x-Version der Programmiersprache Python geschrieben.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Research Reporting Summary.

Die in dieser Studie verwendeten Daten zum Berg Sinai sind aus Bedenken hinsichtlich der Privatsphäre der Patienten nicht öffentlich verfügbar. Der PTB-XL-Datensatz steht öffentlich zum Download zur Verfügung unter: https://doi.org/10.13026/kfzx-aw45. Das HeartBEiT-Modell kann anderen Forschern im Rahmen einer vom IRB genehmigten Vereinbarung mit Mount Sinai Intellectual Partners zugänglich gemacht werden.

Der Modellerstellungscode ist nicht datensatzspezifisch und verfügbar unter: https://github.com/akhilvaid/HeartBEiT.

Drazen, E., Mann, N., Borun, R., Laks, M. & Bersen, A. Übersicht über computergestützte Elektrokardiographie in den Vereinigten Staaten. J. Elektrokardiol. 21, S98–S104 (1988).

Artikel PubMed Google Scholar

Vaid, A. et al. Automatisierte Bestimmung der linksventrikulären Funktion anhand von Elektrokardiogrammdaten bei Patienten unter Erhaltungshämodialyse. Klin. Marmelade. Soc. Nephrol. 17, 1017–1025 (2022).

Artikel PubMed Google Scholar

Vaid, A. et al. Verwendung von Deep-Learning-Algorithmen zur gleichzeitigen Identifizierung rechts- und linksventrikulärer Dysfunktionen anhand des Elektrokardiogramms. Herz-Kreislauf. Bildgebung 15, 395–410 (2022).

Google Scholar

Vaid, A. et al. Multizentrische retrospektive Kohortenstudie, die Deep Learning auf Elektrokardiogramme anwendet, um eine Funktionsstörung der linken Herzklappe zu identifizieren. Komm. Med. 3, 24 (2023).

Artikel PubMed PubMed Central Google Scholar

Mincholé, A., Camps, J., Lyon, A. & Rodríguez, B. Maschinelles Lernen im Elektrokardiogramm. J. Elektrokardiol. 57, S61–S64 (2019).

Artikel Google Scholar

Aziz, S., Ahmed, S. & Alouini, M.-S. EKG-basierte maschinelle Lernalgorithmen zur Herzschlagklassifizierung. Wissenschaft. Rep. 11, 18738 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Hong, S., Zhou, Y., Shang, J., Xiao, C. & Sun, J. Chancen und Herausforderungen von Deep-Learning-Methoden für Elektrokardiogrammdaten: Eine systematische Überprüfung. Computer Biol. Med. 122, 103801 (2020).

Artikel Google Scholar

Geman, S., Bienenstock, E. & Doursat, R. Neuronale Netze und das Bias/Varianz-Dilemma. Neuronale Berechnung. 4, 1–58 (1992).

Artikel Google Scholar

Alzubaidi, L. et al. Rückblick auf Deep Learning: Konzepte, CNN-Architekturen, Herausforderungen, Anwendungen, zukünftige Richtungen. J. Big Data 8, 53 (2021).

Artikel PubMed PubMed Central Google Scholar

Gu, J. et al. Jüngste Fortschritte bei Faltungs-Neuronalen Netzen. Mustererkennung. 77, 354–377 (2018).

Artikel Google Scholar

Weimann, K. & Conrad, TOF Transferlernen für die EKG-Klassifizierung. Wissenschaft. Rep. 11, 5251 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Weiss, K., Khoshgoftaar, TM & Wang, D. Eine Umfrage zum Transferlernen. J. Big Data 3, 9 (2016).

Artikel Google Scholar

Deng, J. et al. Im Jahr 2009 IEEE-Konferenz über Computer Vision und Mustererkennung. 248–255 (Ieee).

Gavrilov, AD, Jordache, A., Vasdani, M. & Deng, J. Verhindern von Modellüberanpassung und -unteranpassung in Faltungs-Neuronalen Netzen. Int. J. Softw. Wissenschaft. Berechnen. Intel. (IJSSCI) 10, 19–28 (2018).

Artikel Google Scholar

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. In Advances in Neural Information Processing Systems Vol. 30 (Hrsg. Guyon, I. et al.) (Curran Associates, Inc, 2017). https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.

Khan, S. et al. Transformers in Vision: Eine Umfrage. ACM Computing Surveys (CSUR) 54, 1–41 (2022).

Wolf, T. et al. In Proceedings der Konferenz 2020 über empirische Methoden in der Verarbeitung natürlicher Sprache: Systemdemonstrationen. 38–45.

Kalyan, KS, Rajasekharan, A. & Sangeetha, S. Ammus: Eine Übersicht über transformatorbasierte vorab trainierte Modelle in der Verarbeitung natürlicher Sprache. Vorabdruck unter https://arxiv.org/abs/2108.05542 (2021).

Liu, Z. et al. In Proceedings der IEEE/CVF International Conference on Computer Vision. 10012–10022.

Dosovitskiy, A. et al. Ein Bild sagt mehr als 16x16 Worte: Transformatoren für die Bilderkennung im Maßstab. Vorabdruck unter https://arxiv.org/abs/2010.11929 (2020).

Bao, H., Dong, L. & Wei, F. Beit: Bert-Vorschulung von Bildtransformatoren. Vorabdruck unter https://arxiv.org/abs/2106.08254 (2021).

Raghu, M., Unterthiner, T., Kornblith, S., Zhang, C. & Dosovitskiy, A. Sehen Vision-Transformatoren wie Faltungs-Neuronale Netze? Adv. Neuronale Inf. Verfahren. Syst. 34, 12116–12128 (2021).

Google Scholar

Shahani, L. S1Q3T3-Muster, das zur Frühdiagnose einer Lungenembolie führt. BMJ Case Rep. 2012 https://doi.org/10.1136/bcr-2012-006569 (2012).

Raudys, SJ & Jain, AK Kleine Stichprobengrößeneffekte bei der statistischen Mustererkennung: Empfehlungen für Praktiker. IEEE Trans. Muster Anal. Mach. Intel. 13, 252–264 (1991).

Artikel Google Scholar

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R. Dropout: eine einfache Möglichkeit, eine Überanpassung neuronaler Netze zu verhindern. J. Mach. Lernen. Res. 15, 1929–1958 (2014).

Google Scholar

Bozkurt, B. et al. Universelle Definition und Klassifizierung von Herzinsuffizienz: ein Bericht der Heart Failure Society of America, der Heart Failure Association der European Society of Cardiology, der japanischen Heart Failure Society und des Schreibausschusses für die universelle Definition von Herzinsuffizienz. J. Karte. Scheitern. 27, 387–413 (2021).

Artikel Google Scholar

Webster, JJ & Kit, C. In COLING 1992 Band 4: Die 14. internationale Konferenz über Computerlinguistik.

Ghazvininejad, M., Levy, O., Liu, Y. & Zettlemoyer, L. Mask-Predict: Parallele Dekodierung bedingter maskierter Sprachmodelle. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing und der 9. International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) 6112–6121. https://arxiv.org/abs/1904.09324 (Vereinigung für Computerlinguistik, Hongkong, China, 2019).

Rubner, Y., Tomasi, C. & Guibas, LJ Die Entfernung des Erdbewegungsgeräts als Maß für die Bildwiederherstellung. Int. J. Computervis. 40, 99–121 (2000).

Artikel Google Scholar

Selvaraju, RR et al. In Proceedings of the IEEE International Conference on Computer Vision. 618–626.

Referenzen herunterladen

Diese Studie wurde durch R01HL155915 und den Clinical and Translational Award für Infrastruktur UL1TR004419 finanziert. Die Autoren möchten Wei Guo, Lili Gai und Eugene Fluder von der High Performance Computing-Gruppe am Mount Sinai dafür danken, dass sie die dieser Studie zugrunde liegende Infrastruktur ermöglicht haben.

Das Charles Bronfman Institute for Personalized Medicine, Icahn School of Medicine am Mount Sinai, New York, NY, USA

Akhil Vaid, Joy Jiang, Alexander Charney und Girish N Nadkarni

Mount Sinai Clinical Intelligence Center, Icahn School of Medicine am Mount Sinai, New York, NY, USA

Akhil Vaid, Joy Jiang & Girish N Nadkarni

Abteilung für Genetik und Genomwissenschaften, Icahn School of Medicine am Mount Sinai, New York, NY, USA

Akhil Vaid, Alexander Charney, Benjamin Glicksberg und Girish N Nadkarni

Das Hasso-Plattner-Institut für digitale Gesundheit am Mount Sinai, New York, NY, USA

Akhil Vaid, Benjamin Glicksberg & Girish N Nadkarni

Abteilung für Medizin, Icahn School of Medicine am Mount Sinai, New York, NY, USA

Ashwin Sawant

Mount Sinai Heart, Icahn School of Medicine am Mount Sinai, New York, NY, USA

Stamatios Lerakis, Edgar Argulian, Joshua Lampert und Jagat Narula

Abteilung für Kardiologie, Icahn School of Medicine am Mount Sinai, New York, NY, USA

Stamatios Lerakis, Edgar Argulian, Joshua Lampert und Jagat Narula

Medizinische Fakultät, NYU Langone Health, New York, NY, USA

Yuri Ahuja

Die Pamela Sklar-Abteilung für psychiatrische Genomik, Icahn School of Medicine am Mount Sinai, New York, NY, USA

Alexander Charney

Abteilung für Psychiatrie, Icahn School of Medicine am Mount Sinai, New York, NY, USA

Alexander Charney

Abteilung für Biomedizintechnik, Universität Tel Aviv, Tel Aviv, 6997801, Israel

Hayit Greenspan

Abteilung für Nephrologie, Abteilung für Medizin, Icahn School of Medicine am Mount Sinai, New York, NY, USA

Girish N Nadkarni

Sie können diesen Autor auch in PubMed Google Scholar suchen

Die Studie wurde von AV entworfen; Der Code wurde von AV geschrieben; Die zugrunde liegenden Daten wurden von AV gesammelt, analysiert und visualisiert; der erste Entwurf des Manuskripts wurde von AV und JJ verfasst; GNN betreute das Projekt. AV und GNN hatten Zugriff auf die Daten und überprüften sie. Alle Autoren gaben Feedback und gaben den endgültigen Entwurf zur Veröffentlichung frei.

Korrespondenz mit Akhil Vaid.

Dr. Nadkarni berichtet über Beratungsvereinbarungen mit AstraZeneca, BioVie, GLG Consulting, Pensieve Health, Reata, Renalytix, Siemens Healthineers und Variant Bio; Forschungsförderung von Goldfinch Bio und Renalytix; Honorare von AstraZeneca, BioVie, Lexicon, Daiichi Sankyo, Meanrini Health und Reata; Patente oder Lizenzgebühren mit Renalytix; besitzt als wissenschaftlicher Mitbegründer Anteile und Aktienoptionen an Pensieve Health und Renalytix; besitzt Anteile an Verici Dx; hat als wissenschaftliches Vorstandsmitglied und Berater von Renalytix eine finanzielle Vergütung erhalten; ist Mitglied des Beirats von Neurona Health; und ist in beratender oder leitender Funktion für Pensieve Health und Renalytix tätig. Alle anderen Autoren haben angegeben, dass sie keine für den Inhalt dieses Artikels relevanten Beziehungen haben, die sie offenlegen möchten.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Vaid, A., Jiang, J., Sawant, A. et al. Ein grundlegender Vision-Transformer verbessert die Diagnoseleistung für Elektrokardiogramme. npj Ziffer. Med. 6, 108 (2023). https://doi.org/10.1038/s41746-023-00840-9

Zitat herunterladen

Eingegangen: 13. Januar 2023

Angenommen: 05. Mai 2023

Veröffentlicht: 06. Juni 2023

DOI: https://doi.org/10.1038/s41746-023-00840-9

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt