Un transformateur de vision fondamental améliore les performances de diagnostic des électrocardiogrammes

npj Digital Medicine volume 6, Numéro d'article : 108 (2023) Citer cet article

76 Altmétrique

Détails des métriques

L'électrocardiogramme (ECG) est une modalité diagnostique omniprésente. Les réseaux de neurones convolutifs (CNN) appliqués à l'analyse ECG nécessitent de grandes tailles d'échantillons, et les approches d'apprentissage par transfert pour les problèmes biomédicaux peuvent entraîner des performances sous-optimales lorsque la pré-formation est effectuée sur des images naturelles. Nous avons exploité la modélisation d'images masquées pour créer un modèle de transformateur basé sur la vision, HeartBEiT, pour l'analyse de la forme d'onde de l'électrocardiogramme. Nous avons pré-formé ce modèle sur 8,5 millions d'ECG, puis comparé les performances par rapport aux architectures CNN standard pour le diagnostic de la cardiomyopathie hypertrophique, de la faible fraction d'éjection ventriculaire gauche et de l'infarctus du myocarde avec élévation du segment ST en utilisant différentes tailles d'échantillons d'entraînement et des ensembles de données de validation indépendants. Nous constatons que HeartBEiT a des performances nettement supérieures à des tailles d'échantillons inférieures par rapport aux autres modèles. Nous constatons également que HeartBEiT améliore l'explicabilité du diagnostic en mettant en évidence les régions biologiquement pertinentes de l'ECG par rapport aux CNN standard. Les modèles de transformateurs pré-formés spécifiques à un domaine peuvent dépasser les performances de classification des modèles formés sur des images naturelles, en particulier dans des régimes de données très faibles. La combinaison de l'architecture et de cette formation préalable permet une explicabilité plus précise et granulaire des prédictions du modèle.

L'électrocardiogramme (ECG) est un enregistrement au niveau de la surface corporelle de l'activité électrique dans le cœur. En raison de son faible coût, de son caractère non invasif et de sa large applicabilité aux maladies cardiaques, l'ECG est une enquête omniprésente et plus de 100 millions d'ECG sont effectués chaque année aux États-Unis seulement1 dans divers établissements de santé. Cependant, l'ECG a une portée limitée car les médecins ne peuvent pas identifier de manière cohérente les schémas représentatifs de la maladie - en particulier pour les conditions qui n'ont pas de critères de diagnostic établis, ou dans les cas où ces schémas peuvent être trop subtils ou chaotiques pour une interprétation humaine.

L'apprentissage en profondeur a été appliqué aux données ECG pour plusieurs cas d'utilisation diagnostiques et pronostiques2,3,4,5,6. La grande majorité de ces travaux ont été construits sur les réseaux de neurones convolutifs (CNN)7. Comme d'autres réseaux de neurones, les CNN sont des constructions à variance élevée8 et nécessitent de grandes quantités de données pour éviter le surajustement9. Les CNN doivent également être spécialement conçus pour s'adapter à la dimensionnalité des données entrantes, et ils ont été utilisés pour interpréter les ECG à la fois sous forme de formes d'onde 1D et d'images 2D10.

Dans ce contexte, l'interprétation des ECG comme des images 2D présente un avantage en raison des modèles pré-entraînés largement disponibles qui servent souvent de points de départ pour les tâches de modélisation sur des ensembles de données plus petits11. Cette technique est décrite comme un apprentissage par transfert dans lequel un modèle qui est formé sur un ensemble de données plus grand, éventuellement sans rapport, est affiné sur un ensemble de données plus petit qui est pertinent pour un problème12. L'apprentissage par transfert est particulièrement utile dans les soins de santé, car les ensembles de données sont de taille limitée en raison des cohortes de patients limitées, de la rareté des résultats d'intérêt et des coûts associés à la génération d'étiquettes utiles. Par conséquent, les modèles de vision entraînés d'abord de manière supervisée sur des images naturelles13 constituent souvent la base des modèles utilisés dans les établissements de santé. Malheureusement, l'apprentissage par transfert avec de telles images naturelles n'est pas une solution universelle, et il est connu qu'il produit des résultats sous-optimaux lorsqu'il existe des différences substantielles dans les ensembles de données de pré-formation et de réglage fin14.

Les réseaux de neurones basés sur des transformateurs utilisent le mécanisme d'attention15 pour établir et définir des relations entre des unités discrètes de données d'entrée appelées jetons16. Un avantage important que les transformateurs permettent est l'apprentissage non supervisé à partir de grands corpus de données non étiquetées pour apprendre les relations entre les jetons, puis utiliser ces informations pour d'autres tâches en aval16. En raison de la facilité avec laquelle le texte non structuré peut être décomposé en jetons, les transformateurs ont connu un énorme succès dans les tâches de traitement du langage naturel (NLP)17,18. Des travaux récents ont étendu la fonctionnalité de ces modèles à des tâches basées sur la vision, conduisant à l'avènement du transformateur de vision16,19.

Les premiers transformateurs de vision ont été pré-formés sur d'immenses ensembles de données étiquetés, puis affinés sur des ensembles de données plus petits pour indiquer de meilleures performances par rapport aux CNN lors de la classification des images naturelles20. Plus récemment, l'approche de représentation de l'encodeur bidirectionnel à partir des transformateurs d'image (BEiT) a permis d'exploiter de grands ensembles de données non étiquetés pour les réseaux de neurones de transformateur de pré-formation21. Cette approche consiste à convertir des parties d'une image d'entrée en jetons ou patchs discrets. Ces jetons peuvent être considérés comme analogues aux mots d'une phrase et être utilisés pour pré-entraîner un transformateur de la même manière qu'un modèle de langage (Fig. 1). Étant donné que les transformateurs prennent en compte les dépendances globales22 entre toutes les caractéristiques des entrées fournies, une telle formation préalable peut être particulièrement avantageuse pour les ECG. Certains modèles pathologiques tels que le S1Q3T3 se produisent dans différentes parties d'un enregistrement23, et un modèle qui ne considère que les régions contiguës peut les manquer entièrement.

Pré-formation du modèle HeartBEiT. (1) Chaque ECG original est partitionné en 14 × 14 patchs (2) de 16 × 16 pixels. Ces patchs sont tokenisés, et certains d'entre eux sont masqués (3). Le modèle Dall-E (4) agit en tant que tokenizer et convertit l'image en jetons discrets (5) qui sont ensuite intégrés au processus de modélisation d'image masquée (6). Cela permet de pré-former les modules d'attention du modèle HeartBEiT (7), et le modèle peut ensuite être utilisé pour le réglage fin et l'inférence en aval (8, 9) lors de l'ajout d'une tête de classification Perceptron multicouche (10).

Nous créons un modèle de transformateur de vision pré-entraîné sur un large corpus de plusieurs millions d'ECG appartenant à une population diversifiée. Nous utilisons ce modèle pour créer des modèles spécialisés pour les cas d'utilisation où peu de données peuvent être disponibles. Nous comparons ensuite les cartes de performance et de saillance aux modèles de référence soumis à des contraintes similaires.

Nous avons inclus 511 491 ECG au total de MSHS dans l'ensemble de formation ou de réglage fin, 20 448 échantillons de MSHS dans les tests et 1 480 de Morningside dans la validation externe. La faible prévalence de la FEVG était de 18 % dans l'ensemble d'entraînement (tableau 1).

HeartBEiT a surpassé les autres modèles CNN à faible classification LVEF à toutes les fractions de données d'entraînement (Fig. 2; Tableau supplémentaire 1). À 1 % des données d'entraînement (5 114 échantillons), les performances (AUROC : 0,86, IC à 95 % : 0,86-0,86) étaient 28,4 % meilleures que celles du modèle ViT-B/16 (AUROC : 0,67, IC à 95 % 0,67-0,67), 5,2 % meilleures qu'EfficientNet-B4 (AUROC : 0,82, IC à 95 % : 0,82- 0,82) et 2,4 % de mieux que ResNet-152 (AUROC : 0,84, IC à 95 % : 0,84–0,84) dans les tests internes (Fig. 2 supplémentaire). Ces tendances ont été maintenues tout au long de la validation externe avec HeartBEiT (AUROC : 0,87, IC à 95 % : 0,87-0,87) surpassant les CNN de 4 à 18 % (Fig. 3 supplémentaire).

a Performance des tests internes (4 sites Mount Sinai). b Différence de performance des tests internes. c Performance de validation externe (patients Morningside). d Différence de performance de validation externe. La ligne pointillée rouge dans (b) et (d) indique les performances de HeartBEiT.

En utilisant l'AUPRC comme métrique, à 1 % des données d'entraînement et contre une prévalence de 18,5 % dans la cohorte de test interne, le modèle HeartBEiT (AUPRC : 0,59, IC à 95 % : 0,59-0,59) a surpassé ViT-B/16 (AUPRC : 0,31, IC à 95 % 0,31-0,31) de 90,3 %, EfficientNet-B4 (AUP RC : 0,48, IC à 95 % : 0,48 à 0,48) de 22,9 % et ResNet-152 (AUPRC : 0,52, IC à 95 % : 0,52 à 0,52) de 13,5 % (tableau supplémentaire 2, figures supplémentaires 4 à 6). Dans la cohorte de validation externe, HeartBEiT avait l'AUPRC le plus élevé de 0,73 (IC à 95 % : 0,73 à 0,73).

Avec 100 % des données d'apprentissage (511 491 échantillons), les performances de tous les modèles sont devenues plus proches. Lors des tests internes, il n'y avait pas de différence de performances entre HeartBEiT, EfficientNet-B4 et ResNet-152, et une différence de 1,1 à 4,5 % a été observée lors de la validation externe pour AUROC. Cependant, pour AUPRC, HeartBEiT a encore amélioré ses performances de 0 à 17,7 % dans les ensembles de données internes et externes.

L'analyse GRAD-CAM a démontré que les zones autour des complexes QRS de chaque dérivation étaient mises en évidence à 1 % des données d'entraînement par HeartBEiT (Fig. 7a supplémentaire). Lorsque 100% des données d'entraînement ont été mises en œuvre, les foyers sont devenus plus prononcés autour des complexes QRS du plomb I (Fig. 7b supplémentaire).

Nous avons affiné le transformateur HeartBEiT en utilisant 78 831 ECG de quatre hôpitaux du MSHS. Des tests ont été effectués sur 20 448 ECG de ces hôpitaux, et 3 859 ECG d'un ensemble de patients exclus de Morningside ont été utilisés pour une validation externe (tableau 1). La prévalence de HCM dans l'ensemble d'entraînement était de 38 %.

HeartBEiT a surpassé les autres modèles lors du diagnostic de HCM à toutes les fractions de données d'entraînement (Fig. 3; Tableau supplémentaire 1). À 1 % des données d'entraînement, les performances du modèle HeartBEiT à AUROC de 0,77 (IC à 95 % : 0,77 à 0,77) ont dépassé celles de ViT-B/16 de 26,2 % et d'EfficientNet-B4 et ResNet-152 de 6,9 % dans les tests internes (Fig. 2 supplémentaire). Des résultats similaires ont été observés pour la validation externe avec le modèle HeartBEiT qui avait un AUROC de 0,74 (IC à 95 % : 0,74-0,74), surpassant ViT-B/16 (0,61, IC à 95 % : 0,61-0,61) de 21,3 %, EfficientNet-B4 (0,69, IC à 95 % : 0,68-0,70) de 7,2 % et ResNet -152 (0,68, IC à 95 % : 0,68–0,69) de 8,8 % (Fig. 3 supplémentaire).

Les différences de performances étaient beaucoup plus profondes pour l'AUPRC à 1 % des données d'entraînement utilisées (tableau supplémentaire 2 ; Fig. 8 supplémentaire). En utilisant 1 % des données d'entraînement, contre une prévalence de 38,8 % dans la cohorte de test interne, le modèle HeartBEiT (AUPRC : 0,67, 95 %, IC : 0,67-0,67) a dépassé les performances de ViT-B/16 (AUPRC : 0,49, 95 % IC 0,49-0,49) de 36,7 %, EfficientNet-B4 (AUPRC : 0,63 , IC à 95 % : 0,63-0,63) de 6,3 % et le ResNet-152 (AUPRC : 0,64, IC à 95 % : 0,64-0,64) de 4,7 % (Fig. 5 supplémentaire). En validation externe, HeartBEiT a continué à présenter les meilleures performances avec un AUPRC de 0,64 (IC à 95 % : 0,64-0,64) (Fig. 6 supplémentaire).

L'avantage de performance HeartBEiT a diminué progressivement à mesure que la quantité de données d'entraînement augmentait. Par rapport à 100 % des données d'entraînement, le différentiel de performance était jusqu'à 2,5 % dans les tests internes et 3,9 % de validation externe pour AUROC et jusqu'à 4,2 % et 7,1 % pour les tests internes et la validation externe, respectivement, pour AUPRC.

L'analyse GRAD-CAM a révélé qu'à 1% des données, les complexes QRS des dérivations I, V2 et V5 et le segment ST de V6 étaient désignés comme des régions importantes pour prédire HCM par HeartBEiT (Fig. 9a supplémentaire). En revanche, à 100 % des données d'entraînement, les domaines clés identifiés par HeartBEiT sont devenus plus ciblés au début de la V5 (Fig. 9b supplémentaire).

L'ensemble de données PTB-XL contient 21 799 ECG au total provenant de 18 869 patients : 17 449 ECG ont été utilisés pour le réglage fin et 4 352 pour tester le modèle. La prévalence du STEMI était d'environ 5,7 % dans l'ensemble d'entraînement et de 5,4 % dans l'ensemble de test (tableau 1).

L'avantage de performance AUROC de HeartBEiT s'est avéré plus important avec de plus petites fractions de données d'entraînement utilisées pour l'entraînement (Fig. 4; Tableau supplémentaire 1). Lors des tests internes, l'AUROC de HeartBEiT était de 0,88 (IC à 95 % : 0,88 à 0,89) avec une amélioration des performances de 4,8 à 10 % par rapport aux autres modèles à 1 % des données d'entraînement (Fig. 2 supplémentaire). Cet avantage est passé à environ 20,3 %, 1,1 % et 2,2 % par rapport à ViT-B/16, EfficientNet-B4 et ResNet-152, respectivement, lorsque toutes les données de formation disponibles (17 449 échantillons) ont été utilisées.

a Performances des tests internes. b Différence de performance des tests internes. La ligne rouge pointillée en (b) indique les performances de HeartBEiT.

Cet avantage de performance est devenu beaucoup plus profond pour l'AUPRC, avec HeartBEiT (AUPRC : 0,56, IC à 95 % 0,56-0,66) surpassant ViT-B/16 (0,27, IC à 95 % 0,26-37) de 107,4 %, ResNet-152 (0,47, IC à 95 % 0,46-0,47) de 19,1 % et l'Ef ficientNet-B4 (0,40, IC à 95 % 0,40-0,41) de 40,0 % à une fraction de 1 % des données d'entraînement (tableau supplémentaire 2 ; Fig. 5 supplémentaire ; Fig. 10 supplémentaire). Cependant, à 100 % des données d'entraînement, les performances de HeartBEiT (AUPRC : 0,67, IC à 95 % 0,66-0,67) sont devenues non significativement inférieures à celles d'EfficientNet-B4 (AUPRC : 0,68, IC à 95 % : 0,67-0,68).

Pour la détection STEMI, le transformateur de vision ViT-B/16 présentait une instabilité d'entraînement lors de l'utilisation de plus de 10 % des données d'entraînement tout en maintenant d'autres hyperparamètres tels que le taux d'apprentissage constant. Cette instabilité n'a été observée que pour ce résultat, et les performances rapportées correspondent aux meilleures mesures obtenues avant l'erreur des méthodes de formation.

Les segments ST de chaque dérivation ont été soulignés comme des zones importantes selon l'analyse GRAD-CAM de HeartBEiT à 1 % des données d'entraînement (Fig. 5). À 100 % des données d'entraînement, ces zones désignées par HeartBEiT se sont localisées autour des segments ST des dérivations V3 et V4 (Fig. 11 supplémentaire).

un ViT-B/16. bEfficientNet-B4. c ResNet-152. d HeartBEiT. HeartBEiT se localise sur les segments ST. D'autres modèles sont plus diffus dans la mise en évidence des caractéristiques importantes et peuvent être moins utiles sur le plan clinique.

La distance moyenne de Wasserstein par paires pour l'ensemble ECG vs ECG était de 2,14. En comparaison, cette valeur était de 45,48 pour l'ensemble ImageNet vs ImageNet et de 128,44 pour l'ensemble ECG vs ImageNet (Fig. 12 supplémentaire).

En utilisant 8,5 millions d'ECG de 2,1 millions de patients collectés sur une période de quatre décennies, nous avons exploité la modélisation d'images masquées pour créer un modèle de transformateur basé sur la vision (HeartBEiT) pour les données ECG qui peut servir de point de départ universel pour la formation en aval sur les résultats d'intérêt. Nous avons affiné ce modèle par rapport à deux résultats en utilisant des données provenant de quatre hôpitaux du système de santé du mont Sinaï et des modèles dérivés validés en externe sur des données d'un autre hôpital. Nous avons également affiné ce modèle pour la détection de STEMI en utilisant les données de la base de données PTB-XL accessible au public, puis en testant le modèle dérivé par rapport à un ensemble de patients exclus. Dans chaque cas, notre modèle a été comparé à deux CNN et à un autre transformateur de vision, tous soumis aux mêmes conditions d'entraînement. Enfin, nous avons évalué un aspect supplémentaire de l'utilité clinique de ces modèles en créant des cartes de saillance pour les échantillons d'entrée.

Les performances des réseaux de neurones peuvent être fortement influencées par la quantité de données disponibles24, et le surajustement peut facilement entraîner de petits régimes de données25. Cependant, les données étiquetées organisées sont une ressource rare. Cela est particulièrement vrai dans le milieu de la santé où effectuer des tests sur des patients, détecter des pathologies d'intérêt et recueillir des données concernant les résultats cliniques est laborieux et coûteux. En plus des coûts financiers d'acquisition et d'étiquetage des données, le temps peut être un facteur supplémentaire qui empêche l'acquisition d'ensembles de données plus volumineux. Lors de problèmes de santé publique émergents, tels que la récente pandémie de COVID-19, peu de données peuvent être disponibles pour le développement de modèles utiles. Dans de telles circonstances, les modèles qui peuvent fonctionner avec une fraction des données requises pour d'autres approches peuvent aider à un diagnostic et à un triage plus rapides et plus appropriés.

Dans tous les résultats, ensembles de données et mesures de performance, HeartBEiT a atteint des performances équivalentes avec un ordre de grandeur inférieur (100 % contre 10 %) aux données d'entraînement. ". cohorte de patients géographiquement séparés.

La différence de performance élevée dans l'AUPRC est particulièrement importante - un meilleur indicateur de performance dans les ensembles de données avec un déséquilibre de classe important dans lequel la prise en compte de l'AUROC isolément peut être moins utile. Compte tenu des taux d'événements relativement faibles, les ensembles de données médicales ont tendance à présenter de tels déséquilibres de classe. Par exemple, dans la détection de STEMI avec une prévalence de résultat de 5,6 %, dans le régime de données d'entraînement de 1 %, HeartBEiT a dépassé l'AUPRC des CNN de 19,1 % et 40 % respectivement, tout en doublant les performances du transformateur de vision ImageNet. Ces résultats indiquent également que la pré-formation sur les images naturelles n'est pas toujours la solution la plus optimale pour créer des modèles liés aux soins de santé - un fait encore mis en évidence par l'ampleur de la disparité de la distance moyenne de Wasserstein entre les images naturelles et les ECG.

Un avantage clinique émergent de l'utilisation des transformateurs avec le cadre d'explicabilité décrit dans ce travail est la granularité de la cartographie de la saillance. Même à des niveaux de performance similaires, les CNN affichés ont tendance à fusionner des domaines d'importance, masquant ainsi les déterminants les plus forts d'une prédiction. En comparaison, les cartes de saillance des transformateurs ont tendance à se concentrer sur ces déterminants. Une telle explicabilité granulaire peut aider à la fois l'adoption par les cliniciens de modèles d'apprentissage en profondeur et aider à comprendre les pathologies pour lesquelles il n'existe pas de directives de diagnostic sur un ECG. Ces facteurs sont bien démontrés pour la détection STEMI où le schéma pathognomonique est bien établi, et le segment ST est systématiquement mis en évidence même en utilisant 1 % des données pour un réglage fin (Fig. 5). Dans le cas de la détermination de la FEVG, il n'existe pas de directives de diagnostic claires pouvant aider les médecins humains. Dans ce cas, les cartes de saillance ont tendance à se concentrer sur les complexes QRS qui indiquent le vecteur net de dépolarisation de la majorité de la musculature ventriculaire cardiaque et indiquent la capacité du transformateur à se concentrer sur les mécanismes sous-jacents à la maladie.

Notre travail doit être considéré à la lumière de certaines limites. Les transformateurs ont tendance à être très gourmands en calcul pour le pré-entraînement. Nous étions donc limités dans la taille du modèle de transformateur à 86 M paramètres, ainsi que dans les dimensions des données d'entrée que nous pouvions utiliser. Cependant, nous pensons que ce travail sert de preuve de la viabilité et des avantages de notre modèle HeartBEiT, et les travaux futurs porteront sur la mise à l'échelle de ce modèle pour permettre de meilleures performances avant le déploiement en direct.

En conclusion, les modèles de transformateurs pré-formés permettent une classification ECG robuste basée sur l'apprentissage en profondeur, même dans des régimes très limités en données. Des cartes de saillance granulaires plus spécifiques et de meilleure qualité peuvent aider les cliniciens à accepter les prédictions du modèle.

Nous avons utilisé toutes les données ECG disponibles de cinq hôpitaux du Mount Sinai Health System (MSHS) pour pré-entraîner notre modèle. Ces hôpitaux (Mount Sinai Hospital, Morningside, West, Beth Israel et Brooklyn) desservent une importante population de patients qui reflète la diversité démographique de la ville de New York. Les données ECG ont été extraites du système GE MUSE pour les années 1980 à 2021, totalisant environ 8,5 millions d'enregistrements ECG discrets pour 2,1 millions de patients. Les données ECG ont été obtenues sous forme de fichiers XML structurés contenant à la fois des formes d'onde brutes ainsi que des métadonnées associées aux identifiants des patients, à l'heure, au lieu et à l'indication.

Pour un réglage précis du modèle en fonction des résultats, nous avons recueilli des étiquettes de vérité au sol pour la valeur de la fraction d'éjection ventriculaire gauche (FEVG) à partir des rapports d'échocardiogramme disponibles. La tâche de modélisation était la classification des patients pour une FEVG ≤ 40 %, qui définit l'insuffisance cardiaque avec une fraction d'éjection réduite26. Nous avons également collecté des étiquettes indiquant un diagnostic de cardiomyopathie hypertrophique - une maladie génétique dans laquelle les cavités cardiaques subissent une augmentation pathologique de l'épaisseur entraînant une perte de la fonction cardiaque et une prédisposition aux arythmies mortelles. Ces étiquettes ont été générées à l'aide du traitement du langage naturel pour analyser les rapports d'échocardiogramme non structurés à la recherche de toute mention de "HCM" / "Cardiomyopathie hypertrophique" - avec ou sans qualificatifs intermédiaires concernant la nature obstructive de la pathologie.

Enfin, nous avons utilisé l'ensemble de données PTB-XL accessible au public pour une validation externe supplémentaire. Cet ensemble de données contient 21 799 ECG de 18 869 patients d'octobre 1989 à juin 1996. Ces données ont été annotées par deux cardiologues et contiennent des étiquettes de diagnostic de vérité au sol, par exemple si un ECG indique un enregistrement normal ou des changements suggérant une ischémie aiguë. Les enregistrements ECG de cette base de données ont été utilisés pour affiner les modèles de détection de l'infarctus du myocarde avec élévation du segment ST (STEMI). Les STEMI sont causés par une perte aiguë de l'apport sanguin au tissu cardiaque et peuvent entraîner une pléthore de complications allant de la perte de la fonction contractile à la mort.

Les ECG utilisés dans cette étude contiennent chacun des données de forme d'onde enregistrées à partir de l'une des douze dérivations, chaque dérivation représentant une perspective différente sur l'activité électrique du cœur. Les deux ensembles de données contiennent des ECG avec 5 ou 10 s de données de forme d'onde par dérivation échantillonnées à une fréquence de 500 Hz, pour un total de 2 500 ou 5 000 échantillons. L'ensemble de données MSHS ne contient pas de données concernant les dérivations III, aVF, aVL ou aVR. Cependant, ces dérivations sont dérivées car elles peuvent être recréées à partir de transformations linéaires des vecteurs représentant les autres dérivations. Afin de maintenir l'uniformité entre les échantillons et les ensembles de données, tous les ECG ont été tronqués à 2 500 échantillons.

Nous avons corrigé le bruit dans les enregistrements ECG en appliquant un filtre passe-bande Butterworth (0,5 Hz à 40 Hz) suivi de l'application d'un filtre médian sur les données de forme d'onde brutes. Les données de forme d'onde traitées ainsi dérivées ont été organisées pour maintenir l'ordre des dérivations et tracées sur des images, chaque image contenant un total de huit dérivations (I, II et V1 à V6). Les images ont été enregistrées au format.png (Portable Network Graphics) à une résolution de 1000 × 1000 pixels pour éviter les artefacts de compression. De plus, les images de sortie ont été stockées avec trois canaux de couleur pour conserver la compatibilité avec les CNN formés sur ImageNet.

Les jetons peuvent être définis comme des séquences prédéfinies discrètes qui sont regroupées et analysées ensemble sur une base sémantique. Dans le contexte de la modélisation du langage, les jetons peuvent simplement être les mots composant un corps de texte. Le processus consistant à séparer les données en de telles séquences discrètes et à leur attribuer des identifiants numériques uniques est appelé Tokenization27.

Une méthode couramment utilisée pour pré-entraîner des modèles de langage est appelée Masked Language Modeling (MLM)28, dans laquelle un pourcentage défini du nombre de jetons entrés dans le modèle est masqué ou caché, et les modèles sont pré-formés en leur faisant prédire ces jetons masqués. La collecte et l'étiquetage des données peuvent être un processus coûteux, et ces coûts sont amplifiés pour les ensembles de données médicales. Un avantage significatif du MLM est qu'il permet l'utilisation de grandes quantités de données non étiquetées pour pré-entraîner des modèles.

L'approche BEiT étend le MLM à la modélisation d'images masquées (MIM) dans laquelle les images d'entrée 2D sont séparées en patchs contenant des pixels bruts qui sont ensuite convertis en représentations symboliques de l'image d'entrée (Fig. 1). Cette tokenisation est réalisée à l'aide d'un tokenizer d'image formé séparément qui rapproche chaque patch en un seul jeton numérique. Nous avons utilisé le même tokenizer d'image accessible au public (Dall-E) pour la conversion des images ECG que l'implémentation BEiT d'origine.

Nous avons instancié un modèle de transformateur à 12 couches avec une taille de couche cachée de 768 et 12 têtes d'attention pour un total d'environ 86 M paramètres. Ce modèle et ses dérivés en aval sont appelés "HeartBEiT" dans le texte de ce travail.

Nous avons comparé les performances spécifiques au problème en aval de ce modèle à un transformateur de vision basé sur ImageNet de taille équivalente (ViT-B/16 : 86 M paramètres), ainsi qu'aux approches basées sur CNN communes à l'apprentissage en profondeur appliqué aux ECG. Il s'agit notamment du plus grand modèle ResNet pré-entraîné disponible (ResNet-152 : 60 M de paramètres) et d'une architecture moins coûteuse en termes de calcul (EfficientNet-B4 : 19 M de paramètres) connue pour démontrer de meilleures performances en matière de classification d'images malgré le nombre réduit de paramètres. Toutes les lignes de base ont été pré-formées de manière supervisée sur l'ensemble de données ImageNet1K contenant 1,2 M d'images d'apprentissage étiquetées.

Les images d'entrée ont été redimensionnées à 224 × 224 pixels, mais autrement soumises à aucun autre prétraitement. Contrairement aux images naturelles, les formes d'onde ECG nécessitent le maintien de la morphologie et de l'ordre. Aléatoire à la perte d'informations qui peuvent n'exister que dans certains segments d'un ECG.

Les images d'entrée ont été divisées en patchs carrés de 16 pixels chacun, pour un total de 196 patchs par image d'entrée (Fig. 5). 40% des patchs d'entrée ont été masqués pour l'entrée dans le réseau neuronal. Nous avons utilisé l'optimiseur AdamW avec un taux d'apprentissage de 5e-4. Le modèle HeartBEiT a été pré-entraîné sur un nœud composé de 4 GPU NVIDIA A100-40G. À environ 6 h par époque, la pré-formation du modèle pour 300 époques a pris environ 2,5 mois. Les paramètres du modèle enregistrés à la 300e époque ont été utilisés pour un réglage fin en aval dans tous les cas (Fig. 1 supplémentaire).

Les modèles pré-entraînés ont été soumis à une tâche de réglage fin pour démontrer et comparer les performances selon la classification basée sur l'ECG. Nous avons utilisé les données de 4 hôpitaux pour la détection d'une FEVG < 40 % et le diagnostic de HCM. Dans les deux cas, les performances du modèle affiné ont été validées en externe sur les données de l'hôpital de Morningside. Les données de la base de données PTB-XL ont été utilisées pour affiner le modèle HeartBEiT pré-formé, ainsi que les autres modèles de détection de STEMI.

Les données ont été séparées en un ensemble de données de formation, un ensemble de données de test interne et, le cas échéant, un ensemble de données de validation externe. Nous avons modélisé des conditions de pénurie extrême de données en réduisant les données de formation à 1 %, 10 %, 25 %, 50 % ou 100 %, puis en testant les modèles résultants par rapport aux données de test courantes. Dans tous les cas, Group Shuffle Splitting avec une graine aléatoire constante a été utilisé pour s'assurer qu'aucun patient n'était présent dans les données d'entraînement et de test, et que les mêmes patients faisaient partie de l'un ou l'autre des ensembles de données d'une série à l'autre.

Nous avons défini la tête de classification de chaque modèle sur une taille de deux neurones et utilisé la perte CrossEntropy. L'optimiseur Adam sur un calendrier de taux d'apprentissage OneCycle entre 3e-4 et 1e-3 sur 30 époques a été utilisé pour un réglage fin et les mesures de performance rapportées correspondent aux meilleures performances obtenues à travers ces époques. Les métriques de l'aire sous la courbe caractéristique de fonctionnement du récepteur (AUROC) et de l'aire sous la courbe de rappel de précision (AUPRC) indépendantes du seuil ont été utilisées pour calculer et comparer les performances du modèle. Des intervalles de confiance à 95 % pour les aires sous la courbe ont été générés sur 500 itérations du bootstrap.

La distance de Wasserstein29 est une mesure du coût nécessaire pour transformer une distribution en une autre. Étant donné deux images discrètes, l'amplitude de la distance de Wasserstein entre elles est directement proportionnelle à leur dissemblance. Des distances de Wasserstein plus élevées entre les données de pré-formation et de réglage fin peuvent conduire à des résultats sous-optimaux avec l'apprentissage par transfert.

Nous avons échantillonné au hasard 1000 images chacune des ensembles de données ImageNet et ECG. Tous les échantillons de chaque cohorte ont été redimensionnés à 224 × 224 pixels et appariés à tous les autres échantillons de la même cohorte, ainsi qu'à l'autre cohorte pour un total de 3 combinaisons de ce type : ECG contre ECG, ECG contre ImageNet, ImageNet contre ImageNet. Chacune de ces opérations a donné un total de 106 paires. La distance de Wasserstein a été calculée pour chaque paire d'images résultante et moyennée sur l'ensemble des cohortes.

L'explicabilité du modèle a été générée à l'aide de la bibliothèque Gradient-weighted Class Activation Mapping (GradCAM)30. Les attributions générées ont été tracées en superposition sur l'image d'entrée d'origine pour démontrer quelle partie d'une entrée a le plus contribué à une prédiction.

Toutes les analyses ont été effectuées à l'aide des bibliothèques pandas, numpy, Python Image Library (PIL), SciPy, scikit-learn, torchvision, timm et PyTorch. Le tracé a été effectué à l'aide des bibliothèques matplotlib et seaborn. Tout le code a été écrit pour et dans la version 3.8.x du langage de programmation Python.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports de recherche sur la nature lié à cet article.

Les données du mont Sinaï utilisées dans cette étude ne sont pas accessibles au public en raison de problèmes de confidentialité des patients. L'ensemble de données PTB-XL est accessible au public en téléchargement sur : https://doi.org/10.13026/kfzx-aw45 Le modèle HeartBEiT peut être diffusé à d'autres chercheurs sur accord approuvé par l'IRB avec Mount Sinai Intellectual Partners.

Le code de création du modèle n'est pas spécifique à l'ensemble de données et est disponible sur : https://github.com/akhilvaid/HeartBEiT.

Drazen, E., Mann, N., Borun, R., Laks, M. et Bersen, A. Enquête sur l'électrocardiographie assistée par ordinateur aux États-Unis. J. Électrocardiol. 21, S98–S104 (1988).

Article PubMed Google Scholar

Vaid, A. et al. Détermination automatisée de la fonction ventriculaire gauche à l'aide de données d'électrocardiogramme chez des patients sous hémodialyse d'entretien. Clin. Confiture. Soc. Néphrol. 17, 1017-1025 (2022).

Article PubMed Google Scholar

Vaid, A. et al. Utilisation d'algorithmes d'apprentissage en profondeur pour identifier simultanément les dysfonctionnements ventriculaires droit et gauche à partir de l'électrocardiogramme. Cardiovasculaire. Imagerie 15, 395–410 (2022).

Google Scholar

Vaid, A. et al. Étude de cohorte rétrospective multicentrique appliquant l'apprentissage profond aux électrocardiogrammes pour identifier le dysfonctionnement valvulaire du cœur gauche. Commun. Méd. 3, 24 (2023).

Article PubMed PubMed Central Google Scholar

Mincholé, A., Camps, J., Lyon, A. & Rodríguez, B. Apprentissage automatique dans l'électrocardiogramme. J. Électrocardiol. 57, S61–S64 (2019).

Article Google Scholar

Aziz, S., Ahmed, S. & Alouini, M.-S. Algorithmes d'apprentissage automatique basés sur l'ECG pour la classification des battements cardiaques. Sci. Rép. 11, 18738 (2021).

Article CAS PubMed PubMed Central Google Scholar

Hong, S., Zhou, Y., Shang, J., Xiao, C. et Sun, J. Opportunités et défis des méthodes d'apprentissage en profondeur pour les données d'électrocardiogramme : une revue systématique. Informatique Biol. Méd. 122, 103801 (2020).

Article Google Scholar

Geman, S., Bienenstock, E. & Doursat, R. Réseaux de neurones et le dilemme biais/variance. Calcul neuronal. 4, 1–58 (1992).

Article Google Scholar

Alzubaidi, L. et al. Revue de l'apprentissage profond : Concepts, architectures CNN, défis, applications, orientations futures. J. Big Data 8, 53 (2021).

Article PubMed PubMed Central Google Scholar

Gu, J. et al. Progrès récents dans les réseaux de neurones convolutifs. Reconnaissance de modèle. 77, 354–377 (2018).

Article Google Scholar

Weimann, K. & Conrad, TOF Apprentissage par transfert pour la classification ECG. Sci. Rep. 11, 5251 (2021).

Article CAS PubMed PubMed Central Google Scholar

Weiss, K., Khoshgoftaar, TM et Wang, D. Une enquête sur l'apprentissage par transfert. J. Big Data 3, 9 (2016).

Article Google Scholar

Deng, J. et al. En 2009, conférence IEEE sur la vision par ordinateur et la reconnaissance de formes. 248-255 (Ieee).

Gavrilov, AD, Jordache, A., Vasdani, M. & Deng, J. Prévention du surajustement et du sous-ajustement du modèle dans les réseaux de neurones convolutifs. Int. J. Softw. Sci. Calcul. Renseignement. (IJSSCI) 10, 19–28 (2018).

Article Google Scholar

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Dans Advances in Neural Information Processing Systems Vol. 30 (eds Guyon, I. et al.) (Curran Associates, Inc, 2017). https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.

Khan, S. et al. Transformateurs en vision : une enquête. ACM Computing Surveys (CSUR) 54, 1–41 (2022).

Wolf, T. et al. Dans Actes de la conférence 2020 sur les méthodes empiriques en traitement du langage naturel : démonstrations de systèmes. 38–45.

Kalyan, KS, Rajasekharan, A. & Sangeetha, S. Ammus : une enquête sur les modèles pré-entraînés basés sur des transformateurs dans le traitement du langage naturel. Préimpression sur https://arxiv.org/abs/2108.05542 (2021).

Liu, Z. et al. Dans Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur. 10012–10022.

Dosovitskiy, A. et al. Une image vaut 16x16 mots : Transformateurs pour la reconnaissance d'images à grande échelle. Préimpression sur https://arxiv.org/abs/2010.11929 (2020).

Bao, H., Dong, L. & Wei, F. Beit : Bert pré-formation des transformateurs d'image. Préimpression sur https://arxiv.org/abs/2106.08254 (2021).

Raghu, M., Unterthiner, T., Kornblith, S., Zhang, C. & Dosovitskiy, A. Les transformateurs de vision voient-ils comme des réseaux de neurones convolutifs ? Adv. Information neuronale. Processus. Syst. 34, 12116–12128 (2021).

Google Scholar

Shahani, L. Schéma S1Q3T3 menant au diagnostic précoce d'embolie pulmonaire. BMJ Case Rep. 2012 https://doi.org/10.1136/bcr-2012-006569 (2012).

Raudys, SJ & Jain, AK Effets de petite taille d'échantillon dans la reconnaissance de formes statistiques : recommandations pour les praticiens. IEEE Trans. Modèle Anal. Mach. Renseignement. 13, 252-264 (1991).

Article Google Scholar

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R. Dropout : un moyen simple d'empêcher les réseaux de neurones de sur-adapter. J.Mach. Apprendre. Rés. 15, 1929-1958 (2014).

Google Scholar

Bozkurt, B. et al. Définition et classification universelles de l'insuffisance cardiaque : un rapport de la société d'insuffisance cardiaque d'Amérique, de l'association d'insuffisance cardiaque de la société européenne de cardiologie, de la société japonaise d'insuffisance cardiaque et du comité de rédaction de la définition universelle de l'insuffisance cardiaque. J. Card. Échouer. 27, 387–413 (2021).

Article Google Scholar

Webster, JJ & Kit, C. Dans COLING 1992 volume 4 : La 14e conférence internationale sur la linguistique computationnelle.

Ghazvininejad, M., Levy, O., Liu, Y. & Zettlemoyer, L. Mask-Predict : décodage parallèle des modèles de langage masqué conditionnel. Dans Actes de la Conférence 2019 sur les méthodes empiriques dans le traitement du langage naturel et de la 9e Conférence conjointe internationale sur le traitement du langage naturel (EMNLP-IJCNLP) 6112–6121. https://arxiv.org/abs/1904.09324 (Association pour la linguistique computationnelle, Hong Kong, Chine, 2019).

Rubner, Y., Tomasi, C. & Guibas, LJ La distance du Earth Mover comme métrique pour la récupération d'images. Int. J. Computer Vis. 40, 99–121 (2000).

Article Google Scholar

Selvaraju, RR et al. Dans Actes de la conférence internationale IEEE sur la vision par ordinateur. 618–626.

Télécharger les références

Cette étude a été financée par R01HL155915 et le prix clinique et translationnel pour l'infrastructure UL1TR004419. Les auteurs tiennent à remercier Wei Guo, Lili Gai et Eugene Fluder du groupe de calcul haute performance de Mount Sinai pour avoir rendu possible l'infrastructure sous-jacente à cette étude.

Institut Charles Bronfman de médecine personnalisée, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Akhil Vaid, Joy Jiang, Alexander Charney & Girish N Nadkarni

Mount Sinai Clinical Intelligence Center, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Akhil Vaid, Joy Jiang et Girish N Nadkarni

Département de génétique et des sciences génomiques, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Akhil Vaid, Alexander Charney, Benjamin Glicksberg & Girish N Nadkarni

L'Institut Hasso Plattner pour la santé numérique à Mount Sinai, New York, NY, États-Unis

Akhil Vaid, Benjamin Glicksberg & Girish N Nadkarni

Département de médecine, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Ashwin Sawant

Mount Sinai Heart, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Stamatios Lerakis, Edgar Argulian, Joshua Lampert & Jagat Narula

Département de cardiologie, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Stamatios Lerakis, Edgar Argulian, Joshua Lampert & Jagat Narula

Département de médecine, NYU Langone Health, New York, NY, États-Unis

Youri Ahuja

La division Pamela Sklar de génomique psychiatrique, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Alexandre Charney

Département de psychiatrie, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Alexandre Charney

Département de génie biomédical, Université de Tel Aviv, Tel Aviv, 6997801, Israël

Hayit Greenspan

Division de néphrologie, Département de médecine, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Girish N Nadkarni

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

L'étude a été conçue par AV; Le code a été écrit par AV ; Les données sous-jacentes ont été collectées, analysées et visualisées par AV ; la première ébauche du manuscrit a été rédigée par AV et JJ ; GNN a supervisé le projet. AV et GNN ont eu accès aux données et les ont vérifiées. Tous les auteurs ont fourni des commentaires et approuvé la version finale pour publication.

Correspondance à Akhil Vaid.

Le Dr Nadkarni fait état d'accords de conseil avec AstraZeneca, BioVie, GLG Consulting, Pensieve Health, Reata, Renalytix, Siemens Healthineers et Variant Bio ; financement de la recherche de Goldfinch Bio et Renalytix ; honoraires d'AstraZeneca, BioVie, Lexicon, Daiichi Sankyo, Meanrini Health et Reata ; brevets ou redevances avec Renalytix ; détient des actions et des options d'achat d'actions dans Pensieve Health et Renalytix en tant que cofondateur scientifique ; détient une participation dans Verici Dx ; a reçu une compensation financière en tant que membre du conseil scientifique et conseiller de Renalytix ; siège au conseil consultatif de Neurona Health; et joue un rôle consultatif ou de leadership pour Pensieve Health et Renalytix. Tous les autres auteurs ont signalé qu'ils n'avaient aucune relation pertinente avec le contenu de cet article à divulguer.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Vaid, A., Jiang, J., Sawant, A. et al. Un transformateur de vision fondamental améliore les performances de diagnostic des électrocardiogrammes. npj Chiffre. Méd. 6, 108 (2023). https://doi.org/10.1038/s41746-023-00840-9

Télécharger la citation

Reçu : 13 janvier 2023

Accepté : 05 mai 2023

Publié: 06 juin 2023

DOI : https://doi.org/10.1038/s41746-023-00840-9

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt