Apprendre à prédire les expressions de séquence d'ARN à partir d'images de diapositives entières avec des applications de recherche et de classification

Communications Biology volume 6, Article number: 304 (2023) Citer cet article

3463 accès

14 Altmétrique

Détails des métriques

Les méthodes d'apprentissage en profondeur sont largement appliquées en pathologie numérique pour relever des défis cliniques tels que le pronostic et le diagnostic. En tant que l'une des applications les plus récentes, les modèles profonds ont également été utilisés pour extraire des caractéristiques moléculaires à partir d'images de diapositives entières. Bien que les tests moléculaires contiennent des informations riches, ils sont souvent coûteux, prennent du temps et nécessitent des tissus supplémentaires à prélever. Dans cet article, nous proposons tRNAsformer, une topologie basée sur l'attention qui peut apprendre à la fois à prédire l'ARN-seq en vrac à partir d'une image et à représenter simultanément l'image entière d'une lame de verre. Le tRNAsformer utilise l'apprentissage d'instances multiples pour résoudre un problème faiblement supervisé alors que l'annotation au niveau du pixel n'est pas disponible pour une image. Nous avons mené plusieurs expériences et obtenu de meilleures performances et une convergence plus rapide par rapport aux algorithmes de pointe. Le formateur d'ARNt proposé peut servir d'outil de pathologie computationnelle pour faciliter une nouvelle génération de méthodes de recherche et de classification en combinant la morphologie tissulaire et l'empreinte moléculaire des échantillons de biopsie.

Les pathologistes utilisent l'histopathologie pour diagnostiquer et classer le cancer après avoir examiné un spécimen de biopsie. L'introduction de la pathologie numérique, les progrès de la technologie informatique et la disponibilité croissante d'ensembles de données massifs ont permis de former des modèles d'apprentissage en profondeur de plus en plus complexes pour diverses tâches cliniques. Les réseaux de neurones convolutifs (CNN) ont surpassé tous les autres algorithmes de vision par ordinateur traditionnels dans un large éventail d'applications cliniques, y compris le sous-typage du cancer1, la recherche et la catégorisation d'images entières (WSI)2, la détection de la mitose3 et la notation4, parmi les architectures d'apprentissage en profondeur.

Cependant, il y a eu quelques tentatives pour relier les caractéristiques morphologiques intégrées dans les images aux signatures moléculaires, récemment5,6,7,8. Par exemple, des recherches récentes ont révélé que des modèles statistiques peuvent lier des traits histomorphologiques à des mutations dans des organes, y compris les poumons et la prostate9,10. Les mutations et les modifications épigénomiques sont connues pour provoquer de grandes variations dans l'expression des gènes. Par conséquent, la caractérisation de l'expression génique peut être vitale pour le diagnostic et le traitement11. Même si des outils de séquençage du transcriptome entier plus abordables pour étudier l'information génétique ont été mis en place, ils sont encore loin d'être largement utilisés dans les centres médicaux12. D'autre part, la récupération des caractéristiques moléculaires des WSI colorés à l'hématoxyline et à l'éosine (H&E) est l'une des options les plus rapides et les moins coûteuses. La capacité de prédire l'expression des gènes à l'aide des WSI, soit comme modalité intermédiaire, soit comme résultat, a été démontrée pour faciliter le diagnostic et le pronostic5,8. Des études antérieures ont attiré l'attention sur la prédiction de l'expression génique à l'aide de WSI ; cependant, la taille des WSI et la quantité de données bien annotées posent toujours de sérieux défis. En particulier, la sélection d'échantillons et la représentation WSI est un sujet ouvert qui est souvent traité de manière arbitraire.

Selon le dernier rapport mondial sur les statistiques du cancer, en 2020, il y a eu environ 431 288 nouveaux cas de cancer du rein et 179 368 décès dans le monde13. Le carcinome à cellules rénales (RCC) est le cancer du rein le plus fréquent qui est responsable de 85 % des cas malins14. D'un phénotype malin unique à un groupe hétérogène de tumeurs, nos connaissances sur le RCC ont évolué au fil du temps14. Parmi tous les sous-types histologiques de RCC, le ccRCC, le pRCC et le crRCC représentent respectivement près de 75 %, 16 % et 7 % de l'ensemble des cas de RCC14. Les sous-types de RCC diffèrent par leur histologie, leurs caractéristiques moléculaires, leurs résultats cliniques et leur réactivité thérapeutique en raison de cette hétérogénéité. Par exemple, étant donné que le taux de survie à 5 ans diffère selon les sous-types, un diagnostic de sous-type approprié est essentiel15. Toutes les méthodes de ce travail sont appliquées sur des diapositives RCC pour identifier les sous-types à l'aide de la recherche et de la classification.

Ici, nous introduisons tRNAsformer (prononcé t-RNAs-former), un modèle d'apprentissage en profondeur pour la prédiction des gènes de bout en bout et l'apprentissage de la représentation WSI en même temps (Fig. 1 et Fig. 1 supplémentaire). Notre modèle utilise des modules transformateurs construits sur le mécanisme d'attention pour recueillir les informations nécessaires à l'apprentissage des représentations WSI. Le mécanisme basé sur l'attention permet d'apprendre des informations qui attribuent à certaines caractéristiques spécifiques de l'image et de les évaluer par rapport à d'autres caractéristiques. Ce faisant, le modèle capture la relation entre une caractéristique et les autres dans l'image afin qu'elle se concentre sur la partie pertinente de l'image. De plus, tRNAsformer utilise le concept d'apprentissage d'instances multiples (MIL)16 pour gérer le problème d'avoir les vraies valeurs d'expression génique par WSI au lieu de par tuile. MIL est une forme d'apprentissage faiblement supervisé où les instances de formation sont disposées dans des sacs (ensembles) et une étiquette est fournie pour l'ensemble du sac. Pour former notre modèle, nous avons utilisé les données de l'ensemble de données public The Cancer Genome Atlas (TCGA) pour recueillir les WSI rénaux et leurs données ARN-seq associées. Pour les WSI, nous avons présenté nos résultats liés à la prédiction des gènes et à la représentation interne. Enfin, nous avons testé la généralisation de notre modèle en termes de représentation interne WSI apprise par rapport à des références de pointe en utilisant un ensemble de données externes sur le cancer du rein de l'Ohio State University.

a 49 tuiles de taille 224 × 224 × 3 sélectionnées parmi 49 clusters spatiaux dans un WSI sont intégrées à un DenseNet-121. Le résultat est une matrice de taille 49 × 1024 car DenseNet-121 a 1024 caractéristiques profondes après la dernière mise en commun. Ensuite, la matrice est remodelée et réarrangée en matrice 224 × 224 dans laquelle chaque bloc 32 × 32 correspond à une tuile incorporant 1 × 1024. b En appliquant une convolution 2D avec le noyau 32, la foulée 32 et les noyaux 384, chaque bloc 32 × 32 a cartographié linéairement un vecteur de 384 dimensions. Ensuite, un jeton de classe est concaténé avec le reste des incorporations de tuiles, et Epos est ajouté à la matrice avant d'entrer dans les couches L Encoder. La première ligne du résultat, qui est associée au jeton de classe, est transmise au responsable de la classification. Le reste des incorporations internes qui sont associées à toutes les incorporations de tuiles sont transmises à la tête de prédiction de gène. Toutes les parties avec des variables apprenables sont affichées en violet.

Dans cette section, nous évaluons les performances du tRNAsformer en termes des deux tâches principales pour lesquelles il a été formé : la prédiction de l'expression génique à partir de la représentation WSI et WSI pour la recherche et la classification d'images. La performance de tRNAsformer dans la prédiction de l'expression des gènes a été comparée à la performance d'un modèle de pointe, appelé HE2RNA. Les performances de tRNAsformer en termes d'apprentissage d'informations riches pour représenter les WSI ont été comparées à deux autres méthodes, à savoir Yottixel et Low Power.

Les fichiers FPKM-UQ contenant 60 483 identifiants de gènes Ensembl ont été utilisés dans cette étude17. Au cours de l'étape de prétraitement (décrite dans la section "Prétraitement de l'expression génique"), certaines des valeurs d'expression génique ont été sélectionnées puis transformées en premier.

Les deux modèles, tRNAsformer et HE2RNA, ont été comparés pour trois critères différents, à savoir le coefficient de corrélation moyen des prédictions, le nombre de gènes prédit significativement mieux qu'une ligne de base aléatoire et l'erreur de prédiction. Dans la première expérience, la corrélation est évaluée pour chaque gène séparément en utilisant le coefficient de corrélation de Pearson et Spearman. Si les ensembles de données sont distribués normalement, le coefficient de corrélation de Pearson mesure la connexion linéaire entre eux. Le coefficient de corrélation de Pearson varie entre −1 et +1. Une corrélation de -1 ou +1 dénote une relation linéaire négative ou positive parfaite, respectivement, alors qu'une corrélation de 0 dénote aucune corrélation. La valeur p représente approximativement la probabilité qu'un système non corrélé puisse produire des ensembles de données avec une corrélation de Pearson au moins aussi élevée que celle calculée à partir de ces ensembles de données. La corrélation de Spearman, contrairement à la corrélation de Pearson, ne nécessite pas que les deux ensembles de données soient distribués normalement. La figure 2 montre la distribution du coefficient de corrélation pour 31 793 gènes prédits par différents modèles.

Les diagrammes de violon illustrent la distribution, les valeurs min, max et moyennes des coefficients de corrélation. a Diagrammes de violon pour les coefficients de corrélation de Pearson et b diagrammes de violon pour les coefficients de corrélation de Spearman. Les diagrammes de violon sont tracés pour tRNAsformerL pour L = (1, 2, 4, 8, 12) et HE2RNAbb1024. La moyenne et l'écart type des coefficients de corrélation sont inclus dans la légende pour les violons de gauche à droite.

La figure 1 illustre la distribution des coefficients de corrélation pour 31 793 gènes prédits par différents modèles ainsi que leurs vraies valeurs dans l'ensemble de test de TCGA. Comme le montre la figure 2, le coefficient de corrélation moyen R a augmenté avec la profondeur de L = 1 à L = 8. La valeur R moyenne diminue après huit blocs d'encodeurs Transformer, ce qui suggère que l'augmentation du nombre de couches n'améliore pas les prédictions d'expression génique. En termes de corrélation des expressions géniques prédites avec les valeurs réelles, les modèles d'ARNt de L = 2 à L = 8 ont obtenu des résultats comparables avec une légère amélioration par rapport à HE2RNA. Au-delà des valeurs de corrélation, la littérature utilise des graphiques de violon18,19,20,21 car le grand nombre de points de données par patient réduit considérablement la visibilité de tout indice interprétable si d'autres méthodes telles que les diagrammes de dispersion22 sont utilisées.

Les coefficients de corrélation de Pearson et Spearman et les valeurs p ont été calculés entre la valeur prédite et la valeur réelle de l'expression génique pour chaque gène. Deux méthodes de test à hypothèses multiples, à savoir Holm – Šidák (HS) et Benjamini – Hochberg (BH), ont été utilisées pour ajuster les valeurs de p. Si la valeur p du coefficient R était inférieure à 0,01 après correction pour les tests à hypothèses multiples, la prédiction était significativement différente de la ligne de base aléatoire23,24. Similaire à la réf. 5, le test d'hypothèses multiples a été effectué en utilisant à la fois la correction HS et BH. Les résultats sont présentés dans le tableau 1 pour toutes les architectures.

Comme il est démontré dans le tableau 1, l'augmentation de la profondeur du formateur d'ARNt de un à huit augmente le nombre de gènes qui sont significativement différents d'une ligne de base aléatoire. Semblable aux résultats de la Fig. 2, il y a une diminution du nombre de gènes lorsque la profondeur atteint 12 blocs du Transformer Encoder. D'autre part, le modèle basé sur la conception de HE2RNA a obtenu des résultats inférieurs à presque tous les autres modèles d'ARNt (à l'exception de L = 1).

Nous avons sélectionné MAE, RMSE et RRMSE25 pour calculer l'erreur entre la prédiction et les valeurs réelles d'expression génique. MAE, RMSE et RMSE sont définis comme

où Dtest désigne l'ensemble de test, (xi, yi) est le ième échantillon xi avec la vérité terrain \({y}_{i},{\hat{y}}_{i}\) est la valeur prédite de \({y}_{i},\bar{y}\) est la valeur moyenne sur les cibles de l'ensemble de test, et |Dtest| est le nombre d'échantillons dans l'ensemble de test. Les résultats sont donnés dans le tableau 2.

Semblable aux résultats de la Fig. 2 et du Tableau 1, l'augmentation du nombre de blocs Transformer Encoder de huit à 12 dégrade considérablement les performances du modèle. Les valeurs de corrélation obtenues par tRNAsformer sont comparables aux valeurs du modèle HE2RNA.

Les hyperparamètres des modèles tRNAsformer et HE2RNA ont été optimisés avant de mener les expériences. HE2RNA utilise toutes les tuiles d'un WSI pour entraîner le modèle et produire une prédiction pour chaque tuile. Cela permet d'améliorer le taux d'erreur lors de la moyenne d'un grand nombre de prédictions de tuiles pour obtenir une prédiction par diapositive. La moyenne de plusieurs valeurs prédites (prédictions de tuiles) augmenterait les chances d'avoir une valeur plus similaire à la valeur réelle car l'effet de l'application de cette méthode revient à faire la moyenne du taux d'erreur de toutes les prédictions pour obtenir une seule valeur représentative de toutes les tuiles. Cependant, produire un score d'expression génique par tuile, comme HE2RNA, revient à ignorer les dépendances entre les tuiles d'un WSI car les valeurs réelles sont par WSI et non par tuile. tRNAsformer résout ce problème en traitant un WSI dans son intégralité et donc en produisant une prédiction par WSI. Le modèle utilise le concept d'apprentissage multi-instance pour gérer le problème d'avoir les vraies valeurs d'expression génique par WSI au lieu de par tuile. De plus, d'un point de vue informatique, considérer toutes les tuiles pour former le réseau est une consommation de temps et de ressources prohibitive, car un seul WSI peut facilement avoir plusieurs milliers de tuiles. Par conséquent, dans tRNAsformer, nous avons résolu ce problème en incorporant le mécanisme d'attention et le concept d'apprentissage à instances multiples dans le processus de formation.

Dans l'ensemble, comme on peut le constater à partir des résultats ci-dessus, les performances des modèles d'ARNt avec L = 2 à 8 sont comparables. Cependant, en considérant toutes les métriques utilisées pour évaluer les modèles, tRNAsformer avec L = 4 est le plus performant. Dans cet article, nous présentons les performances de tRNAsformer avec différentes profondeurs car la profondeur du modèle peut être sélectionnée en fonction des ressources disponibles. Par exemple, dans le cas de ressources limitées, L = 2 peut être utilisé car il peut atteindre des performances comparables à celles des modèles plus profonds mais avec moins de ressources requises.

Les expériences de classification ont été menées pour évaluer la qualité de la représentation interne apprise par le modèle proposé. Pour commencer, 100 sacs ont été créés à partir de chaque WSI de test TCGA. Selon le tableau supplémentaire 1, un total de 8000 sacs ont été créés à partir de l'ensemble de test TCGA, car il y avait 80 WSI. Les mêmes modèles qui ont été entraînés dans la section précédente pour prédire les sous-types de RCC ont également été évalués pour la tâche de classification. La précision, la macro et les scores F1 pondérés sont présentés pour tous les modèles dans le tableau 3. Les matrices de confusion des différents modèles sont affichées dans la Fig. 2 supplémentaire. Toutes les valeurs rapportées ici sont basées sur les résultats de la classification au niveau de la diapositive. La prédiction est faite pour tous les sacs afin de calculer les valeurs au niveau de la lame. La prédiction de l'étiquette de chaque lame de test est choisie comme la prédiction la plus courante parmi tous les sacs créés à partir de cette lame. Les représentations WSI apprises par les modèles sont projetées sur un plan créé par les deux premiers composants principaux trouvés à l'aide de l'ACP pour représenter la représentation interne de nos modèles dans un espace bidimensionnel. Les projections PCA bidimensionnelles sont présentées dans la Fig. 3 supplémentaire.

En raison des variations dans les normes hospitalières et les méthodes de traitement des tissus, de préparation des lames et de protocoles de numérisation, l'apparence des WSI peut varier considérablement. Par conséquent, il est important de s'assurer que les modèles construits à l'aide de sources de données résistent aux biais spécifiques à la source de données et se généralisent aux données cliniques du monde réel provenant de sources non utilisées pendant la formation26. Pour tester la généralisation de nos modèles formés, 142 RCC WSI sont utilisés à partir de l'Ohio State University en tant que cohorte de test indépendante (voir la section "L'ensemble de données sur les reins de l'Ohio State University").

Tout d'abord, 100 sacs ont été créés à partir de chaque WSI de test externe. Selon le tableau supplémentaire 1, un total de 14 200 sacs ont été créés à partir de l'ensemble de test TCGA, car il y avait 142 WSI. Les mêmes modèles qui ont été formés dans la section précédente pour prédire les sous-types de RCC sont utilisés pour rapporter les résultats de classification pour l'ensemble de données externe. La précision, la macro et les scores F1 pondérés sont rapportés pour tous les modèles dans le tableau 3. Comme le montre le tableau 3, la précision de l'ARNt a diminué d'environ 13 % pour la validation externe. Ces résultats montrent toujours une performance raisonnable, surtout si l'on considère les performances de son homologue, qui a montré une diminution de précision d'environ 20%. Le manque de généralisation dû au surajustement, aux biais et aux raccourcis est un problème général dans l'apprentissage en profondeur27,28. Cependant, l'application d'un prétraitement plus sophistiqué peut améliorer les performances du modèle et conduire à une meilleure sensibilité lors de l'utilisation d'un jeu de données externe. Les performances du modèle peuvent également être améliorées en l'entraînant sur un ensemble de données plus important. Cependant, dans un souci de reproductibilité, nous sommes limités au nombre de WSI disponibles sur TCGA. De plus, nous ne pouvons considérer que les WSI où les profils RNA-seq étaient disponibles dans TCGA. Les matrices de confusion de différents modèles sont affichées dans la Fig. 4 supplémentaire. Les représentations WSI apprises par les modèles sont projetées sur un plan créé par les deux premiers composants principaux trouvés à l'aide de l'ACP pour représenter la représentation interne des modèles dans un espace bidimensionnel. Les projections PCA bidimensionnelles sont illustrées à la Fig. 5 supplémentaire. 3, 5 montrent à quel point les représentations WSI extraites du modèle tRNAsformer peuvent être distinguées entre différentes classes. En d'autres termes, les figures illustrent le pouvoir discriminant des caractéristiques apprises par chaque modèle d'ARNt.

Le modèle suggéré dans la réf. 29, également connue sous le nom de technique "Low Power", a surpassé toutes les approches basées sur les tuiles et au niveau WSI de pointe. La précision de la méthode "Low Power", le score F1 (macro et pondéré) et l'AUC étaient respectivement de 73,76 %, 0,7388, 0,7385 et 0,893. Comme il est démontré dans le tableau 3 et la figure 3, tous les modèles de formateur d'ARNt surpassent la méthode décrite dans la réf. 29 dans toutes les mesures, à savoir la précision, le score F1 (macro et pondéré) et l'AUC. De plus, comme le montre la Fig. 4 supplémentaire, les modèles d'ARNt ont tendance à avoir des prédictions correctes plus équilibrées pour toutes les classes, car une ligne diagonale nette est mise en évidence dans les matrices de confusion. En d'autres termes, les modèles d'ARNt sont bons pour distinguer toutes les classes.

La courbe micro ROC de différents modèles appliqués sur a le jeu de test TCGA et b le jeu de données externe. L'ASC est indiquée dans la légende pour tous les modèles.

Des expériences de recherche WSI ont été menées pour évaluer la qualité de la représentation interne de l'ARNt. Le modèle est testé à la fois sur TCGA et sur un jeu de données externe. Comme il a été mentionné précédemment, 100 instances ont été créées à partir de chaque WSI dans l'ensemble de données TCGA ; l'ensemble de test TCGA contenait 8000 instances associées à 80 diapositives. Après la formation de tRNAsformer, il a été utilisé pour extraire des caractéristiques (embeddings). Pour quantifier les performances de tRNAsformer dans la recherche WSI, tout d'abord, 100 sous-ensembles d'instances ont été créés à partir de 8000 instances de test TCGA. Ensuite, une matrice de distance par paires est calculée à l'aide des intégrations WSI (vecteurs de caractéristiques) pour chaque sous-ensemble. La corrélation de Pearson est utilisée comme métrique de distance. Suite à la procédure d'abandon d'un patient, les échantillons top-k ont été déterminés pour chaque instance (WSI). Plus tard, P@K (Precision@K) et AP@K (Average Precision@K) ont été calculés pour chaque sous-ensemble. P@K reflète le nombre d'images pertinentes présentes dans les recommandations top-k suggérées par le modèle, tandis que AP@K est la moyenne de P@i pour i = 1,…,K. Enfin, la valeur MAP@K (Mean Average Precision@K) a été calculée en prenant la moyenne de 100 requêtes associées à 100 sous-ensembles de recherche.

De même, 100 instances ont été créées pour chaque WSI dans l'ensemble de données externe. Dans l'ensemble, 100 sous-ensembles de 142 WSI ont été générés pour la recherche WSI dans l'ensemble de données externe. En conséquence, les valeurs MAP@K ont été évaluées en prenant une moyenne de 100 expériences de recherche différentes. Le résumé des valeurs MAP@K pour le test TCGA et l'ensemble de données externe est présenté dans le tableau 4.

Les performances de tRNAsformer ont été comparées aux performances de Yottixel30, l'état de l'art de la recherche WSI, en termes de précision moyenne moyenne à différents k, MAP@5 et MAP@10. Les MAP@5 et MAP@10 pour 10 exécutions Yottixel indépendantes étaient respectivement de 0,7416 et 0,7092. tRNAsformer surpasse Yottixel dans les mesures MAP@5 et MAP@10. De plus, les modèles tRNAsformer offrent plus de stabilité car la valeur MAP @ K ne chute pas aussi fortement que les autres algorithmes de recherche alors que le k augmente.

Dans cet article, un cadre MIL multitâche basé sur le modèle d'ARNt est proposé pour apprendre la représentation WSI en apprenant à prédire l'expression des gènes à partir de diapositives H&E. En incorporant le mécanisme d'attention et la conception Transformer, tRNAsformer peut fournir des prédictions plus précises pour les expressions géniques à partir d'un WSI. Pendant ce temps, tRNAsformer a dépassé les références pour la prédiction de séquence d'ARN en vrac tout en ayant moins d'hyperparamètres. De plus, tRNAsformer apprend une représentation exclusive et compacte pour un WSI en utilisant la signature moléculaire de l'échantillon de tissu. En conséquence, la technique proposée apprend une représentation pertinente sur le plan diagnostique à partir d'une image en intégrant l'information génétique dans une approche multimodale.

En fait, les images de diapositives entières (WSI) sont généralement étiquetées en traitant l'image dans son intégralité (l'étiquette est attribuée à l'image entière). Par exemple, une image de lame entière peut être étiquetée comme une lame de tumeur bien qu'elle puisse également inclure du tissu normal. Le traitement d'un WSI entier à la fois n'est pas possible avec la technologie matérielle actuelle. Ces images sont généralement divisées en morceaux plus petits et plus faciles à gérer appelés patchs ou tuiles. Cependant, les grands ensembles de données WSI sont généralement légèrement étiquetés, car l'annotation experte au niveau du pixel est coûteuse et demande beaucoup de travail. Par conséquent, certaines tuiles peuvent ne pas contenir d'informations pertinentes pour l'étiquette de diagnostic associée au WSI. La conception de l'ARNt a permis un traitement plus efficace et précis d'une collection d'échantillons. Il utilise un apprentissage supervisé hebdomadaire ainsi qu'un concept d'apprentissage multi-instance (MIL)16. L'apprentissage faiblement supervisé est une approche pour former un réseau profond en utilisant la combinaison des données étiquetées données et la supervision faible pour obtenir de nouvelles données étiquetées31. Cette approche rend possible la formation d'un réseau profond lorsque les données étiquetées disponibles sont insuffisantes. De plus, tRNAsformer utilise le concept de MIL pour gérer le problème d'avoir les vraies valeurs d'expression génique par WSI au lieu de par tuile. MIL est une forme d'apprentissage faiblement supervisé où les instances de formation sont disposées dans des sacs (ensembles) et une étiquette est fournie pour l'ensemble du sac.

Un modèle CNN pré-formé a été utilisé pour l'échantillonnage et l'intégration de mosaïques d'images avant la formation de l'ARNt. Cette approche nous permet de créer des intégrations intermédiaires riches à partir d'échantillons d'images, car le modèle CNN pré-formé a été formé sur de grands ensembles de données d'images. De plus, travailler avec des instances échantillonnées intégrées est moins coûteux en termes de calcul que de traiter chaque WSI comme une instance. Selon le tableau supplémentaire 2, le plus petit modèle d'ARNt peut avoir environ 60 % d'hyperparamètres en moins par rapport au modèle basé sur MLP. De plus, ils peuvent être environ 72 % et 15 % plus rapides que le modèle basé sur MLP lors de la formation et de la validation, respectivement.

Notre objectif principal à partir de la comparaison entre tRNAsformer et HE2RNA est de démontrer que tRNAsformer peut prédire les expressions géniques à partir d'un WSI aussi précisément que les algorithmes d'expression génique de pointe en apprenant simultanément une représentation WSI riche à la fois des caractéristiques morphologiques et moléculaires. empreinte digitale, qui peut être utilisée pour des applications telles que la recherche d'images. tRNAsformer a pu prédire les scores d'expression génique avec une corrélation légèrement améliorée par rapport à celle obtenue par HE2RNA. Cependant, il faut garder à l'esprit que tRNAsformer est un outil de pathologie computationnelle multi-tâches qui peut être utilisé non seulement pour la prédiction de l'expression génique, mais aussi pour apprendre la représentation WSI basée sur la morphologie des tissus et l'empreinte moléculaire d'un échantillon de biopsie, qui peut être intégré dans la recherche et la classification d'images. La métrique de corrélation a été utilisée pour évaluer une seule tâche, qui est la prédiction de l'expression génique. L'autre tâche (c'est-à-dire l'apprentissage transcriptomique pour la représentation WSI pour la recherche et la classification d'images) a été évaluée en considérant un ensemble de données externes ainsi que deux autres méthodes de comparaison, à savoir les méthodes "Yottixel" et "Low power".

Contrairement à la réf. 7, où l'ensemble de données de transcriptomique spatiale était disponible, l'approche proposée dans ce travail utilise des données d'ARN-seq en vrac. En conséquence, le modèle décrit dans cette étude utilise un type de supervision plus faible, car il apprend la représentation interne en utilisant une combinaison d'un diagnostic primaire et d'un ARN-seq en vrac associé à un WSI. Ceci est plus conforme à la pratique clinique actuelle, qui collecte généralement des séquences d'ARN en vrac plutôt que des données transcriptomiques spatiales. De plus, tRNAsformer gère le problème en traitant un WSI dans son intégralité, alors que la méthode expliquée dans la réf. 7 sépare chaque carreau et estime sa valeur d'expression génique. Par conséquent, la méthode décrite dans la réf. 7 ignore les dépendances entre les tuiles. Comparé à la réf. 8, la technique proposée dans ce manuscrit traite un ensemble considérablement plus petit d'échantillons avec un champ de vision plus large. En particulier, la technique proposée échantillonne des sacs de 49 instances de 224 × 224 × 3 tandis que l'autre technique8 déploie plusieurs options d'échantillonnage avec au moins 2500 tuiles de taille 32 × 32 × 3 par sac. De plus, tRNAsformer apprend la représentation WSI exclusive en apprenant la traduction pixel-gène. D'autre part, aucune des méthodologies n'a de paradigme d'apprentissage de représentation indépendant5,7,8.

En conclusion, les résultats ont montré que tRNAsformer peut apprendre des représentations internes fiables pour des archives massives de diapositives de pathologie qui correspondent ou surpassent les performances des algorithmes de classification et de recherche de pointe développés29,30. De plus, tRNAsformer peut prédire les expressions géniques à partir de diapositives H&E avec des performances comparables avec une certaine amélioration par rapport à d'autres méthodes de pointe5. Nous avons montré que même avec des profils d'ARN-Seq obtenus à partir de cellules en vrac, principalement isolées d'une section de tissu différente, le tRNAsformer fonctionnait bien en termes de prédiction des scores d'expression génique corrélés aux vrais scores dans les profils d'ARN-seq en vrac, ce qui peut indiquer que la plupart des gènes exprimés dans la section de tissu utilisée pour la coloration H&E sont également exprimés dans la section de tissu utilisée pour la quantification de l'ARN-seq. Cependant, dans les recherches futures, le tRNAsformer peut être étudié de manière rigoureuse en vérifiant ses performances à l'aide de données transcriptomiques spatiales dans lesquelles le profilage ARN-seq et la coloration H&E sont effectués sur la même tranche de l'échantillon.

Les données utilisées dans cette étude ont été obtenues auprès de TCGA (https://portal.gdc.cancer.gov/). Seuls les cas présentant un profil WSI ainsi qu'un profil RNAseq ont été pris en compte. Nous avons sélectionné des lames de diagnostic H&E, fixées au formol et incluses en paraffine (FFPE). Les cas récupérés comprenaient trois sous-types, le carcinome à cellules claires, ICD-O 8310/3, (ccRCC), le type chromophobe - carcinome à cellules rénales, ICD-O 8317/3, (crRCC) et le carcinome papillaire, ICD-O 8260/3 , (pRCC). Pour les données transcriptomiques, nous avons utilisé des fichiers de fragments par kilobase de transcription par million de lectures cartographiées du quartile supérieur (FPKM-UQ). Les informations détaillées concernant les cas sont incluses dans le tableau supplémentaire 1. Comme la valeur moyenne des données FPKM-UQ pour chaque gène peut varier considérablement entre différents projets, les modèles tRNAsformer et HE2RNA ont été évalués pour prédire les scores d'expression génique de FPKM-UQ les données d'un seul projet, qui est TCGA. Trois ensembles de données sur les reins ont été pris en compte à partir de TCGA, qui sont TCGA-KIRC, TCGA-KIRP et TCGA-KICH. De plus, nous avons exclu les gènes avec une expression médiane de zéro pour améliorer l'interprétabilité des résultats. Les données ont été divisées au cas par cas en ensembles d'entraînement (% 80), de validation (% 10) et de test (% 10), respectivement. En d'autres termes, chaque patient n'appartenait qu'à l'un des ensembles.

Les fichiers FPKM-UQ contenaient 60 483 identifiants de gènes Ensembl. Nous avons exclu les gènes avec une médiane de zéro dans tous les cas rénaux et nous sommes partis avec 31 793 gènes. D'autres études ont adopté la même stratégie pour améliorer l'interprétabilité des résultats5. Nous avons utilisé une transformée → log10(1 + a) pour convertir les expressions géniques car l'ordre des valeurs d'expression génique change beaucoup et peut avoir un impact sur l'erreur quadratique moyenne uniquement dans le cas de gènes fortement exprimés5.

La taille des lames de verre numérisées peut être de 100 000 × 100 000 pixels ou même plus. Par conséquent, le traitement d'une diapositive entière à la fois n'est pas possible avec la technologie actuelle. Ces images sont généralement divisées en morceaux plus petits et plus faciles à gérer appelés tuiles. De plus, les grands ensembles de données WSI sont généralement faiblement étiquetés, car l'annotation experte au niveau du pixel est coûteuse et demande beaucoup de travail. Par conséquent, certaines tuiles peuvent ne pas contenir d'informations pertinentes pour l'étiquette de diagnostic associée au WSI. Par conséquent, MIL peut convenir à ce scénario. Au lieu de recevoir une collection d'exemples étiquetés individuellement, l'apprenant reçoit un ensemble de sacs étiquetés, chacun comprenant plusieurs instances en MIL. Pour fabriquer des sacs d'instances, la première étape consiste à déterminer où se trouvent les limites des tissus. En utilisant l'algorithme décrit dans la réf. 29, la région tissulaire était située au niveau de la vignette (grossissement 1,25 ×) tandis que l'arrière-plan et les pixels marqueurs étaient supprimés. Les carreaux de taille 14 par 14 pixels ont été traités à l'aide du masque de tissu 1,25 × pour éliminer ceux contenant moins de 50 % de tissu. Notez que des mosaïques de 14 × 14 pixels à 1,25 × équivaut à la zone de 224 × 224 pixels à un grossissement de 20 ×.

L'algorithme k-means est déployé sur l'emplacement des tuiles sélectionnées précédemment pour échantillonner un nombre fixe de tuiles de chaque WSI. La valeur de k a été fixée à 49 pour toutes les expériences de cette étude. Après cela, les clusters sont spatialement triés en fonction de la magnitude des centres de cluster. L'avantage des tuiles regroupées dans l'espace est double ; (1) le concept de similarité est plus susceptible d'être vrai dans un rayon étroit32,33, et (2) les coordonnées de regroupement avec deux variables sont moins coûteuses en termes de calcul que les vecteurs de caractéristiques de grande dimension. Les étapes de l'algorithme de clustering sont illustrées à la Fig. 4.

a Montre une vignette d'un WSI, b montre le masque tissulaire obtenu en segmentant le WSI et c montre le WSI groupé à l'aide de k-means.

Le tRNAsformer est composé de L couches d'encodeur de transformateur standard34 suivies de deux têtes, à savoir la classification et la tête de prédiction de gène. La Fig. 1 supplémentaire décrit l'architecture de la méthode proposée. L'encodeur de transformateur apprend une incorporation (également connue sous le nom de jeton de classe) pour l'entrée en la traitant comme une séquence d'instances de fonctionnalités associées à chaque WSI. Il apprend les incorporations internes pour chaque instance tout en apprenant le jeton de classe qui représente le sac ou le WSI.

La tête de classification, qui est une couche linéaire, reçoit la représentation WSI c. Ensuite, la représentation WSI est projetée à l'aide d'une couche linéaire sur le score du WSI \(\hat{y}\). tRNAsformer utilise ensuite la perte d'entropie croisée entre le score prédit \(\hat{y}\) et la véritable étiquette y du WSI pour apprendre le diagnostic principal. L'utilisation du Transformer Encoder et de la tête de classification permet l'apprentissage de la représentation du WSI lors de la formation du modèle.

Considérant un sac \({{{{{\rm{X}}}}}}=[{{{{{\bf{x}}}}}}}_{1},{{{{{{ \bf{x}}}}}}_{2},\ldots ,{{{{{{\bf{x}}}}}}}_{k}]\), où \({{{ {{{\bf{x}}}}}}}_{i}\in {{\Bbb{R}}}^{d},i=1,\ldots ,k\) sont les tuiles intégrées par DenseNet -121, un transformateur standard de couche L peut être défini comme

où MSA, LN, MLP, L, E et Epos sont l'auto-attention multi-têtes, la norme de couche, le bloc de perceptron multicouche (MLP), la couche linéaire, la projection d'intégration de tuiles et l'intégration de position (pour plus d'informations, voir réf. 34 ). Les variables E et Epos sont apprenables. La norme de couche applique la normalisation sur un mini-lot d'entrées. Dans layernorm, les statistiques sont calculées indépendamment à travers les dimensions des caractéristiques pour chaque instance (c'est-à-dire, tuile) dans une séquence (c'est-à-dire, un sac de tuiles). Le bloc perceptron multicouche est constitué de deux couches linéaires suivies d'une couche de décrochage. La première couche linéaire a une fonction d'activation GELU35. L'incorporation est projetée à une dimension supérieure dans la première couche, puis mappée à sa taille d'origine dans la deuxième couche. La Fig. 5b supplémentaire montre la structure d'un bloc MLP dans un codeur de transformateur.

Les inclusions internes restantes sont transmises à une couche de décrochage suivie d'une couche de convolution 1D pour la tête de prédiction de gène. La tête de prédiction de gène utilise une couche de décrochage et une couche de convolution 1D comme couche de sortie similaire au modèle HE2RNA introduit dans la réf. 5. Cependant, les deux premières couches, qui étaient deux couches de convolution 1D responsables de l'extraction de caractéristiques dans HE2RNA, ont été remplacées par un Transformer Encoder pour capturer la relation entre toutes les instances. Comme le modèle produit une prédiction par gène par instance, la même stratégie d'agrégation décrite dans la réf. 5 a été adapté pour calculer la prédiction de gène pour chaque WSI. En particulier, Schmauch et al. échantillonné un nombre aléatoire n à chaque itération et calculé la prédiction de chaque gène en faisant la moyenne des prédictions top-n par tuiles dans un WSI (sac)5. Ils ont suggéré que cette approche agit comme une technique de régularisation et diminue le risque de surajustement5. Comme il y avait 49 encastrements de tuiles dans chaque sac, n a été sélectionné au hasard parmi {1,2,5,10,20,49}. Pour un n sélectionné au hasard pendant la formation, le résultat de la prédiction du gène peut être écrit comme

où \({{{{{\bf{z}}}}}}}_{L}^{1 :{{{{{\rm{end}}}}}}}\in {{\mathbb {R}}}^{D\times k},{{{{{\bf{s}}}}}}\in {{\mathbb{R}}}^{D\times k}\), et \({{{{{\bf{S}}}}}}({{{{{\rm{n}}}}}})\in {{\mathbb{R}}}^{{d} _{g}}\) sont les intégrations internes excluant le jeton de classe, la prédiction de gène par mosaïque et la prédiction d'expression de gène au niveau de la diapositive, respectivement. Pendant le test, la prédiction finale S est calculée comme une moyenne de toutes les valeurs possibles pour n comme

La fonction de perte d'erreur quadratique moyenne est utilisée pour apprendre les prédictions génétiques.

Enfin, la perte totale pour tRNAsformer est calculée comme

où \(\theta ,\lambda ,\gamma ,B,{{{{{{\bf{y}}}}}}}^{g}\) sont les paramètres du modèle, le coefficient de régularisation du poids, l'hyperparamètre pour la mise à l'échelle du les pertes, le nombre d'échantillons dans un lot et le véritable ARN-seq en vrac associé aux lames. Un résumé de l'approche proposée est inclus dans la Fig. 1.

Pour commencer, les cas TCGA sont divisés en sous-ensembles de 80 %, 10 % et 10 % pour les ensembles de formation, de validation et de test. Chaque cas était associé à un patient et pouvait contenir plusieurs WSI diagnostiques ou fichiers RNA-seq. Au cours du processus de formation, le nombre de sacs a été considéré comme un hyper-paramètre pour optimiser les performances du modèle. Après optimisation des hyper-paramètres, 100 sacs ont été prélevés dans chaque WSI. En conséquence, l'ensemble de formation comprenait 63 400 sacs (voir le tableau supplémentaire 1).

La taille de représentation interne du tRNAsformer a été fixée à 384. Le ratio MLP et le nombre de têtes d'auto-attention étaient tous deux de quatre. Le formateur d'ARNt a été formé pendant 20 époques avec un mini-lot de taille 64. L'AdamW a été choisi comme optimiseur avec un taux d'apprentissage de départ de 3 × 10−4 36. Le coefficient de régularisation du poids a été fixé à 0,01 pour éviter le surajustement. La méthode de réduction sur plateau a été choisie pour ordonnancer le taux d'apprentissage. Par conséquent, le taux d'apprentissage a été réduit de dix toutes les deux époques sans amélioration de la perte de validation. Le coefficient d'échelle γ a été fixé à 0,5. La probabilité de la dernière couche d'abandon a été fixée à 0,25. Les valeurs du modèle avec la perte de validation la plus faible sont rapportées. Toutes les expériences sont menées à l'aide d'une seule carte graphique NVIDIA GeForce RTX 2080 SUPER. Le processeur du bureau était Intel(R) Core(TM) i9-10900X.

Un autre modèle a été formé sur la base de l'architecture MLP, appelée HE2RNA, décrite dans la réf. 5. Le modèle HE2RNA entraîné n'a pas été fourni par les auteurs de l'article HE2RNA. Par conséquent, nous avons construit et formé le modèle HE2RNA en utilisant le même ensemble de données que celui utilisé pour la formation d'ARNt, de sorte que nous produisons une référence équitable basée sur la littérature actuelle. Les couches entièrement connectées ont été remplacées par des convolutions 1D successives avec une taille de noyau et une foulée pour faire glisser les données en raison de l'aspect pratique de la conception MLP5. Une couche de décrochage est appliquée entre les couches successives, et la fonction d'activation était ReLU. Le modèle basé sur la conception MLP suggéré dans la réf. 5 est appelé HE2RNAbb (bb signifie backbone) car il a été formé sur l'ensemble de formation TCGA utilisé dans cet article. Le modèle HE2RNA Rbb est constitué de trois couches convolutives 1D. Les deux premières couches contenaient chacune h canaux d'entrée et de sortie, tandis que la dernière couche avait le même nombre de canaux de sortie que le nombre de gènes. En d'autres termes, h est la taille de la représentation interne du modèle. Le h a été fixé à 1024 pour HE2RNAbb1024. Le modèle a été formé pendant 20 époques à l'aide de l'optimiseur AdamW et d'un taux d'apprentissage de départ de 3 × 10−4 36. Si aucune amélioration n'est observée pour la perte de validation pour deux époques, le taux d'apprentissage a été réduit de dix. La taille du mini-lot a été fixée à 64. Les valeurs du modèle avec la perte de validation la plus faible sont fournies. Le nombre de paramètres de chaque modèle est indiqué dans le tableau supplémentaire 2 à des fins de comparaison. Le temps de l'horloge murale pour une seule époque pour la formation et la validation est également fourni dans le même tableau que le nombre de paramètres.

Il s'agit d'un jeu de données interne que nous avons utilisé pour évaluer la représentation interne de notre modèle. Les dossiers de pathologie chirurgicale du service de pathologie ont été examinés pour des cas consécutifs de carcinome à cellules rénales classés comme carcinome à cellules claires (ccRCC), carcinome à cellules rénales chromophobe (crRCC) ou carcinome à cellules rénales papillaires (pRCC). L'ensemble de données a été créé à la fin de la recherche et contenait 142 cas de carcinome à cellules rénales. Les WSI de ccRCC, crRCC et pRCC étaient respectivement de 48, 44 et 50. Chaque patient avait une lame représentative du cancer qui a été examinée par un pathologiste certifié (Anil V. Parwani) avant d'être scannée à 20 × à l'aide d'un scanscope aperio XT (Leica biosystems, CA). Un pathologiste certifié (AP) a examiné les images WSI et validé les classifications une deuxième fois pour garantir la qualité de l'image et l'exactitude du diagnostic.

Le modèle formé sur l'ensemble de données rénales TCGA a été utilisé pour intégrer l'ensemble de données externe. Les études de classification et de recherche WSI ont ensuite été réalisées pour examiner l'impact du changement de domaine sur le pipeline proposé.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

Le portail NCI Genomic Data Commons (https://portal.gdc.cancer.gov) met toutes les lames numériques TCGA à la disposition du public. Pour la reproductibilité, les données traitées de chaque cas obtenues à partir du projet TCGA sont disponibles sur https://doi.org/10.5281/zenodo.7613408. Les données incluent un fichier csv pour chaque cas, qui répertorie tous les 31 793 scores d'expression génique que nous avons pris en compte dans nos expériences.

Notre code source ainsi que les modèles d'ARNt formés sont disponibles sur https://doi.org/10.5281/zenodo.7613349.

Hou, L. et al. Réseau de neurones convolutionnels à base de patchs pour la classification d'images de tissus sur lame entière. dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes 2424–2433 (2016).

Kalra, S. et al. Consensus diagnostique pan-cancer grâce à la recherche d'images d'histopathologie d'archives à l'aide de l'intelligence artificielle. Chiffre NPJ. Méd. 3, 1–15 (2020).

Article Google Scholar

Wang, H. et al. Détection de la mitose dans les images de pathologie du cancer du sein en combinant des fonctionnalités de réseau de neurones artisanales et convolutives. J. Med. Imagerie 1, 034003 (2014).

Article Google Scholar

Bulten, W. et al. Système automatisé d'apprentissage en profondeur pour le classement de Gleason du cancer de la prostate à l'aide de biopsies : une étude diagnostique. Lancette Oncol. 21, 233-241 (2020).

Article PubMed Google Scholar

Schmauch, B. et al. Un modèle d'apprentissage en profondeur pour prédire l'expression rna-seq des tumeurs à partir d'images de diapositives entières. Nat. Commun. 11, 1–15 (2020).

Article Google Scholar

Levy-Jurgenson, A., Tekpli, X., Kristensen, VN & Yakhini, Z. La transcriptomique spatiale déduite de la pathologie des images entières de diapositives relie l'hétérogénéité tumorale à la survie dans les cancers du sein et du poumon. Sci. Rép. 10, 1–11 (2020).

Article Google Scholar

Lui, B. et al. Intégrer l'expression spatiale des gènes et la morphologie de la tumeur mammaire via l'apprentissage en profondeur. Nat. Biomédical. Ing. 4, 827–834 (2020).

Article CAS PubMed Google Scholar

Tavolara, TE et al. L'apprentissage en profondeur prédit l'expression des gènes en tant que modalité de données intermédiaire pour identifier les modèles de sensibilité chez les souris non consanguines infectées par Mycobacterium tuberculosis. EBioMedicine 67, 103388 (2021).

Article CAS PubMed PubMed Central Google Scholar

Coudray, N. et al. Classification et prédiction des mutations à partir d'images d'histopathologie du cancer du poumon non à petites cellules à l'aide de l'apprentissage en profondeur. Nat. Méd. 24, 1559-1567 (2018).

Article CAS PubMed PubMed Central Google Scholar

Schaumberg, AJ, Rubin, MA et Fuchs, TJ L'apprentissage en profondeur d'images de diapositives entières colorées par H&E prédit l'état de mutation spop dans le cancer de la prostate. Préimpression sur BioRxiv https://doi.org/10.1101/064279 (2017).

Segal, E., Friedman, N., Kaminski, N., Regev, A. & Koller, D. Des signatures aux modèles : comprendre le cancer à l'aide de puces à ADN. Nat. Genet. 37, S38–S45 (2005).

Article CAS PubMed Google Scholar

Kamps, R. et al. Séquençage de nouvelle génération en oncologie : diagnostic génétique, prédiction des risques et classification des cancers. Int. J. Mol. Sci. 18, 308 (2017).

Article PubMed PubMed Central Google Scholar

Sung, H. et al. Statistiques mondiales sur le cancer 2020 : Estimations Globocan de l'incidence et de la mortalité dans le monde pour 36 cancers dans 185 pays. CA : Cancer J. Clin. 71, 209–249 (2021).

Google Scholar PubMed

Shuch, B. et al. Comprendre les variantes pathologiques du carcinome à cellules rénales : extraire les opportunités thérapeutiques de la complexité biologique. EUR. Urol. 67, 85–97 (2015).

Article PubMed Google Scholar

Tabibu, S., Vinod, P. & Jawahar, C. Classification du carcinome à cellules panrénales et prédiction de la survie à partir d'images d'histopathologie utilisant l'apprentissage en profondeur. Sci. Rep. 9, 10509 (2019).

Article PubMed PubMed Central Google Scholar

Dietterich, TG, Lathrop, RH & Lozano-Pérez, T. Résoudre le problème des instances multiples avec des rectangles parallèles à l'axe. Artef. Renseignement. 89, 31–71 (1997).

Article Google Scholar

Hubbard, T. et al. Le projet de base de données du génome ensembl. Nucleic Acids Res. 30, 38–41 (2002).

Article CAS PubMed PubMed Central Google Scholar

Bartha, A. & Győrffy, B. Tnmplot. com : un outil web pour la comparaison de l'expression des gènes dans les tissus normaux, tumoraux et métastatiques. Int. J. Mol. Sci. 22, 2622 (2021).

Article CAS PubMed PubMed Central Google Scholar

Luo, M.-S., Huang, G.-J. & Liu, B.-X. Infiltration immunitaire dans le carcinome du nasopharynx basée sur l'expression génique. Médecine 98, e17311 (2019).

Article CAS PubMed PubMed Central Google Scholar

Hoffman, GE & Schadt, EE variancepartition : interprétation des facteurs de variation dans les études complexes d'expression génique. BMC Bioinforma. 17, 1–13 (2016).

Article Google Scholar

Campbell-Staton, SC, Velotta, JP & Winchell, KM Sélection sur la plasticité de l'expression génique adaptative et inadaptée lors de l'adaptation thermique aux îlots de chaleur urbains. Nat. Commun. 12, 1–14 (2021).

Article Google Scholar

Avsec, Ž. et coll. Prédiction efficace de l'expression génique à partir de la séquence en intégrant les interactions à longue portée. Nat. Méthodes 18, 1196-1203 (2021).

Article CAS PubMed PubMed Central Google Scholar

Holm, S. Une simple procédure de test multiple à rejet séquentiel. Scannez. J. Stat. 6, 65–70 (1979).

Benjamini, Y. & Hochberg, Y. Contrôler le taux de fausses découvertes : une approche pratique et puissante des tests multiples. Statistique JR. Soc. : Ser. B 57, 289-300 (1995).

Google Scholar

Spyromitros-Xioufis, E., Tsoumakas, G., Groves, W. & Vlahavas, I. Régression multi-cible via l'expansion de l'espace d'entrée : traiter les cibles comme des entrées. Mach. Apprendre. 104, 55–98 (2016).

Article Google Scholar

Stacke, K., Eilertsen, G., Unger, J. & Lundström, C. Un examen plus approfondi du changement de domaine pour l'apprentissage en profondeur en histopathologie. Préimpression sur https://arxiv.org/abs/1909.11575 (2019).

Asilian Bidgoli, A., Rahnamayan, S., Dehkharghanian, T., Grami, A. et Tizhoosh, H. Réduction du biais dans la représentation des images d'histopathologie à l'aide d'une sélection approfondie des caractéristiques. Sci. Rép. 12, 1–12 (2022).

Article Google Scholar

Dehkharghanian, T. et al. Données biaisées, IA biaisée : les réseaux profonds prédisent le site d'acquisition des images TCGA. Pathologie diagnostique BMC (2023).

Safarpoor, A., Shafiei, S., Gonzalez, R., Parwani, A. & Tizhoosh, H. Classification et recherche d'images sur diapositives de carcinome à cellules rénales à l'aide de l'apprentissage en profondeur. Place de la recherche https://doi.org/10.21203/rs.3.rs-971708/v1 (2021).

Kalra, S. et al. Yottixel-un moteur de recherche d'images pour de grandes archives d'images de diapositives entières d'histopathologie. Méd. Image anale. 65, 101757 (2020).

Article PubMed Google Scholar

Dehghani, M., Zamani, H., Severyn, A., Kamps, J. & Croft, WB Modèles de classement neuronal avec supervision faible. dans Actes de la 40e Conférence internationale ACM SIGIR sur la recherche et le développement en recherche d'information 65–74 (2017).

Sikaroudi, M. et al. Supervision et impact du domaine source sur l'apprentissage de la représentation : une étude de cas en histopathologie. en 2020 42e Conférence internationale annuelle de l'IEEE Engineering in Medicine & Biology Society (EMBC) 1400–1403 (IEEE, 2020).

Gildenblat, J. & Klaiman, E. Apprentissage de similarité auto-supervisé pour la pathologie numérique. Préimpression sur https://arxiv.org/abs/1905.08139 (2019).

Dosovitskiy, A. et al. Une image vaut 16 × 16 mots : Transformateurs pour la reconnaissance d'images à grande échelle. Préimpression sur https://arxiv.org/abs/2010.11929 (2020).

Hendrycks, D. & Gimpel, K. Unités linéaires d'erreur gaussiennes (gelus). Préimpression sur https://arxiv.org/abs/1606.08415 (2016).

Loshchilov, I. & Hutter, F. Régularisation de la décroissance du poids découplée. Préimpression sur https://arxiv.org/abs/1711.05101 (2017).

Télécharger les références

Ce projet a été partiellement financé dans le cadre d'un consortium ORF-RE par le gouvernement de l'Ontario.

Rhazes Lab, Intelligence artificielle et informatique, Mayo Clinic, Rochester, MN, États-Unis

Areej Alsaafin & HR Tizhoosh

Kimia Lab, Université de Waterloo, Waterloo, ON, Canada

Areej Alsaafin, Amir Safarpoor, Milad Sikaroudi & HR Tizhoosh

Division de pathologie computationnelle et IA, Mayo Clinic, Rochester, MN, États-Unis

Jason D.Hipp

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

AA a contribué à la conception des idées principales, restructuré l'article, réanalysé les données et révisé le manuscrit. AS a contribué et discuté des idées initiales, conçu et réalisé les expériences initiales, analysé et interprété les résultats et rédigé la première ébauche. MS a contribué au traitement et à l'analyse des données. HRT a conçu l'idée initiale, supervisé l'ensemble de l'étude, analysé les données/résultats et rédigé des parties de l'article. JDH a contribué à la gestion du projet, révisé le document et fourni des commentaires critiques.

Correspondance avec HR Tizhoosh.

Les auteurs ne déclarent aucun intérêt concurrent.

Cette étude a été approuvée par le conseil de recherche institutionnel de l'Ohio State University. Un consentement écrit éclairé a été obtenu de tous les patients individuels inclus dans l'étude. Toutes les méthodes ont été réalisées conformément aux directives et réglementations en vigueur. Toutes les données ont été anonymisées à l'aide d'un système de courtier honnête.

Communications Biology remercie Nobuaki Yasuo et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail. Rédacteurs en chef de la manipulation principale : Eirini Marouli et Luke R. Grinham. Les rapports des pairs examinateurs sont disponibles.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Alsaafin, A., Safarpoor, A., Sikaroudi, M. et al. Apprendre à prédire les expressions de séquence d'ARN à partir d'images de diapositives entières avec des applications de recherche et de classification. Commun Biol 6, 304 (2023). https://doi.org/10.1038/s42003-023-04583-x

Télécharger la citation

Reçu : 22 mars 2022

Accepté : 13 février 2023

Publié: 22 mars 2023

DOI : https://doi.org/10.1038/s42003-023-04583-x

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.