banner
Centre d'Information
Articuler et maîtriser son expertise.

Un transformateur de vision pour décoder l'activité du chirurgien à partir de vidéos chirurgicales

Dec 07, 2023

Nature Biomedical Engineering (2023)Citer cet article

6508 accès

2 Citations

129 Altmétrique

Détails des métriques

L'activité peropératoire d'un chirurgien a un impact substantiel sur les résultats postopératoires. Cependant, pour la plupart des procédures chirurgicales, les détails des actions chirurgicales peropératoires, qui peuvent varier considérablement, ne sont pas bien compris. Nous rapportons ici un système d'apprentissage automatique tirant parti d'un transformateur de vision et d'un apprentissage contrastif supervisé pour le décodage d'éléments de l'activité chirurgicale peropératoire à partir de vidéos couramment collectées lors de chirurgies robotiques. Le système a identifié avec précision les étapes chirurgicales, les actions effectuées par le chirurgien, la qualité de ces actions et la contribution relative des images vidéo individuelles au décodage des actions. Grâce à des tests approfondis sur les données de trois hôpitaux différents situés sur deux continents différents, nous montrons que le système se généralise à travers les vidéos, les chirurgiens, les hôpitaux et les procédures chirurgicales, et qu'il peut fournir des informations sur les gestes chirurgicaux et les compétences à partir de vidéos non annotées. Le décodage de l'activité peropératoire via des systèmes d'apprentissage automatique précis pourrait être utilisé pour fournir aux chirurgiens un retour d'information sur leurs compétences opératoires, et pourrait permettre l'identification du comportement chirurgical optimal et l'étude des relations entre les facteurs peropératoires et les résultats postopératoires.

L'objectif primordial de la chirurgie est d'améliorer les résultats postopératoires pour les patients1,2. Il a été récemment démontré que ces résultats sont fortement influencés par l'activité chirurgicale peropératoire3, c'est-à-dire les actions effectuées par un chirurgien au cours d'une intervention chirurgicale et la qualité de l'exécution de ces actions. Pour la grande majorité des interventions chirurgicales, cependant, une compréhension détaillée de l'activité chirurgicale peropératoire reste insaisissable. Ce scénario n'est que trop courant dans d'autres domaines de la médecine, où les moteurs de certains résultats pour les patients doivent encore être découverts ou se manifestent différemment. Le statu quo en chirurgie est que l'activité chirurgicale peropératoire n'est tout simplement pas mesurée. Un tel manque de mesure rend difficile la capture de la variabilité dans la manière dont les procédures chirurgicales sont effectuées dans le temps, les chirurgiens et les hôpitaux, pour tester les hypothèses associant l'activité peropératoire aux résultats des patients et pour fournir aux chirurgiens un retour d'information sur leur technique opératoire.

L'activité chirurgicale peropératoire peut être décodée à partir de vidéos couramment collectées lors d'interventions chirurgicales assistées par robot. Un tel décodage donne un aperçu des étapes de la procédure (telles que la dissection des tissus et la suture) qui sont exécutées au fil du temps, comment ces étapes sont exécutées (par exemple, par un ensemble d'actions ou de gestes discrets) par le chirurgien opérant, et la qualité avec laquelle elles sont exécutés (c'est-à-dire la maîtrise d'une compétence; Fig. 1). Actuellement, si une vidéo devait être décodée, ce serait par une analyse rétrospective manuelle par un chirurgien expert. Cependant, cette approche humaine est subjective, car elle dépend de l'interprétation de l'activité par le chirurgien examinateur ; peu fiable, car il suppose qu'un chirurgien est au courant de toutes les activités peropératoires ; et non évolutif, car il nécessite la présence d'un chirurgien expert et beaucoup de temps et d'efforts. Ces hypothèses sont particulièrement déraisonnables lorsque les chirurgiens experts ne sont pas disponibles (comme dans les pays à faibles ressources) et déjà pressés par le temps. En tant que tel, il existe un besoin pressant de décoder l'activité chirurgicale peropératoire de manière objective, fiable et évolutive.

a, Les vidéos chirurgicales couramment collectées lors des chirurgies robotiques sont décodées via SAIS en plusieurs éléments de l'activité chirurgicale peropératoire : ce qui est effectué par un chirurgien, comme les sous-phases de suture de la manipulation de l'aiguille, l'entraînement de l'aiguille et le retrait de l'aiguille, et comment cette activité est exécutée par un chirurgien, par exemple par des gestes discrets et à différents niveaux de compétence. b, SAIS est un système unifié puisque la même architecture peut être utilisée pour décoder indépendamment différents éléments de l'activité chirurgicale, de la reconnaissance des sous-phases à la classification des gestes et à l'évaluation des compétences.

Compte tenu de ces limites, des technologies émergentes telles que l'intelligence artificielle (IA) ont été utilisées pour identifier l'activité chirurgicale4, les gestes5, les niveaux de compétence des chirurgiens6,7 et les mouvements des instruments8 exclusivement à partir de vidéos. Cependant, ces technologies se limitent à ne décoder qu'un seul élément de l'activité chirurgicale peropératoire à la fois (comme uniquement les gestes), ce qui limite leur utilité. Ces technologies sont également rarement évaluées de manière rigoureuse, où la question reste ouverte de savoir si elles se généralisent ou fonctionnent bien dans de nouveaux contextes, comme avec des vidéos inédites de différents chirurgiens, procédures chirurgicales et hôpitaux. Une évaluation aussi rigoureuse est essentielle pour assurer le développement de systèmes d'IA sûrs et fiables.

Dans cette étude, nous proposons un système d'IA chirurgical unifié (SAIS) qui décode plusieurs éléments de l'activité chirurgicale peropératoire à partir de vidéos collectées pendant la chirurgie. Grâce à une évaluation rigoureuse des données de trois hôpitaux, nous montrons que SAIS décode de manière fiable plusieurs éléments de l'activité peropératoire, des étapes chirurgicales effectuées aux gestes exécutés et à la qualité avec laquelle ils sont exécutés par un chirurgien. Ce décodage fiable est valable indépendamment du fait que les vidéos concernent différentes procédures chirurgicales et de différents chirurgiens dans les hôpitaux. Nous montrons également que SAIS décode ces éléments de manière plus fiable que les systèmes d'IA de pointe, tels que Inception3D (I3D; réf. 6), qui ont été développés pour ne décoder qu'un seul élément (comme la compétence du chirurgien). Nous montrons également que SAIS, grâce au déploiement sur des vidéos chirurgicales sans aucune annotation humaine, fournit des informations sur l'activité chirurgicale peropératoire, telles que sa qualité au fil du temps, qui autrement n'auraient pas été disponibles pour un chirurgien. Grâce à une évaluation qualitative, nous démontrons que SAIS fournit un raisonnement précis derrière son décodage de l'activité peropératoire. Grâce à ces capacités, nous illustrons comment le SAIS peut être utilisé pour fournir aux chirurgiens des informations exploitables sur la façon de moduler leur comportement chirurgical peropératoire.

Nous avons décodé le « quoi » de la chirurgie en demandant au SAIS de distinguer trois sous-phases chirurgicales : la manipulation de l'aiguille, la conduite de l'aiguille et le retrait de l'aiguille (Fig. 1). Pour toutes les expériences, nous avons formé SAIS sur des échantillons vidéo exclusivement de l'Université de Californie du Sud (USC) (tableau 1). Une description des procédures chirurgicales et des sous-phases est fournie dans Méthodes.

Nous avons déployé SAIS sur l'ensemble de test d'échantillons vidéo de l'USC et présentons les courbes de caractéristique de fonctionnement du récepteur (ROC) stratifiées selon les trois sous-phases (Fig. 2a). Nous avons observé que le SAIS décode de manière fiable les sous-phases chirurgicales avec une aire sous la courbe caractéristique de fonctionnement du récepteur (AUC) de 0,925, 0,945 et 0,951, pour l'entraînement de l'aiguille, la manipulation de l'aiguille et le retrait de l'aiguille, respectivement. Nous avons également constaté que le SAIS peut facilement décoder les étapes de haut niveau de la chirurgie, telles que la suture et la dissection (Note complémentaire 3 et Fig. 2 complémentaire).

a–c, SAIS est formé sur des échantillons vidéo exclusivement de l'USC et évalué sur ceux de l'USC (a), SAH (b) et HMH (c). Les résultats sont présentés sous la forme d'une moyenne (± 1 écart type) de dix étapes de validation croisée de Monte Carlo. d, Nous avons formé des variantes de SAIS pour quantifier le bénéfice marginal de ses composants sur sa VPP. Nous avons supprimé l'augmentation du temps de test ('sans TTA'), les trames RVB ('sans RVB'), les cartes de flux ('sans flux') et le mécanisme d'auto-attention ('sans SA'). Nous avons constaté que le mécanisme d'attention et l'entrée de modalités multiples (RVB et flux) sont les plus grands contributeurs à la VPP. e, Nous avons comparé SAIS à un modèle I3D lors du décodage de sous-phases de vidéos VUA entières sans supervision humaine. Chaque case reflète les quartiles des résultats et les moustaches s'étendent jusqu'à 1,5 × l'intervalle interquartile.

Pour déterminer si le SAIS peut être généralisé à des chirurgiens invisibles dans des hôpitaux distincts, nous l'avons déployé sur des échantillons vidéo de l'hôpital St. Antonius (SAH) (Fig. 2b) et de l'hôpital méthodiste de Houston (HMH) (Fig. 2c). Nous avons constaté que le SAIS continuait d'exceller avec une ASC ≥ 0,857 pour toutes les sous-phases et dans tous les hôpitaux.

Nous avons déployé SAIS pour décoder des sous-phases à partir de vidéos entières de l'étape de suture de l'anastomose vésico-urétrale (VUA) (20 min) sans aucune supervision humaine (section d'inférence dans Méthodes). Nous présentons le score F110 (Fig. 2e), une métrique couramment rapportée9, et contextualisons ses performances par rapport à celles d'un réseau I3D de pointe6. Nous avons constaté que SAIS décode les sous-phases chirurgicales de manière plus fiable que I3D, ces modèles atteignant respectivement un F110 de 50 et 40.

Pour mieux apprécier le degré de contribution des composants du SAIS à sa performance globale, nous avons formé des variantes du SAIS, après avoir supprimé ou modifié ces composants (section ablation dans Méthodes), et reporté leur valeur prédictive positive (PPV) lors du décodage de la chirurgie. sous-phases (Fig. 2d).

Nous avons constaté que le mécanisme d'auto-attention (SA) était le plus grand contributeur à la performance du SAIS, où son absence entraînait un ∆PPV d'environ -20. Cette découverte implique que la capture de la relation entre les images et l'ordre temporel de celles-ci est essentielle pour le décodage de l'activité chirurgicale peropératoire. Nous avons également observé que l'entrée à double modalité (rouge-vert-bleu, ou RVB, images et flux) a une plus grande contribution à la performance que l'utilisation de l'une ou l'autre modalité de données seule. En supprimant les trames RVB (« sans RVB ») ou le flux optique (« sans flux »), le modèle présentait un ∆PPV moyen d'environ −3 par rapport à la mise en œuvre de base. Un tel constat suggère que ces deux modalités sont complémentaires l'une de l'autre. Nous avons donc utilisé le modèle de référence (SAIS) pour toutes les expériences ultérieures.

Dans la section précédente, nous avons montré la capacité du SAIS à décoder les sous-phases chirurgicales (le « quoi » de la chirurgie) et à généraliser aux échantillons vidéo de chirurgiens invisibles dans des hôpitaux distincts, et nous avons également quantifié le bénéfice marginal de ses composants via une étude d'ablation. Dans cette section, nous examinons la capacité du SAIS à décoder les gestes chirurgicaux (le « comment » de la chirurgie) effectués pendant les activités de suture et de dissection des tissus (la description des gestes et des activités est fournie dans Méthodes). Pour l'activité de suture (VUA), nous avons entraîné SAIS à distinguer quatre gestes de suture discrets : coup droit sous (R1), coup droit dessus (R2), coup droit gauche sous (L1) et coup droit combiné sur (C1). Pour l'activité de dissection, connue sous le nom d'épargne nerveuse (NS), nous avons entraîné SAIS à distinguer six gestes de dissection discrets : coupe à froid (c), crochet (h), clip (k), mouvement de caméra (m), épluchage (p) et rétraction (r). Nous notons que la formation a été effectuée sur des échantillons vidéo provenant exclusivement d'USC.

Nous avons déployé SAIS sur l'ensemble de test d'échantillons vidéo de l'USC et présentons les courbes ROC stratifiées en fonction des gestes de suture discrets (Fig. 3a) et des gestes de dissection (Fig. 3b). Il y a deux principaux plats à emporter ici. Premièrement, nous avons observé que le SAIS peut bien se généraliser aux gestes de suture et de dissection dans des vidéos inédites. Ceci est illustré par l'AUC élevée obtenue par SAIS à travers les gestes. Par exemple, dans l'activité de suture, l'ASC était de 0,837 et 0,763 pour le coup droit droit sous (R1) et le coup droit combiné sur (C1), respectivement. Dans l'activité de dissection, l'AUC était de 0,974 et 0,909 pour les gestes de clip (k) et de mouvement de caméra (m), respectivement. Ces résultats sont de bon augure pour le déploiement potentiel de SAIS sur des vidéos inédites pour lesquelles les annotations gestuelles de vérité au sol ne sont pas disponibles, une piste que nous explorons dans une section ultérieure. Deuxièmement, nous avons constaté que les performances de SAIS diffèrent selon les gestes. Par exemple, dans l'activité de dissection, l'AUC était de 0,701 et 0,974 pour les gestes de rétraction (r) et de clip (k), respectivement. Nous émettons l'hypothèse que la forte performance de SAIS pour ce dernier découle de la présence visuelle claire d'un clip dans le champ de vision chirurgical. En revanche, l'omniprésence des gestes de rétraction dans le champ de vision chirurgical pourrait être à l'origine de la capacité relativement plus faible du SAIS à décoder les rétractions, comme expliqué ci-après. La rétraction est souvent annotée comme telle lorsqu'elle est activement effectuée par la main dominante d'un chirurgien. Cependant, en tant que geste de base utilisé, par exemple, pour améliorer la visualisation du champ opératoire par un chirurgien, une rétraction complète souvent d'autres gestes. En tant que tel, il peut se produire simultanément avec, et donc être confondu avec, d'autres gestes du modèle.

a, SAIS est formé et évalué sur les données VUA exclusivement de l'USC. Les gestes de suture sont le coup droit sous (R1), le coup droit dessus (R2), le coup droit gauche sous (L1) et le coup droit combiné dessus (C1). b–d, SAIS est formé sur les données NS exclusivement de l'USC et évalué sur les données NS de l'USC (b), les données NS de SAH (c) et les données HD de l'USC (d). Les gestes de dissection sont la coupe à froid (c), le crochet (h), le clip (k), le déplacement de la caméra (m), le pelage (p) et la rétraction (r). Notez que les clips (k) ne sont pas utilisés pendant l'étape HD. Les résultats sont présentés sous la forme d'une moyenne (± 1 écart type) de dix étapes de validation croisée de Monte Carlo. e, Proportion de gestes prédits identifiés comme corrects (précision) stratifiés sur la base de la localisation anatomique du faisceau neurovasculaire dans lequel le geste est réalisé. f, profil de geste où chaque ligne représente un geste distinct et chaque ligne verticale représente l'occurrence de ce geste à un moment particulier. SAIS a identifié une séquence de gestes (crochet, clip et coupe à froid) qui est attendue dans l'étape NS des procédures RARP, et a découvert un comportement aberrant d'un geste de déplacement de caméra plus long que la normale correspondant au retrait, à l'inspection et à la réinsertion de la caméra dans le corps du patient.

Pour mesurer la mesure dans laquelle le SAIS peut se généraliser à des chirurgiens invisibles dans un hôpital distinct, nous l'avons déployé sur des échantillons vidéo de SAH (Fig. 3c et nombre d'échantillons vidéo dans le tableau 1). Nous avons constaté que le SAIS continue de bien performer dans un tel contexte. Par exemple, l'AUC était de 0,899 et 0,831 pour les mouvements de caméra (m) et de clip (k), respectivement. Il est important de noter qu'une telle découverte suggère que le SAIS peut être déployé de manière fiable sur des données présentant plusieurs sources de variabilité (chirurgien, hôpital, etc.). Nous nous attendions, et avons effectivement observé, une légère dégradation des performances dans ce paramètre par rapport au moment où SAIS a été déployé sur des échantillons vidéo de l'USC. Par exemple, l'ASC était de 0,823 → 0,702 pour le geste de coupe à froid (c) dans les données USC et SAH, respectivement. Cela était attendu en raison du changement potentiel dans la distribution des données collectées dans les deux hôpitaux, qui a été documenté comme affectant négativement les performances du réseau10. Les sources potentielles de changement de distribution incluent la variabilité dans la façon dont les chirurgiens exécutent le même ensemble de gestes (par exemple, différentes techniques) et dans le champ de vision chirurgical (par exemple, une vision claire avec moins de sang). De plus, notre hypothèse expliquant pourquoi cette dégradation affecte certains gestes (comme les charcuteries) plus que d'autres (comme les clips) est que ces derniers présentent moins de variabilité que les premiers, et sont donc plus faciles à classer par le modèle.

Bien que les vidéos de différentes procédures chirurgicales (telles que la néphrectomie par rapport à la prostatectomie) puissent présenter une variabilité, par exemple, des repères anatomiques (tels que le rein par rapport à la prostate), elles sont toujours susceptibles de refléter les mêmes gestes de dissection des tissus. Nous avons exploré dans quelle mesure une telle variabilité affecte la capacité du SAIS à décoder les gestes de dissection. Plus précisément, nous avons déployé SAIS sur des échantillons vidéo d'une étape chirurgicale différente : la dissection hilaire rénale (HD), d'une procédure chirurgicale différente : la néphrectomie partielle assistée par robot (RAPN) (Fig. 3d et Tableau 1 pour le comptage des échantillons vidéo). Nous avons observé que le SAIS parvient à se généraliser de manière adéquate à une intervention chirurgicale invisible, bien qu'il présente des performances dégradées, comme prévu (0,615 < AUC < 0,858 pour tous les gestes). Fait intéressant, le geste du crochet (h) a connu la plus grande dégradation des performances (AUC 0,768 → 0,615). Nous avons émis l'hypothèse que cela était dû à la différence de tissu dans lequel un crochet est effectué. Alors que dans l'étape de dissection NS, un crochet est généralement effectué autour des pédicules prostatiques (une région des vaisseaux sanguins), dans l'étape HD rénale, il est effectué dans le tissu conjonctif autour de l'artère et de la veine rénales, délivrant le sang vers et depuis le rein, respectivement.

Pour contextualiser notre travail avec les méthodes précédentes, nous avons également formé SAIS pour faire la distinction entre les gestes de suture sur deux ensembles de données accessibles au public : JHU-ISI Geste et ensemble de travail d'évaluation des compétences (JIGSAWS)11 et le complexe vasculaire dorsal University College London (DVC UCL)12 (Méthodes ). Alors que le premier contient des vidéos de participants en laboratoire, le second contient des vidéos de chirurgiens à une étape particulière (complexe vasculaire dorsal) de la procédure de prostatectomie radicale assistée par robot (RARP). Nous comparons la précision de SAIS avec celle des méthodes les plus performantes sur JIGSAWS (tableau supplémentaire 6) et DVC UCL (tableau supplémentaire 7).

Nous avons constaté que SAIS, bien qu'il n'ait pas été conçu à dessein pour l'ensemble de données JIGSAWS, fonctionne de manière compétitive avec les méthodes de base (tableau supplémentaire 6). Par exemple, la méthode basée sur la vidéo la plus performante a atteint une précision de 90,1, tandis que SAIS a atteint une précision de 87,5. Il est concevable que l'incorporation de modalités supplémentaires et de modifications spécifiques aux ensembles de données dans le SAIS puisse encore améliorer ses performances. En ce qui concerne le jeu de données DVC UCL, nous avons suivi un protocole d'évaluation différent de celui initialement rapporté12 (voir Détails de mise en œuvre de la formation SAIS sur des jeux de données vidéo externes dans Méthodes) puisque seul un sous-ensemble du jeu de données a été rendu public. Pour comparer équitablement les modèles dans ce cadre, nous quantifions leur amélioration par rapport à un système naïf qui prédit toujours le geste majoritaire (Aléatoire) (Tableau complémentaire 7). Nous avons constaté que SAIS conduit à une plus grande amélioration des performances par rapport à la méthode de pointe (MA-TCN) sur l'ensemble de données DVC UCL. Cela est évident par la multiplication par trois et par quatre de la précision obtenue par MA-TCN et SAIS, respectivement, par rapport à un système naïf.

L'un des objectifs ultimes, mais ambitieux, de SAIS est de décoder l'activité du chirurgien à partir d'une vidéo chirurgicale entière sans annotations et avec une surveillance humaine minimale. Cela fournirait aux chirurgiens des informations autrement moins facilement accessibles. Dans la poursuite de cet objectif, et à titre d'exemple, nous avons déployé SAIS pour décoder les gestes de dissection de vidéos NS entières de l'USC (durée de 20 à 30 min) auxquelles il n'a jamais été exposé (Méthodes).

Pour évaluer ce décodage, nous avons sélectionné au hasard une prédiction faite par SAIS pour chaque catégorie de geste de dissection dans chaque vidéo (n = 800 prédictions de geste au total). Cela nous a permis de récupérer des prédictions à partir d'un ensemble de vidéos plus représentatif et diversifié, améliorant ainsi la généralisabilité de nos résultats. Nous rapportons la précision de ces prédictions après avoir confirmé manuellement si les échantillons vidéo correspondants reflétaient ou non le geste correct (Fig. 3e). Nous avons en outre stratifié cette précision sur la base de la localisation anatomique du faisceau neurovasculaire par rapport à la glande prostatique. Cela nous a permis de déterminer si SAIS était (a) en train d'apprendre un raccourci non fiable pour décoder les gestes en associant des repères anatomiques à certains gestes, ce qui n'est pas souhaitable, et (b) robuste aux changements d'angle de caméra et de direction du mouvement du geste. Pour ce dernier, notez qu'opérer sur le faisceau neurovasculaire gauche implique souvent d'utiliser l'instrument de droite et de le déplacer vers la gauche du champ de vision (Fig. 3f, rangée supérieure d'images). L'inverse est vrai lorsqu'on opère sur le faisceau neurovasculaire droit.

Nous avons constaté qu'il est peu probable que SAIS apprenne un raccourci spécifique à l'anatomie pour décoder les gestes et qu'il est robuste à la direction du mouvement du geste. Cela est évident par ses performances similaires lorsqu'il est déployé sur des échantillons vidéo de gestes effectués dans les faisceaux neurovasculaires gauche et droit. Par exemple, les prédictions des gestes du crochet (h) présentaient une précision d'environ 0,75 dans les deux emplacements anatomiques. Nous avons également observé que SAIS était capable d'identifier une catégorie de gestes supplémentaire au-delà de ceux sur lesquels il avait été formé à l'origine. En inspectant manuellement les échantillons vidéo dans la catégorie de gestes de coupe à froid (c) avec une précision apparemment faible, nous avons constaté que SAIS identifiait un geste de coupe distinct, également appelé coupe à chaud, qui, contrairement à une coupe à froid, implique l'application de chaleur /énergie pour couper les tissus.

Pour évaluer qualitativement les performances de SAIS, nous présentons ses prédictions gestuelles pour une seule vidéo NS de 30 minutes (Fig. 3f). Chaque ligne représente un geste distinct et chaque ligne verticale représente l'occurrence de ce geste à un moment donné. Nous avons observé que, bien que le SAIS n'ait pas été explicitement informé de la relation entre les gestes, il a néanmoins correctement identifié un schéma de gestes dans le temps qui est typique de l'étape NS dans les procédures chirurgicales RARP. Ce modèle constitue un (a) crochet, (b) clip et (c) coupe à froid et est réalisé pour séparer le faisceau neurovasculaire de la prostate tout en minimisant le degré de saignement que le patient subit.

Nous avons également constaté que le SAIS peut découvrir des comportements aberrants, même s'il n'a pas été explicitement formé pour le faire. Plus précisément, SAIS a identifié un intervalle contigu de 60 s pendant lequel un mouvement de caméra (m) a été effectué, et qui est 60 fois plus long que la durée moyenne (1 s) d'un mouvement de caméra. Suspectant un comportement aberrant, nous avons inspecté cet intervalle et avons découvert qu'il coïncidait avec le retrait de la caméra du corps du patient, son inspection par le chirurgien et sa réinsertion dans le corps du patient.

À ce stade, nous avons démontré que SAIS, en tant que système d'IA unifié, peut réaliser indépendamment une reconnaissance de sous-phase chirurgicale (le quoi de la chirurgie) et une classification des gestes (le comment de la chirurgie), et généraliser à des échantillons de vidéos invisibles dans le processus. Dans cette section, nous examinons la capacité du SAIS à décoder les évaluations des compétences à partir de vidéos chirurgicales. Ce faisant, nous abordons également le comment de la chirurgie, mais à travers le prisme des compétences du chirurgien. Nous avons évalué la qualité avec laquelle deux sous-phases de suture ont été exécutées par les chirurgiens : manipulation et enfoncement de l'aiguille (Fig. 1a, colonne de droite). Nous avons formé SAIS pour décoder le niveau de compétence de ces activités en utilisant des échantillons vidéo exclusivement d'USC.

Nous avons déployé SAIS sur l'ensemble de test d'échantillons vidéo de l'USC et présentons les courbes ROC associées aux compétences de manipulation d'aiguille (Fig. 4a) et de conduite d'aiguille (Fig. 4b). Nous avons constaté que le SAIS peut décoder de manière fiable le niveau de compétence de l'activité chirurgicale, atteignant une ASC de 0,849 et 0,821 pour la manipulation d'aiguilles et l'activité de conduite, respectivement.

a,b, Nous formons SAIS sur des échantillons vidéo exclusivement d'USC pour décoder le niveau de compétence de la manipulation d'aiguilles (a) et de la conduite d'aiguilles (b), et le déployons sur des échantillons vidéo d'USC, SAH et HMH. Les résultats sont une moyenne (± 1 écart type) de dix étapes de validation croisée de Monte Carlo. c,d, Nous présentons également l'attention portée aux images par SAIS pour un échantillon vidéo de manipulation d'aiguilles peu qualifiées (c) et de conduite d'aiguilles (d). Les images avec une boîte englobante orange indiquent que le SAIS accorde la plus grande attention aux cadres représentant des états visuels compatibles avec les critères d'évaluation des compétences respectifs. Ces critères correspondent respectivement aux repositionnements et aux ajustements de l'aiguille. e, profil de compétences chirurgicales illustrant l'évaluation des compétences de manipulation et de conduite d'aiguille à partir d'un seul cas chirurgical à l'HSA. f,g, Ratio de manipulation d'aiguille peu qualifiée (f) et de conduite d'aiguille (g) dans chacun des 30 cas chirurgicaux à l'HSA. Les lignes pointillées horizontales représentent le ratio moyen d'activité peu qualifiée à l'USC.

Nous avons également déployé SAIS sur des échantillons vidéo de chirurgiens invisibles dans deux hôpitaux : SAH et HMH (Fig. 4a, b et Tableau 1 pour le nombre d'échantillons vidéo). Il s'agit d'une tâche difficile qui oblige le SAIS à s'adapter aux manières potentiellement différentes dont les activités chirurgicales sont exécutées par des chirurgiens ayant des préférences différentes. Nous avons constaté que le SAIS continuait à décoder de manière fiable le niveau de compétence de manipulation d'aiguilles (SAH : AUC 0,880, HMH : AUC 0,804) et de conduite d'aiguilles (SAH : AUC 0,821, HMH : AUC 0,719). La capacité du SAIS à détecter des modèles cohérents dans les hôpitaux indique son utilité potentielle pour l'évaluation objective des compétences chirurgicales.

Des variantes du réseau neuronal convolutif 3D (3D-CNN) ont obtenu des résultats de pointe dans le décodage des compétences chirurgicales sur la base de vidéos d'un essai en laboratoire6 ou d'une procédure en direct13. En tant que tel, pour contextualiser l'utilité de SAIS, nous avons affiné un modèle I3D pré-formé (voir Détails de mise en œuvre des expériences I3D dans Méthodes) pour décoder le niveau de compétence de manipulation et de conduite d'aiguille (tableau 2). Nous avons constaté que le SAIS surpasse systématiquement ce modèle de pointe lors du décodage du niveau de compétence des activités chirurgicales dans les hôpitaux. Par exemple, lors du décodage du niveau de compétence de la manipulation des aiguilles, SAIS et I3D ont atteint une AUC de 0,849 et 0,681, respectivement. Lors du décodage du niveau de compétence de la conduite d'aiguilles, ils ont atteint une ASC de 0,821 et 0,630, respectivement. Nous avons également constaté qu'I3D était plus sensible aux échantillons vidéo sur lesquels il était formé et à l'initialisation de ses paramètres. Cela est évident par l'écart-type plus élevé de ses performances par rapport à celles du SAIS à travers les plis (0,12 contre 0,05 pour la conduite d'aiguille à l'USC). Une telle sensibilité n'est pas souhaitable car elle indique le manque de robustesse et le comportement imprévisible du modèle.

Le déploiement sûr des systèmes d'IA clinique nécessite souvent qu'ils soient interprétables14. Nous avons donc voulu explorer si le SAIS identifiait ou non des repères visuels pertinents tout en décodant le niveau de compétence des chirurgiens. Cela donnerait aux praticiens de l'apprentissage automatique l'assurance que SAIS s'accroche effectivement aux fonctionnalités appropriées et qu'il peut donc faire confiance en cas de déploiement futur dans un cadre clinique. Nous avons d'abord récupéré un extrait vidéo illustrant une activité peu qualifiée (manipulation ou enfoncement d'aiguilles) correctement classée par le SAIS. En inspectant l'attention portée à ces trames par le mécanisme d'attention (architecture de la Fig. 5), nous avons pu quantifier l'importance de chaque trame. Idéalement, une grande attention est accordée aux cadres de pertinence, où la pertinence est définie sur la base de la compétence évaluée.

SAIS se compose de deux flux parallèles qui traitent des modalités de données d'entrée distinctes : les vidéos chirurgicales RVB et le flux optique. Quelle que soit la modalité de données, les caractéristiques sont extraites de chaque trame via un ViT pré-formé de manière auto-supervisée sur ImageNet. Les caractéristiques des trames vidéo sont ensuite entrées dans une pile d'encodeurs de transformateur pour obtenir une caractéristique vidéo spécifique à la modalité. Ces caractéristiques spécifiques à la modalité sont agrégées et transmises à une tête de projection pour obtenir une caractéristique vidéo unique, qui est soit attirée soit repoussée par le prototype concerné. Bien que nous illustrions deux prototypes pour refléter des catégories binaires (activité hautement qualifiée par rapport à une activité peu qualifiée), nous aurions des prototypes C dans un cadre avec des catégories C.

Nous présentons l'attention (plus sombre est plus important) placée sur les images d'un échantillon vidéo de manipulation d'aiguilles (Fig. 4c) et de conduite d'aiguilles (Fig. 4d) et qui a été correctement classée par SAIS comme représentant une faible compétence. Nous avons constaté que le SAIS accorde le plus d'attention aux cadres qui correspondent aux critères d'évaluation des compétences. Par exemple, avec l'activité de manipulation d'aiguille peu qualifiée basée sur le nombre de fois qu'une aiguille est ressaisie par un chirurgien, on voit que les cadres les plus importants mettent en évidence le temps où les deux bras robotiques tiennent simultanément l'aiguille, ce qui est caractéristique d'une manœuvre de repositionnement de l'aiguille (Fig. 4c). Les répétitions multiples de ce comportement s'alignent donc bien avec l'évaluation de la faible compétence de la manipulation des aiguilles. De plus, la conduite d'aiguille étant évaluée comme peu qualifiée en fonction de la douceur de sa trajectoire, nous voyons que l'aiguille a d'abord été conduite à travers le tissu, ajustée, puis complètement retirée (à l'opposé de la direction du mouvement) avant d'être re-conduite à travers le tissu quelques secondes plus tard (Fig. 4d). Le SAIS accordait une grande attention au retrait de l'aiguille et à son ajustement et était donc aligné sur l'évaluation des faibles compétences de conduite d'aiguille. Plus généralement, ces résultats explicables suggèrent que le SAIS est non seulement capable de fournir aux chirurgiens une évaluation fiable, objective et évolutive des compétences, mais peut également identifier les images importantes dans l'échantillon vidéo. Cette capacité explique pourquoi une évaluation des compétences faibles a été effectuée et est de bon augure pour le moment où le SAIS sera déployé pour fournir aux chirurgiens des commentaires ciblés sur la façon d'améliorer leur exécution des compétences chirurgicales.

Nous voulions démontrer que le SAIS peut également fournir aux chirurgiens des informations sur les compétences chirurgicales qui, autrement, n'auraient pas été à leur disposition. À cette fin, nous avons chargé SAIS d'évaluer la compétence de tous les échantillons vidéo de manipulation et d'enfoncement d'aiguilles recueillis auprès de SAH.

La manipulation de l'aiguille (et l'enfoncement de l'aiguille) étant considérée comme une sous-phase d'un seul point et sachant qu'une séquence de points au fil du temps constitue une activité de suture (telle que VUA) dans un cas chirurgical, SAIS peut générer un profil de compétences chirurgicales pour un seul étui (Fig. 4e) pour la manipulation et l'enfoncement de l'aiguille. Nous tenons à souligner que ce profil, lorsqu'il est généré pour des cas chirurgicaux qui ne sont pas annotés avec des évaluations de compétences sur le terrain, fournit aux chirurgiens des informations exploitables qui, autrement, n'auraient pas été à leur disposition. Par exemple, un chirurgien en formation peut désormais identifier les régions temporelles d'activité de points de faible compétence, les relier peut-être à des emplacements anatomiques et apprendre à se concentrer sur ces régions à l'avenir. En décodant les profils de différentes compétences au sein d'un même cas chirurgical, un chirurgien peut désormais déterminer si des performances médiocres pour une compétence (telle que la manipulation d'aiguilles) sont en corrélation avec celles d'une autre compétence (telle que la conduite d'aiguilles). Cette idée aidera à guider la façon dont un chirurgien pratique ces compétences.

SAIS peut également fournir des informations exploitables au-delà du niveau du cas chirurgical individuel. Pour illustrer cela, nous présentons la proportion d'actions de manipulation d'aiguille (Fig. 4f) et d'entraînement d'aiguille (Fig. 4g) dans un cas chirurgical qui ont été jugées peu qualifiées, pour l'ensemble des 30 cas chirurgicaux de l'HSA. Nous présentons également le ratio moyen de faible compétence observé dans les vidéos chirurgicales de l'USC. Grâce à ces informations, le sous-ensemble de cas présentant le taux le plus faible d'actions peu qualifiées peut être identifié et présenté aux chirurgiens en formation à des fins éducatives. En comparant les ratios au niveau des cas au ratio moyen dans différents hôpitaux (Fig. 4g), les chirurgiens peuvent identifier les cas qui pourraient bénéficier d'une formation de chirurgien plus poussée.

Nous avons initialement affirmé que le décodage de l'activité chirurgicale peropératoire peut ouvrir la voie à de multiples applications en aval, dont l'une est la fourniture d'un retour postopératoire aux chirurgiens sur leur technique opératoire. Nous fournissons ici un modèle de la manière dont le SAIS, basé sur les conclusions que nous avons présentées jusqu'à présent, peut atteindre cet objectif. En décodant de manière fiable les sous-phases chirurgicales et les compétences chirurgicales tout en fournissant simultanément son raisonnement pour le faire, le SAIS peut fournir un retour d'information sous la forme suivante : "lorsque vous avez terminé le point numéro trois de l'étape de suture, votre manipulation de l'aiguille (quelle - sous-phase) a été mal exécutée (comment -compétence). Cela est probablement dû à votre activité dans les premier et dernier quarts de la sous-phase de manipulation des aiguilles (pourquoi – attention) ». Une telle rétroaction granulaire et temporellement localisée permet désormais à un chirurgien de mieux se concentrer sur l'élément de l'activité chirurgicale peropératoire qui nécessite une amélioration, une capacité qui n'était pas disponible auparavant.

Bien qu'utiles pour maîtriser une compétence technique chirurgicale elle-même, les commentaires du chirurgien deviennent plus significatifs sur le plan clinique lorsqu'ils sont fondés sur les résultats des patients. Par exemple, si les évaluations de faible compétence sont associées à de mauvais résultats, un chirurgien peut alors commencer à moduler un comportement spécifique pour améliorer ces résultats. À cette fin, nous avons effectué une analyse préliminaire régressant les évaluations des compétences du chirurgien du SAIS à l'USC sur la récupération binaire de la continence urinaire d'un patient (capacité à contrôler volontairement la miction) 3 mois après la chirurgie (Méthodes). En considérant tous les échantillons vidéo (plusieurs par cas chirurgical) et en contrôlant la charge de travail du chirurgien et l'âge du patient, nous avons constaté que la récupération de la continence urinaire était de 1,31 × (rapport de cotes (OR), intervalle de confiance (IC) 1,08–1,58, P = 0,005) plus probable lorsque la conduite à l'aiguille était évaluée comme une compétence élevée que comme une faible compétence par le SAIS. Lors de l'agrégation des évaluations des compétences des échantillons vidéo dans un cas chirurgical, cette relation est encore renforcée (OR 1,89, IC 0,95–3,76, P = 0,071). Ces résultats préliminaires sont cohérents avec ceux basés sur les évaluations des compétences manuelles d'études récentes15,16.

Ce n'est qu'au cours de la dernière décennie environ qu'il a été démontré de manière empirique que l'activité chirurgicale peropératoire peut avoir une influence directe sur les résultats postopératoires des patients. Cependant, découvrir et agir sur cette relation pour améliorer les résultats est difficile lorsque les détails de l'activité chirurgicale peropératoire restent insaisissables. En combinant des technologies émergentes telles que l'IA avec des vidéos couramment collectées lors de chirurgies robotiques, nous pouvons commencer à décoder plusieurs éléments de l'activité chirurgicale peropératoire.

Nous avons montré que SAIS peut décoder les sous-phases chirurgicales, les gestes et les compétences, sur la base d'échantillons vidéo chirurgicaux, de manière fiable, objective et évolutive. Bien que nous ayons présenté le SAIS comme décodant ces éléments spécifiques dans les chirurgies robotiques, il peut être appliqué pour décoder tout autre élément de l'activité peropératoire à partir de différentes procédures chirurgicales. Le décodage d'éléments supplémentaires de la chirurgie nécessitera simplement la conservation d'un ensemble de données annoté avec l'élément chirurgical d'intérêt. Pour faciliter cela, nous publions notre code afin que d'autres puissent extraire des informations de leurs propres vidéos chirurgicales avec SAIS. En fait, SAIS et les méthodes que nous avons présentées dans cette étude s'appliquent à tout domaine dans lequel l'information peut être décodée sur la base d'indices visuels et de mouvement.

Par rapport aux études précédentes, notre étude offre des apports à la fois translationnels et méthodologiques. D'un point de vue translationnel, nous avons démontré la capacité de SAIS à généraliser à travers les vidéos, les chirurgiens, les procédures chirurgicales et les hôpitaux. Une telle découverte est susceptible d'inspirer aux chirurgiens une plus grande confiance dans la fiabilité du SAIS, et donc d'augmenter leur probabilité de l'adopter. Cela contraste avec les travaux antérieurs qui ont évalué les systèmes d'IA sur des vidéos capturées dans un environnement de laboratoire contrôlé ou dans un seul hôpital, démontrant ainsi des capacités de généralisation limitées.

D'un point de vue méthodologique, SAIS a beaucoup à offrir par rapport aux systèmes d'IA précédemment développés pour décoder l'activité chirurgicale. Premièrement, SAIS est unifié en ce qu'il est capable de décoder plusieurs éléments de l'activité chirurgicale peropératoire sans aucune modification de son architecture sous-jacente. En agissant comme une architecture de base fiable autour de laquelle les développements futurs sont réalisés, SAIS est susceptible de réduire la quantité de ressources et la charge cognitive associées au développement de systèmes d'IA pour décoder des éléments supplémentaires de l'activité chirurgicale. Cela contraste avec le statu quo dans lequel le processus fastidieux de développement de systèmes d'IA spécialisés doit être entrepris pour décoder un seul élément. Deuxièmement, SAIS fournit des résultats explicables en ce sens qu'il peut mettre en évidence l'importance relative des images vidéo individuelles dans la contribution au décodage. Une telle explicabilité, que nous étudions systématiquement dans une étude concurrente17, est essentielle pour gagner la confiance des chirurgiens et garantir le déploiement en toute sécurité des systèmes d'IA pour la prise de décision à enjeux élevés, comme la certification des chirurgiens basée sur les compétences. Cela contraste avec les systèmes d'IA précédents tels que MA-TCN12, qui ne sont capables que de mettre en évidence l'importance relative des modalités de données (par exemple, les images par rapport à la cinématique), et n'ont donc pas le niveau d'explicabilité plus fin du SAIS.

SAIS est également flexible dans la mesure où il peut accepter des échantillons vidéo avec un nombre arbitraire d'images vidéo en entrée, principalement en raison de son architecture de transformateur. Une telle flexibilité, qui est absente des modèles précédents couramment utilisés tels que les CNN 3D, confère des avantages à la formation, au réglage fin et à l'inférence. Pendant la formation, SAIS peut accepter un mini-lot de vidéos chacune avec un nombre différent d'images. Ceci peut être réalisé en remplissant les vidéos dans le mini-lot (avec des zéros) qui ont moins d'images, et en masquant de manière appropriée le mécanisme d'attention dans l'encodeur du transformateur (voir Détails d'implémentation et hyperparamètres dans Méthodes). Cela contraste avec les systèmes d'IA existants, qui doivent souvent être présentés avec un mini-lot de vidéos de taille égale. De même, lors d'un réglage fin ou d'une inférence, SAIS peut être présenté avec un nombre arbitraire d'images vidéo, élargissant ainsi le spectre de vidéos avec lesquelles il peut être présenté. Cela contraste avec les configurations existantes qui exploitent un CNN 3D qui a été pré-formé sur l'ensemble de données Kinetics18, où les échantillons vidéo doivent contenir 16 images ou des multiples de celles-ci6,13. Le respect de cette contrainte peut être sous-optimal pour la réalisation de certaines tâches, et s'en écarter implique l'incapacité de tirer parti des paramètres pré-formés qui se sont avérés essentiels au succès des méthodes précédentes. De plus, SAIS est architecturalement différent des modèles précédents en ce sens qu'il apprend des prototypes via un apprentissage contrastif supervisé pour décoder l'activité chirurgicale, une approche qui n'a pas encore été explorée avec des vidéos chirurgicales. De tels prototypes ouvrent la voie à de multiples applications en aval, de la détection d'échantillons vidéo hors distribution à l'identification de groupes d'activités peropératoires et à la récupération d'échantillons à partir d'une grande base de données chirurgicale19.

Nous avons également montré que le SAIS peut fournir des informations qui, autrement, n'auraient pas été facilement accessibles aux chirurgiens. Cela comprend les profils de gestes chirurgicaux et de compétences, qui reflètent la façon dont l'activité chirurgicale est exécutée par un chirurgien au fil du temps pour un seul cas chirurgical et dans différents cas. De telles capacités ouvrent la voie à de multiples applications en aval qui, autrement, auraient été difficiles à réaliser. Par exemple, d'un point de vue scientifique, nous pouvons désormais saisir la variabilité de l'activité chirurgicale dans le temps, les chirurgiens et les hôpitaux. D'un point de vue clinique, nous pouvons maintenant tester les hypothèses associant l'activité chirurgicale peropératoire aux résultats à long terme pour les patients. Cela rapproche la communauté médicale de l'identification, et éventuellement de la modulation, des facteurs de causalité responsables des mauvais résultats. Enfin, d'un point de vue pédagogique, nous pouvons désormais assurer un suivi et un retour d'expérience des chirurgiens sur leur technique opératoire. Ces commentaires peuvent aider les chirurgiens à maîtriser les compétences nécessaires et contribuer à l'amélioration des résultats pour les patients.

Il y a des défis importants que notre travail n'aborde pas encore. Premièrement, notre cadre, semblable à d'autres dans le domaine, se limite à décoder uniquement les éléments de l'activité chirurgicale qui ont été précédemment décrits dans certaines taxonomies (comme les gestes). En d'autres termes, il ne peut pas décoder ce qu'il ne sait pas. Bien que bon nombre de ces taxonomies aient été rigoureusement développées par des équipes de chirurgiens et grâce à l'expérience clinique, elles peuvent ne pas éclairer d'autres aspects complexes de l'activité chirurgicale. Ceci, à son tour, limite la mesure dans laquelle les systèmes automatisés peuvent découvrir une nouvelle activité qui dépasse le domaine du protocole existant. Une telle découverte peut donner un aperçu, par exemple, d'un comportement chirurgical optimal mais encore inconnu. Dans le même ordre d'idées, le SAIS est actuellement incapable de décoder de nouveaux éléments de l'activité chirurgicale au-delà de ceux qui lui ont été initialement présentés. Ces capacités d'apprentissage continu10 sont essentielles pour s'adapter à une taxonomie évolutive de l'activité chirurgicale au fil du temps.

Le but de la chirurgie est d'améliorer les résultats pour les patients. Cependant, la question reste ouverte de savoir si les éléments décodés de l'activité chirurgicale peropératoire : sous-phases, gestes et compétences, sont les facteurs les plus prédictifs des résultats postopératoires des patients. Bien que nous ayons présenté des preuves préliminaires dans ce sens pour le cas des compétences chirurgicales, des études à grande échelle sont nécessaires pour découvrir ces relations. Pour explorer davantage ces relations et informer de manière plus fiable la pratique chirurgicale future, nous encourageons la diffusion publique d'ensembles de données vidéo chirurgicales à grande échelle provenant de différents hôpitaux et spécialités chirurgicales. Équipés de ces vidéos et SAIS, les chercheurs peuvent commencer à décoder les différents éléments de la chirurgie à grande échelle.

À l'avenir, nous cherchons à déterminer si le SAIS a l'effet escompté sur les intervenants cliniques. Par exemple, nous visons à déployer SAIS dans un environnement de laboratoire contrôlé pour évaluer le niveau de compétence de l'activité effectuée par les étudiants en médecine et leur fournir une rétroaction basée sur ces évaluations. Cela donnera un aperçu pratique de l'utilité des évaluations des compétences basées sur l'IA et de sa perception par les stagiaires en chirurgie. Nous avons également l'intention d'explorer l'interdépendance des éléments de l'activité chirurgicale peropératoire (reconnaissance des sous-phases, classification des gestes et évaluation des compétences). Cela peut être réalisé, par exemple, en formant une variante multitâche de SAIS dans laquelle tous les éléments sont décodés simultanément à partir d'une vidéo. Dans un tel contexte, une interférence positive entre les tâches pourrait se traduire par un décodage encore plus fiable. Alternativement, SAIS peut être formé pour effectuer d'abord une reconnaissance de sous-phase (une tâche relativement facile) avant de transférer ses paramètres pour effectuer une évaluation des compétences (une tâche relativement plus difficile). Cela s'apparente à l'apprentissage curriculaire20, dans lequel un système d'IA est présenté avec des tâches de plus en plus difficiles au cours du processus d'apprentissage afin d'améliorer ses performances globales. Dans une étude simultanée21, nous cherchons également à savoir si le SAIS présente un biais algorithmique contre diverses sous-cohortes de chirurgiens22. Une telle analyse de biais est particulièrement critique si le SAIS doit être utilisé pour fournir un retour d'information aux chirurgiens. Par exemple, cela peut désavantager certaines sous-cohortes de chirurgiens (comme les novices ayant peu d'expérience) et ainsi affecter leur capacité à se développer professionnellement.

Tous les ensembles de données (données de l'USC, SAH et HMH) ont été recueillis sous l'approbation du comité d'examen institutionnel dans lequel le consentement éclairé a été obtenu (HS-17-00113). Ces ensembles de données ont été anonymisés avant le développement du modèle.

Des travaux antérieurs ont utilisé des méthodes informatiques, telles que l'IA, pour décoder la chirurgie23,24. Une ligne de recherche s'est concentrée sur l'exploitation de données de capteurs dérivées de robots, telles que le déplacement et la vitesse des bras robotiques (cinématique), pour prédire les résultats cliniques25,26,27,28. Par exemple, les chercheurs ont utilisé des mesures de performance automatisées pour prédire la durée du séjour postopératoire d'un patient dans un hôpital26. Un autre axe de recherche s'est plutôt concentré sur l'exploitation exclusive des vidéos chirurgicales en direct des caméras endoscopiques pour classer l'activité chirurgicale4,29, les gestes5,30,31,32,33 et les compétences6,7,13,34,35, entre autres tâches36,37. Pour plus d'informations sur des études supplémentaires, nous renvoyons les lecteurs à une revue récente9. Plus récemment, des réseaux de neurones basés sur l'attention tels que les transformateurs38 ont été utilisés pour distinguer les étapes chirurgicales distinctes au sein d'une procédure39,40,41,42.

Les travaux antérieurs divisent souvent leurs données d'une manière qui présente un potentiel de « fuite » d'informations entre les ensembles d'apprentissage et de test. Par exemple, on pense que la configuration d'évaluation couramment adoptée "un seul utilisateur" sur l'ensemble de données JIGSAWS11 est rigoureuse. Bien qu'elle donne un aperçu de la généralisabilité d'un modèle à une vidéo d'un participant invisible, cette configuration implique de rapporter un score de validation croisée, qui est souvent directement optimisé par les méthodes précédentes (par exemple, via le réglage d'hyperparamètres), produisant ainsi un trop optimiste estimation des performances. Comme autre exemple, considérons la répartition des données utilisée pour l'ensemble de données CholecT5043. Ici, il y a peu d'informations permettant de savoir si les vidéos des ensembles d'entraînement et de test appartiennent au même chirurgien. Enfin, le dernier jeu de données DVC UCL12 se compose de 36 vidéos accessibles au public pour la formation et de 9 vidéos privées pour les tests. Après inspection manuelle, nous avons constaté que ces neuf vidéos proviennent de six chirurgiens dont les données sont également dans l'ensemble de formation. Il s'agit d'un exemple concret de fuite de données sur les chirurgiens et, à ce titre, nous mettons en garde contre l'utilisation de ces ensembles de données à des fins d'analyse comparative. Il est donc essentiel d'évaluer plus rigoureusement les performances du SAIS, et en fonction de la manière dont il est susceptible d'être déployé en milieu clinique.

Nous nous sommes concentrés sur des vidéos chirurgicales illustrant deux types d'activités chirurgicales couramment effectuées dans presque toutes les chirurgies : la dissection des tissus et la suture, que nous décrivons ensuite en détail.

La dissection des tissus est une activité fondamentale dans presque toutes les interventions chirurgicales et consiste à séparer des morceaux de tissu les uns des autres. Par exemple, la procédure chirurgicale RARP, où une glande prostatique cancéreuse est retirée du corps d'un patient, implique plusieurs étapes de dissection tissulaire, dont l'une est appelée épargne nerveuse, ou NS. Le SN implique la préservation du faisceau neurovasculaire, un maillage de système vasculaire et de nerfs à gauche et à droite de la prostate, et est essentiel pour la récupération postopératoire d'un patient de la fonction érectile pour les rapports sexuels. De plus, une intervention chirurgicale RAPN, où une partie d'un rein cancéreux est retirée du corps d'un patient, implique une étape de dissection appelée dissection hilaire, ou HD. La HD consiste à enlever le tissu conjonctif autour de l'artère et de la veine rénales pour contrôler tout saignement potentiel de ces vaisseaux sanguins.

Ces étapes de dissection (NS et HD), bien que spécifiques à la procédure (RARP et RAPN), sont réalisées par un chirurgien à travers un vocabulaire commun de gestes discrets de dissection. Dans nos travaux précédents, nous avons développé une taxonomie44 nous permettant d'annoter toute étape de dissection tissulaire avec une séquence de gestes de dissection discrets dans le temps.

La suture est également un élément fondamental de la chirurgie45 et consiste à rassembler les tissus. Par exemple, la procédure RARP implique une étape de suture appelée anastomose vésico-urétrale, ou VUA. La VUA fait suite à l'ablation de la prostate cancéreuse et consiste à relier, par des points de suture, le col de la vessie (une structure sphérique) à l'urètre (une structure cylindrique), et est essentielle pour un écoulement normal postopératoire de l'urine. L'étape VUA consiste généralement en une moyenne de 24 points de suture où chaque point peut être réalisé par un chirurgien à travers un vocabulaire commun de gestes de suture. Dans nos travaux précédents, nous avons développé une taxonomie5 nous permettant d'annoter toute activité de suture par une séquence de gestes de suture discrets. Notons que les gestes de suture sont différents et plus subtils que les gestes de dissection.

Chaque point peut également être déconstruit en trois sous-phases récurrentes de (1) manipulation de l'aiguille, où l'aiguille est tenue en préparation pour le point, (2) enfoncement de l'aiguille, où l'aiguille est entraînée à travers les tissus (tels que l'urètre), et (3) retrait de l'aiguille, où l'aiguille est retirée du tissu pour terminer un seul point. Les sous-phases de manipulation et d'enfoncement de l'aiguille peuvent également être évaluées sur la base du niveau de compétence avec lequel elles sont exécutées. Dans nos travaux précédents, nous avons développé une taxonomie46 nous permettant d'annoter toute sous-phase de suture avec un niveau de compétence binaire (faible compétence versus forte compétence).

Nous avons collecté des vidéos d'interventions chirurgicales robotisées complètes dans trois hôpitaux : USC, SAH et HMH. Chaque vidéo de la procédure RARP, par exemple, était de l'ordre de 2 h. Un boursier en médecine (RM) a identifié manuellement l'étape de dissection des tissus NS et l'étape de suture des tissus VUA dans chaque vidéo RARP. Nous décrivons le nombre total de vidéos et d'échantillons vidéo de chaque hôpital dans le tableau 1. Nous décrivons ensuite comment ces étapes ont été annotées avec des sous-phases chirurgicales, des gestes et des niveaux de compétence.

Il est important de noter que les évaluateurs humains ont subi une phase de formation au cours de laquelle ils ont été invités à annoter le même ensemble de vidéos chirurgicales, permettant le calcul de la fiabilité inter-évaluateurs (entre 0 et 1) de leurs annotations. Dès que cette fiabilité dépassait 0,8, nous considérions la phase d'apprentissage comme terminée47.

Chaque vidéo de l'étape de dissection NS (de l'ordre de 20 min) a été annotée rétrospectivement par une équipe d'évaluateurs humains formés (RM, TH et autres) avec des gestes de dissection tissulaire. Cette annotation a suivi les directives strictes de notre taxonomie précédemment développée des gestes de dissection44. Nous nous sommes concentrés sur les six gestes de dissection les plus couramment utilisés : coupe à froid (c), crochet (h), clip (k), mouvement de caméra (m), pelage (p) et rétraction (r). Plus précisément, lors de l'observation d'un geste, un évaluateur humain a enregistré l'heure de début et l'heure de fin de son exécution par le chirurgien. Par conséquent, chaque étape NS a abouti à une séquence de n ≈ 400 échantillons vidéo de gestes (de six catégories distinctes) avec chaque échantillon vidéo d'une durée de l'ordre de 0 à 10 s. De plus, chaque échantillon vidéo correspond à un et un seul geste. La même stratégie a été suivie pour annoter l'étape de suture VUA avec des gestes de suture. Cette annotation a suivi les directives strictes de notre taxonomie précédemment développée des gestes de suture5. Nous nous sommes concentrés sur les quatre gestes de suture les plus couramment utilisés : coup droit sous (R1), coup droit dessus (R2), coup droit gauche sous (L1) et coup droit combiné sur (C1).

Chaque vidéo de l'étape de suture VUA (de l'ordre de 20 min) a été annotée rétrospectivement par une équipe d'évaluateurs humains formés (DK, TH et autres) avec des sous-phases et des compétences chirurgicales. Cette annotation a suivi les directives strictes de notre taxonomie précédemment développée appelée évaluation de bout en bout de l'expertise en suture ou EASE46. L'étape VUA étant une étape reconstructrice dans laquelle la vessie et l'urètre sont réunis, elle nécessite souvent une série de points de suture (de l'ordre de 24 points : 12 côté vessie et 12 autres côté urètre).

Avec un seul point composé des trois sous-phases de manipulation de l'aiguille, d'enfoncement de l'aiguille et de retrait de l'aiguille (toujours dans cet ordre), un évaluateur humain identifierait d'abord l'heure de début et l'heure de fin de chacune de ces sous-phases. Par conséquent, chaque étape VUA peut avoir n = 24 échantillons vidéo des sous-phases de manipulation de l'aiguille, de conduite de l'aiguille et de retrait de l'aiguille avec chaque échantillon vidéo de l'ordre de 10 à 30 s. La distribution de la durée de ces échantillons vidéo est fournie dans la note complémentaire 2.

Les évaluateurs humains ont également été invités à annoter la qualité de l'activité de manipulation ou de conduite d'aiguilles (0 pour une faible compétence et 1 pour une compétence élevée). Pour la manipulation de l'aiguille, une évaluation de haute compétence est basée sur le nombre de fois que le chirurgien doit repositionner sa prise sur l'aiguille en vue de l'enfoncer dans les tissus (moins il y en a, mieux c'est). Pour l'entraînement de l'aiguille, une évaluation de haute compétence est basée sur la douceur et le nombre d'ajustements nécessaires pour enfoncer l'aiguille à travers le tissu (plus il y a d'ajustements doux et moins nombreux, mieux c'est). Étant donné que chaque échantillon vidéo a été attribué à plusieurs évaluateurs, il comportait plusieurs étiquettes d'évaluation des compétences. En cas de désaccords potentiels dans les annotations, nous avons considéré le score le plus bas (le pire). Notre motivation à le faire était basée sur l'hypothèse que si un évaluateur humain pénalisait la qualité de l'activité du chirurgien, cela devait être dû à l'un des critères objectifs définis dans le système de notation, et était donc sous-optimal. Nous avons, à notre tour, voulu capturer et coder ce comportement sous-optimal.

Dans toutes les expériences, nous avons entraîné SAIS sur un ensemble d'échantillons vidéo d'entraînement et l'avons évalué à l'aide de la validation croisée de Monte Carlo à dix niveaux, où l'ensemble de test de chaque pli consistait en des sous-phases de vidéos non vues pendant l'entraînement. Une telle approche contribue à notre objectif d'évaluation rigoureuse en nous permettant d'évaluer la capacité de SAIS à généraliser aux vidéos inédites (ci-après dénommées à travers les vidéos). Cette configuration est également plus difficile et représentative du déploiement dans le monde réel que celle dans laquelle un système d'IA se généralise à des échantillons invisibles dans la même vidéo. En tant que tel, nous avons adopté cette configuration d'évaluation pour toutes les expériences décrites dans cette étude, sauf indication contraire. Une ventilation détaillée du nombre d'échantillons vidéo utilisés pour la formation, la validation et les tests peut être trouvée dans la note complémentaire 1.

Pour toutes les expériences menées, sauf indication contraire, nous avons divisé les données au niveau de la vidéo de cas en un ensemble d'entraînement (90 %) et un ensemble de test (10 %). Nous avons utilisé 10 % des vidéos de l'ensemble de formation pour former un ensemble de validation avec lequel nous avons effectué un réglage des hyperparamètres. En divisant au niveau de la vidéo, de sorte que les données d'une même vidéo n'apparaissent pas dans les ensembles, nous évaluons rigoureusement si le modèle se généralise aux vidéos inédites. Notez que, bien qu'il soit possible que les données du même chirurgien apparaissent à la fois dans les ensembles de formation et de test, nous expérimentons également des configurations encore plus rigoureuses : dans les hôpitaux, où les vidéos proviennent d'hôpitaux et de chirurgiens entièrement différents, et dans les procédures chirurgicales. où les vidéos proviennent d'interventions chirurgicales entièrement différentes (telles que la néphrectomie par rapport à la prostatectomie). Bien qu'il existe différentes façons d'évaluer rigoureusement le SAIS, nous pensons que démontrer sa généralisabilité à travers les chirurgiens, les hôpitaux et les procédures chirurgicales, comme nous l'avons fait, est un pas dans la bonne direction. Nous rapportons les performances des modèles sous forme de moyenne, avec un écart type, à travers les plis.

Pour capturer à la fois les signaux visuels et de mouvement dans les vidéos chirurgicales, SAIS a utilisé deux modalités distinctes : les vidéos chirurgicales en direct sous la forme d'images RVB et le flux optique correspondant de ces images. Les vidéos chirurgicales peuvent être enregistrées à différents taux d'échantillonnage, qui ont les unités d'images par seconde (fps).

La connaissance du taux d'échantillonnage ainsi que du taux naturel avec lequel l'activité se produit dans un contexte chirurgical est essentielle pour de multiples décisions. Ceux-ci peuvent aller du nombre d'images à présenter à un réseau d'apprentissage en profondeur, et du taux approprié avec lequel sous-échantillonner les vidéos, à la taille de l'étape temporelle utilisée pour dériver les cartes de flux optiques, comme indiqué ci-dessous. Inclure trop d'images où il y a très peu de changement dans la scène visuelle entraîne une charge de calcul et peut entraîner un surajustement en raison de l'inclusion d'images très similaires (faible diversité visuelle). D'un autre côté, l'inclusion de trop peu d'images peut entraîner le manque d'informations visuelles pertinentes pour la tâche à accomplir. De même, la dérivation de cartes de flux optiques raisonnables, qui est une fonction d'une paire d'images qui sont espacées dans le temps, dépend du temps qui s'est écoulé entre ces images. Une durée trop courte pourrait entraîner un mouvement minimal dans la scène visuelle, entraînant ainsi des cartes de flux optiques non informatives. De manière analogue, une durée trop longue pourrait signifier manquer un mouvement intermédiaire informatif dans la scène visuelle. Nous appelons ces décisions des hyperparamètres (voir la section Détails d'implémentation et hyperparamètres dans Méthodes). Tout au long de cet article, nous avons dérivé des cartes de flux optiques en déployant un modèle RAFT48, qui nous a semblé fournir des cartes raisonnables.

Notre système d'IA, SAIS, est basé sur la vision et unifié (Fig. 5). Il est basé sur la vision car il fonctionne exclusivement sur des vidéos chirurgicales collectées régulièrement dans le cadre d'interventions chirurgicales robotisées. Il est unifié car la même architecture, sans aucune modification, peut être utilisée pour décoder plusieurs éléments de l'activité chirurgicale peropératoire (Fig. 1b). Nous décrivons les avantages d'un tel système dans Discussion.

Nous extrayons une séquence de représentations D-dimensionnelles, \(\left\{ {v_t \in {\Bbb R}^D} \right\}_{t = 1}^T\), à partir de T cadres temporellement ordonnés via un transformateur de vision (gelé) (ViT) pré-formé sur l'ensemble de données ImageNet de manière auto-supervisée49. En bref, cette configuration de pré-formation, intitulée DINO, consistait à optimiser une fonction objective contrastive dans laquelle les représentations d'une même image, augmentées de différentes manières (telles que le recadrage aléatoire), sont encouragées à être similaires les unes aux autres. Pour plus de détails, veuillez vous référer à l'article original50.

Les ViT convertissent chaque image d'entrée en un ensemble de patchs d'image carrés de dimension H × H et introduisent un mécanisme d'auto-attention qui tente de capturer la relation entre les patchs d'image (c'est-à-dire les informations spatiales). Nous avons constaté que cette attention spatiale capte les pointes des instruments, les aiguilles et les bords anatomiques (Fig. 6). Nous avons choisi cet extracteur de caractéristiques sur la base (a) de preuves récentes favorisant les modèles pré-entraînés auto-supervisés par rapport à leurs homologues supervisés et (b) du désir de réduire la charge de calcul associée à la formation d'un extracteur de caractéristiques dans une solution de bout en bout. manière finale.

Nous présentons deux exemples de trames vidéo RVB de l'activité de manipulation d'aiguilles et l'attention spatiale correspondante placée par ViT sur des patchs de ces trames.

Nous ajoutons une classification D-dimensionnelle apprenable intégrant, \(e_{{{{\mathrm{cls}}}}} \in {\Bbb R}^D\), au début de la séquence de représentations de cadre, \( \left\{ {v_t} \right\}_{t = 1}^T\). Pour capturer l'ordre temporel des cadres des images, nous ajoutons des plongements positionnels temporels de dimension D, \(\left\{ {e_t \in {\Bbb R}^D} \right\}_{t = 1}^ T\), à la séquence de représentations de trame avant d'entrer la séquence dans quatre couches d'encodeur Transformer. Un tel encodeur a un mécanisme d'auto-attention par lequel chaque trame s'occupe de toutes les autres trames de la séquence. Ainsi, les dépendances à court et à long terme entre les trames sont capturées. Nous résumons la vidéo spécifique à la modalité à travers une représentation vidéo spécifique à la modalité, \(h_{{{{\mathrm{cls}}}}} \in {\Bbb R}^D\), de l'incorporation de classification, ecls, à la couche finale de l'encodeur Transformer, comme cela se fait généralement. Ce processus est répété pour le flux de modalité de flux optique.

Les deux représentations vidéo spécifiques à la modalité, hRGB et hFlow, sont agrégées comme suit :

La représentation agrégée, hagg, est passée à travers deux têtes de projection, sous forme de couches linéaires avec une fonction d'activation non linéaire (ReLU), pour obtenir une représentation vidéo de dimension E, \(h_{{{{\mathrm{Video }}}}} \in {\Bbb R}^E\).

Pour accomplir la tâche qui nous intéresse, la représentation spécifique à la vidéo, hVideo, subit une série d'attractions et de répulsions avec des incorporations apprenables, que nous appelons des prototypes. Chaque prototype, p, reflète une seule catégorie d'intérêt et est de la même dimensionnalité que hVideo. La représentation, \(h_{{{{\mathrm{Video}}}}} \in {\Bbb R}^E\), d'une vidéo d'une catégorie particulière, c, est attirée par le prototype unique, \( p_{{{\mathrm{c}}}} \in {\Bbb R}^E\), associé à la même catégorie, et repoussé de tous les autres prototypes, \(\left\{ {p_j} \right\} _{j = 1}^C,j \ne c\), où C est le nombre total de catégories. Nous y parvenons en tirant parti de l'apprentissage contrastif et en minimisant la perte d'InfoNCE, \({{{\mathcal{L}}}}_{{{{\mathrm{NCE}}}}}\) :

Pendant la formation, nous partageons les paramètres de l'encodeur Transformer entre les modalités pour éviter le sur-ajustement. Ainsi, nous apprenons de bout en bout les paramètres de l'encodeur Transformer, l'encastrement des jetons de classification, les encastrements positionnels temporels, les paramètres de la tête de projection et les prototypes spécifiques à la catégorie.

Pour classer un échantillon vidéo dans l'une des catégories, nous calculons la similarité (c'est-à-dire la similarité en cosinus) entre la représentation vidéo, hVideo, et chacun des prototypes, \(\left\{ {p_j} \right\}_{ j = 1}^C\). Nous appliquons la fonction softmax à ces valeurs de similarité afin d'obtenir une fonction de masse de probabilité sur les catégories. En identifiant la catégorie avec la masse de probabilité la plus élevée (argmax), nous pouvons faire une classification.

La représentation vidéo, hVideo, peut dépendre du choix des images (à la fois RVB et flux optique) qui sont initialement entrées dans le modèle. Par conséquent, pour tenir compte de cette dépendance et éviter de manquer des trames potentiellement informatives lors de l'inférence, nous déployons ce que l'on appelle l'augmentation du temps de test (TTA). Cela implique d'augmenter la même entrée plusieurs fois pendant l'inférence, ce qui, à son tour, génère plusieurs fonctions de masse de probabilité. Nous pouvons alors faire la moyenne de ces fonctions de masse de probabilité, analogues à un modèle d'ensemble, pour faire une classification unique. Dans notre contexte, nous avons utilisé trois entrées de temps de test ; l'ensemble d'images d'origine à une fréquence d'échantillonnage fixe, et celles perturbées par le décalage de l'image de départ de K images à la même fréquence d'échantillonnage. Cela garantit qu'il y a un chevauchement minimal d'images sur les entrées augmentées, capturant ainsi différentes informations, tout en continuant à couvrir les aspects les plus pertinents de la vidéo.

Pendant la formation et l'inférence, nous utilisons l'heure de début et l'heure de fin de chaque échantillon vidéo pour guider la sélection des images vidéo de cet échantillon. Pour la classification des gestes, nous sélectionnons dix images équidistantes à partir de l'échantillon vidéo. Par exemple, pour un échantillon vidéo avec une fréquence d'images de 30 Hz et qui dure 3 s, alors à partir des 30 × 3 = 90 images d'origine, nous ne récupérerions que les images ∈ [0, 9, 18, …]. En revanche, pour la reconnaissance des sous-phases et l'évaluation des compétences, nous sélectionnons un cadre sur deux. Par exemple, pour le même échantillon vidéo ci-dessus, nous ne récupérerions que les images ∈ [0, 10, 20,…]. Nous avons constaté que ces stratégies aboutissaient à un bon compromis entre la complexité de calcul et la capture de signaux suffisamment informatifs dans la vidéo pour accomplir la tâche. De même, les cartes de flux optiques étaient basées sur des paires d'images distantes de 0,5 s. Des durées plus courtes ont donné des images qui présentaient un mouvement minimal et donc des cartes de flux non informatives. Au cours de la formation, pour s'assurer que les cartes RVB et de flux optique étaient associées au même laps de temps, nous avons récupéré des cartes qui se chevauchaient dans le temps avec les trames RVB. Pendant l'inférence, et pour TTA, nous décalons à la fois les trames RVB et de flux optique de K = 3 et K = 6 trames.

Nous menons nos expériences dans PyTorch51 en utilisant un GPU V100 sur une machine DGX. Chaque image RVB et carte de flux optique a été redimensionnée à 224 × 224 (de 960 × 540 à USC et SAH et 1 920 × 1 080 à SAH) avant d'être entrée dans l'extracteur de caractéristiques ViT. L'extracteur de caractéristiques ViT a prétraité chaque image en un ensemble de patchs carrés de dimension H = 16 et a généré une représentation d'image de dimension D = 384. Toutes les représentations vidéo et les prototypes sont de dimension E = 256. En pratique, nous avons gelé les paramètres du ViT, extrait toutes ces représentations hors ligne (c'est-à-dire avant la formation) et les stocke sous forme de fichiers h5py. Nous avons suivi la même stratégie pour extraire les représentations des cartes de flux optiques. Cela a considérablement réduit le goulot d'étranglement typique associé au chargement des vidéos et a rationalisé notre processus de formation et d'inférence. Cela facilite également l'inférence effectuée sur les futures vidéos. Une fois qu'une nouvelle vidéo est enregistrée, ses fonctionnalités peuvent être immédiatement extraites hors ligne et stockées pour une utilisation future.

Sauf indication contraire, nous avons formé SAIS en utilisant une taille de mini-lot de huit échantillons vidéo et un taux d'apprentissage de 1e-1, et nous avons optimisé ses paramètres via une descente de gradient stochastique. Les échantillons de mini-lots doivent souvent avoir la même dimensionnalité (B × T × D) où B est la taille du lot, T est le nombre d'images et D est la dimension de la représentation stockée. Par conséquent, lorsque nous avons rencontré des échantillons vidéo dans le même mini-lot avec un nombre différent d'images temporelles (comme T = 10 contre T = 11), nous avons d'abord ajouté des représentations d'espace réservé (tenseurs remplis de zéros) à la fin de la vidéo plus courte. échantillons. Cela garantissait que tous les échantillons vidéo du mini-lot avaient la même dimension. Pour éviter d'incorporer ces représentations rembourrées dans le traitement en aval, nous avons utilisé une matrice de masquage (matrice avec des entrées binaires) indiquant à quelles représentations le mécanisme d'attention doit s'intéresser. Il est important de noter que les représentations rembourrées ne sont pas prises en compte lors d'un passage vers l'avant via SAIS.

Nous avons formé plusieurs variantes de SAIS pour identifier la contribution de chacun de ses composants sur la performance globale. Plus précisément, les variantes du modèle sont formées à l'aide de SAIS (ligne de base), évaluées sans augmentation du temps de test (« sans TTA ») et exposées uniquement au flux optique (« sans RVB ») ou aux trames RVB (« sans flux ») comme entrées. Nous avons également supprimé le mécanisme d'auto-attention qui capturait la relation entre et l'ordre temporel des cadres ("sans SA"). Dans ce cadre, nous avons simplement fait la moyenne des caractéristiques du cadre. Bien que nous présentions la VPP dans Résultats, nous sommes arrivés à des résultats similaires en utilisant d'autres mesures d'évaluation.

Après avoir formé et évalué un modèle sur des échantillons vidéo (de l'ordre de 10 à 30 s), nous l'avons déployé sur des vidéos entières (de l'ordre de 10 à 30 min) pour décoder un élément de l'activité chirurgicale sans supervision humaine. Nous appelons ce processus l'inférence. Comme nous le décrivons ensuite, une mise en œuvre appropriée de l'inférence dépend souvent de l'élément de l'activité chirurgicale décodé.

Les échantillons vidéo utilisés pour la formation et l'évaluation du SAIS pour décoder les trois sous-phases de suture de la manipulation de l'aiguille, de la conduite de l'aiguille et du retrait de l'aiguille ont duré en moyenne 10 à 30 s (Note complémentaire 2). Cela a guidé nos choix de conception pour l'inférence.

Lors de l'inférence, nous avons adopté deux approches complémentaires, décrites ci-après. Approche 1 : nous avons présenté au SAIS des échantillons vidéo de 10 s à partir d'une vidéo VUA entière avec des chevauchements de 5 s entre les échantillons vidéo suivants, ces derniers garantissant que nous capturons l'activité des limites. En tant que tel, chaque échantillon vidéo de 10 s était associé à une seule sortie probabiliste, {sNH, sND, sNW}, reflétant la probabilité, s, de manipulation d'aiguille (NH), de conduite d'aiguille (ND) et de retrait d'aiguille (NW). Approche 2 : nous avons présenté SAIS avec des échantillons vidéo sans chevauchement de 5 s à partir de la même vidéo. La motivation pour choisir un échantillon vidéo plus court est de capturer une brève sous-phase qui, autrement, se serait transformée en une autre sous-phase lors de l'utilisation d'un échantillon vidéo plus long. Ainsi, chaque échantillon vidéo de 5 s était associé à une seule sortie probabiliste. Notez que nous avons suivi la même approche pour sélectionner les images de chaque échantillon vidéo que lors de la configuration initiale de la formation et de l'évaluation (voir Détails de la mise en œuvre et hyperparamètres).

À titre d'exemple de ces approches, le premier échantillon vidéo présenté au SAIS dans l'approche 1 s'étend sur 0 à 10 s, tandis que les deux premiers échantillons vidéo présentés au SAIS dans l'approche 2 s'étendent sur 0 à 5 s et 5 à 10 s, respectivement. Lorsque l'on considère les deux approches, la période de 0 à 10 s est donc associée à trois sorties probabilistes uniques (comme toutes les autres périodes de 10 s).

Rappelons que nous avons formé SAIS à l'aide d'une validation croisée de Monte Carlo à dix niveaux, ce qui a donné dix modèles uniques. Pour augmenter notre confiance dans le processus d'inférence, nous avons effectué l'inférence en suivant les deux approches susmentionnées avec chacun des dix modèles. En tant que tel, chaque période de 10 s était associée à 3 sorties probabilistes (P) × 10 fois (F) × 3 TTA = 90 sorties probabilistes au total. Comme pour les modèles d'ensemble, nous avons ensuite moyenné ces sorties probabilistes (alias bagging) pour obtenir une sortie probabiliste unique,\(\left\{ {\overline s _{{\mathrm{NH}}},\overline s _{ {\ mathrm {ND}}}, \ overline s _ {{\ mathrm {NW}}}} \ right \} \), où la jème valeur de probabilité pour j ∈ [1, C] (C catégories) est obtenue comme suit :

En plus des modèles d'ensemble qui surpassent souvent leurs homologues à modèle unique, ils peuvent également fournir une estimation de l'incertitude sur une classification. Une telle quantification de l'incertitude peut être utile pour identifier des échantillons vidéo hors distribution52 tels que ceux que le modèle n'a jamais vus auparavant ou pour mettre en évidence des échantillons vidéo où la classification est ambiguë et donc potentiellement inexacte. Pour quantifier l'incertitude, nous nous sommes inspirés de travaux récents53 et avons calculé l'entropie, S, de la sortie probabiliste résultante après l'ensachage. Avec une entropie élevée impliquant une incertitude élevée, nous pouvons choisir de ne pas considérer les classifications dont l'entropie dépasse un certain seuil, Stresh :

Une fois que nous avons filtré les prédictions qui sont incertaines (c'est-à-dire qui présentent une entropie élevée), nous nous sommes retrouvés avec des prédictions individuelles pour chaque sous-phase couvrant au plus 10 s (en raison de la façon dont nous avons précédemment identifié les échantillons vidéo). Cependant, nous savons par observation que certaines sous-phases peuvent durer plus de 10 s (Note complémentaire 2). Pour tenir compte de cela, nous avons agrégé les prédictions de sous-phase qui étaient proches les unes des autres au fil du temps. Plus précisément, nous avons regroupé plusieurs prédictions de la même sous-phase en une seule prédiction si elles étaient distantes de moins de 3 s, enchaînant ainsi les prédictions. Bien que cette valeur soit susceptible de dépendre d'autres choix dans le processus d'inférence, nous avons constaté qu'elle produisait des résultats raisonnables.

Les échantillons vidéo utilisés pour la formation et l'évaluation du SAIS pour décoder les six gestes de dissection ont duré, en moyenne, 1 à 5 s. Cela a également guidé nos choix de conception pour l'inférence.

Lors de l'inférence, nous avons trouvé suffisant d'adopter une seule des deux approches d'inférence décrites précédemment (inférence pour la reconnaissance de sous-phase). Plus précisément, nous avons présenté au SAIS des échantillons vidéo sans chevauchement d'une seconde d'une vidéo NS entière. Ainsi, chaque échantillon vidéo de 1 s était associé à une seule sortie probabiliste, \(\{ s_j\} _{j = 1}^6\) reflétant la probabilité, s, de chacun des six gestes.

Comme pour l'inférence pour la reconnaissance des sous-phases de suture, nous avons déployé les dix modèles SAIS (à partir des dix plis de Monte Carlo) et trois TTA sur les mêmes échantillons vidéo. En tant que tel, chaque échantillon vidéo de 1 s était associé à 10 × 3 = 30 sorties probabilistes. Celles-ci sont ensuite moyennées pour obtenir une seule sortie probabiliste, \(\{ \bar s_j\} _{j = 1}^6\).

Nous avons également exploité l'entropie des classifications gestuelles comme moyen de quantifier l'incertitude et donc de nous abstenir de faire des classifications gestuelles très incertaines. Nous avons trouvé que Stresh = 1,74 donnait des résultats raisonnables.

Pour tenir compte de l'observation selon laquelle les gestes peuvent s'étendre sur plusieurs secondes, nous avons agrégé les prédictions individuelles 1-s qui étaient proches les unes des autres au fil du temps. Plus précisément, nous avons regroupé plusieurs prédictions du même geste en une seule prédiction si elles étaient distantes de moins de 2 s. Par exemple, si un geste de rétraction (r) est prédit à des intervalles de 10 à 11 s, 11 à 12 s et 15 à 16 s, nous l'avons traité comme deux gestes de rétraction distincts. Le premier dure 2 s (10-12 s) tandis que le second dure 1 s (15-16 s). Cela nous évite de marquer des gestes parasites et incomplets (par exemple, le début ou la fin d'un geste) comme un geste entièrement distinct dans le temps. Notre intervalle de 2 secondes a introduit une certaine tolérance pour une éventuelle mauvaise classification entre les gestes du même type et a permis la continuité temporelle des gestes.

Nous avons formé SAIS sur deux ensembles de données accessibles au public : JIGSAWS11 et DVC UCL12. En bref, ces ensembles de données contiennent des échantillons vidéo d'individus effectuant des gestes de suture soit dans un environnement de laboratoire contrôlé, soit pendant l'étape du complexe vasculaire dorsal de la procédure chirurgicale RARP. Pour plus de détails sur ces ensembles de données, nous renvoyons les lecteurs aux publications respectives originales.

Nous avons suivi la configuration de validation croisée communément adoptée en laissant un utilisateur exclu11. Cela implique une formation sur des échantillons vidéo de tous les utilisateurs sauf un et une évaluation sur ceux de l'utilisateur restant. Ces détails peuvent être trouvés dans une revue récente9.

Cet ensemble de données, récemment publié dans le cadre de l'Endoscopic Vision Challenge 2022 au MICCAI, se compose de 45 vidéos d'un total de huit chirurgiens effectuant des gestes de suture lors de l'étape du complexe vasculaire dorsal de la procédure chirurgicale RARP12. L'ensemble de données accessible au public, au moment de la rédaction, est composé de 36 vidéos de ce type (tableau 1). Semblable aux ensembles de données privés que nous avons utilisés, chaque vidéo (de l'ordre de 2 à 3 minutes) est annotée avec une séquence de huit gestes de suture uniques ainsi que leur heure de début et leur heure de fin. Notez que ces annotations ne suivent pas la taxonomie que nous avons développée et sont donc distinctes de celles que nous avons décrites dans la section Échantillons vidéo chirurgicaux et annotations. La seule méthode précédente à évaluer sur cet ensemble de données le fait sur un ensemble de test privé. Comme cet ensemble de test n'est pas accessible au public, nous avons adopté une configuration sans sortie vidéo et avons signalé la performance de validation croisée décuplée de SAIS (tableau supplémentaire 3 pour le nombre d'échantillons vidéo dans chaque pli). Une telle configuration donne un aperçu de la capacité de SAIS à se généraliser aux vidéos inédites. De plus, à la lumière des quelques échantillons d'une des catégories de gestes (G5), nous n'avons distingué que sept des gestes. Pour faciliter la reproductibilité de nos résultats, nous publierons les répartitions exactes des données utilisées pour la formation et les tests.

Nous avons formé le modèle I3D pour décoder le niveau de compétence binaire de manipulation et de conduite d'aiguille sur la base d'échantillons vidéo de l'étape VUA. Pour une comparaison équitable, nous avons présenté le modèle I3D avec les mêmes données exactes autrement présentées à SAIS (notre modèle). Lors de la formation du modèle I3D, nous avons suivi la stratégie de base proposée dans la réf. 6. Par exemple, nous avons chargé les paramètres pré-formés sur le jeu de données Kinetics et gelé toutes les couches sauf les trois dernières (appelées Mixed5b, Mixed5c et logits).

Cependant, après avoir observé que le modèle I3D était assez sensible au choix des hyperparamètres, nous avons jugé nécessaire de mener un grand nombre d'expériences pour identifier la configuration optimale et les hyperparamètres pour décoder les compétences chirurgicales, dont les détails sont décrits ci-dessous. Tout d'abord, nous avons conservé la couche logits telle quelle, ce qui a donné une représentation à 400 dimensions, et l'avons suivie d'une tête de classification non linéaire pour générer la probabilité, par exemple, d'une activité hautement qualifiée. Nous avons également tiré parti des deux modalités de données (RVB et flux) qui, selon nous, amélioraient la mise en œuvre d'origine qui n'avait utilisé qu'une seule modalité. Plus précisément, nous avons ajouté les deux représentations à 400 dimensions (une pour chaque modalité) l'une à l'autre et passé la représentation résultante à travers la tête de classification susmentionnée. Avec l'I3D pré-formé attendant une entrée avec 16 images ou des multiples de celles-ci, nous lui avons fourni un échantillon vidéo composé de 16 images équidistantes entre l'heure de début et l'heure de fin de cet échantillon. Bien que nous ayons également expérimenté un nombre différent d'images, nous avons constaté que cela produisait des résultats sous-optimaux. Pour former I3D, nous avons utilisé une taille de lot de 16 échantillons vidéo et un taux d'apprentissage de 1e−3.

Pour déterminer si les évaluations des compétences du SAIS sont associées aux résultats des patients, nous avons mené une expérience avec deux variantes. Nous avons d'abord déployé SAIS sur l'ensemble de test d'échantillons vidéo dans chaque pli de la configuration de validation croisée de Monte Carlo. Cela a abouti à une sortie, Z1 ∈ [0, 1], pour chaque échantillon vidéo reflétant la probabilité d'une évaluation de haute compétence. Dans la première variante de cette expérience, nous avons attribué à chaque échantillon vidéo, lié à un cas chirurgical, un résultat de récupération de la continence urinaire (3 mois après la chirurgie), Y. Pour tenir compte du fait qu'un seul résultat, Y, est lié à un cas chirurgical entier, dans la deuxième variante de cette expérience, nous avons fait la moyenne des sorties, Z, pour tous les échantillons vidéo dans le même cas chirurgical. Ceci, naturellement, a réduit le nombre total d'échantillons disponibles.

Dans les deux expériences, nous avons contrôlé le nombre total de chirurgies robotiques effectuées par le chirurgien (nombre de cas, Z2) et l'âge du patient opéré (Z3), et avons régressé les sorties probabilistes du SAIS au résultat de récupération de la continence urinaire à l'aide d'un modèle de régression logistique (SPSS), comme indiqué ci-dessous (σ est la fonction sigmoïde). Après avoir entraîné ce modèle, nous avons extrait le coefficient, b1, et rapporté le rapport de cotes (OR) et l'intervalle de confiance (IC) à 95 %.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

Les données à l'appui des résultats de cette étude impliquent des données sur les chirurgiens et les patients. Ainsi, bien que les données de SAH et HMH ne soient pas accessibles au public, des données anonymisées d'USC peuvent être mises à disposition sur demande raisonnable des auteurs.

Le code est disponible sur https://github.com/danikiyasseh/SAIS.

Weiser, TG et al. Une estimation du volume global de chirurgie : une stratégie de modélisation basée sur les données disponibles. Lancette 372, 139–144 (2008).

Article PubMed Google Scholar

Sheetz, KH, Claflin, J. & Dimick, JB Tendances dans l'adoption de la chirurgie robotique pour les interventions chirurgicales courantes. Réseau JAMA. Ouvrez 3, e1918911–e1918911 (2020).

Article PubMed PubMed Central Google Scholar

Birkmeyer, JD et al. Compétence chirurgicale et taux de complications après chirurgie bariatrique. N. Engl. J. Med. 369, 1434-1442 (2013).

Article CAS PubMed Google Scholar

Zia, A., Hung, A., Essa, I. & Jarc, A. Reconnaissance de l'activité chirurgicale dans la prostatectomie radicale assistée par robot utilisant l'apprentissage en profondeur. Dans Conférence internationale sur l'informatique médicale et l'intervention assistée par ordinateur, 273-280 (Springer, 2018).

Luongo, F., Hakim, R., Nguyen, JH, Anandkumar, A. & Hung, AJ Vision par ordinateur basée sur l'apprentissage profond pour reconnaître et classer les gestes de suture en chirurgie assistée par robot. Chirurgie 169, 1240–1244 (2021).

Article PubMed Google Scholar

Funke, I. et al. Utilisation des réseaux de neurones convolutifs 3D pour apprendre les caractéristiques spatio-temporelles pour la reconnaissance automatique des gestes chirurgicaux en vidéo. Dans Conférence internationale sur l'informatique médicale et l'intervention assistée par ordinateur 467–475 (Springer, 2019); https://doi.org/10.1007/978-3-030-32254-0_52

Lavanchy, JL et al. Automatisation de l'évaluation des compétences chirurgicales à l'aide d'un algorithme d'apprentissage automatique en trois étapes. Sci. Rép. 11, 1–9 (2021).

Google Scholar

Goodman, ED et al. Un modèle d'IA spatio-temporel en temps réel analyse les compétences dans les vidéos chirurgicales ouvertes. Préimpression sur arXiv https://arxiv.org/abs/2112.07219 (2021).

van Amsterdam, B., Clarkson, M. & Stoyanov, D. Reconnaissance des gestes en chirurgie robotique : une revue. IEEE Trans. Biomédical. Ing. 68, 2021-2035 (2021).

Kiyasseh, D., Zhu, T. & Clifton, D. Un cadre d'apprentissage clinique en profondeur pour apprendre continuellement des signaux cardiaques à travers les maladies, le temps, les modalités et les institutions. Nat. Commun. 12, 1–11 (2021).

Article Google Scholar

Gao, Y. et al. Ensemble de travail d'évaluation des gestes et des compétences JHU-ISI (JIGSAWS): un ensemble de données d'activité chirurgicale pour la modélisation du mouvement humain. Dans Actes de l'Atelier Modélisation et Suivi des Interventions Assistées par Ordinateur (M2CAI)—MICCAI, Vol. 3 (CIRL, Université Johns Hopkins, 2014).

Van Amsterdam, B. et al. Reconnaissance des gestes en chirurgie robotique avec attention multimodale. IEEE Trans. Méd. Imagerie 41, 1677–1687 (2022).

Kitaguchi, D. et al. Développement et validation d'un réseau neuronal convolutif tridimensionnel pour l'évaluation automatique des compétences chirurgicales basée sur l'analyse vidéo spatio-temporelle. Réseau JAMA. Ouvert 4, e2120786–e2120786 (2021).

Article PubMed PubMed Central Google Scholar

Ghassemi, M., Oakden-Rayner, L. & Beam, AL Le faux espoir des approches actuelles de l'intelligence artificielle explicable dans les soins de santé. Lancet chiffre. Santé 3, e745–e750 (2021).

Article CAS PubMed Google Scholar

Sanford, D. et al. Association des scores d'évaluation des compétences techniques de suture entre la simulation en réalité virtuelle et la chirurgie en direct. J.Endourol. 36, 1388-1394 (2022).

Trinh, L. et al. Analyse de la survie à l'aide de paramètres de compétence du chirurgien et de facteurs liés au patient pour prédire la récupération de la continence urinaire après une prostatectomie radicale assistée par robot. EUR. Urol. Se concentrer. 8, 623–630 (2022).

Article PubMed Google Scholar

Kiyasseh D. et al. Une étude multi-institutionnelle utilisant l'intelligence artificielle pour fournir un retour d'information fiable et juste aux chirurgiens. Commun. Méd. https://doi.org/10.1038/s43856-023-00263-3 (2023).

Carreira, J. & Zisserman, A. Quo vadis, reconnaissance d'action ? Un nouveau modèle et le jeu de données cinétiques. Dans Actes de la conférence IEEE Computer Society sur la vision par ordinateur et la reconnaissance de formes, 6299–6308 (IEEE, 2017).

Kiyasseh, D., Zhu, T. & Clifton, D. CROCS : regroupement et récupération des signaux cardiaques en fonction de la classe de maladie, du sexe et de l'âge du patient. Adv. Information neuronale. Processus. Syst. 34, 15557–15569 (2021).

Google Scholar

Bengio, Y., Louradour, J., Collobert, R. & Weston, J. Apprentissage curriculaire. Dans Actes de la 26e Conférence internationale annuelle sur l'apprentissage automatique, 41–48 (Association for Computing Machinery, 2009).

Kiyasseh D. et al. Les explications visuelles humaines atténuent les biais dans l'évaluation des compétences des chirurgiens basée sur l'IA. Chiffre NPJ. Méd. https://doi.org/10.1038/s41746-023-00766-2 (2023).

Collins, JW et al. Implications éthiques de l'IA dans la formation chirurgicale robotique : une déclaration de consensus Delphi. EUR. Urol. Se concentrer. 8, 613–622 (2021).

Hashimoto, DA, Rosman, G., Rus, D. & Meireles, OR Intelligence artificielle en chirurgie : promesses et périls. Ann. Surg. 268, 70 (2018).

Article PubMed Google Scholar

Maier-Hein, L. et al. Science des données chirurgicales pour les interventions de nouvelle génération. Nat. Biomédical. Ing. 1, 691–696 (2017).

Article PubMed Google Scholar

Weede, O. et al. Analyse du flux de travail et reconnaissance des phases chirurgicales en chirurgie mini-invasive. En 2012, Conférence internationale IEEE sur la robotique et la biomimétique (ROBIO) 1080–1074 (IEEE, 2012).

Hung, AJ et al. Utilisation de l'apprentissage automatique et de mesures de performances automatisées pour évaluer les performances de la prostatectomie radicale assistée par robot et prédire les résultats. J.Endourol. 32, 438–444 (2018).

Article PubMed Google Scholar

Hung, AJ, Chen, J. & Gill, IS Mesures de performances automatisées et algorithmes d'apprentissage automatique pour mesurer les performances des chirurgiens et anticiper les résultats cliniques en chirurgie robotique. JAMA Surg. 153, 770–771 (2018).

Article PubMed PubMed Central Google Scholar

Hung, AJ et al. Apprentissage approfondi sur les mesures de performance automatisées et les fonctionnalités cliniques pour prédire la récupération de la continence urinaire après une prostatectomie radicale assistée par robot. BJU Int. 124, 487 (2019).

Article PubMed PubMed Central Google Scholar

Nwoye, CI et al. CholecTriplet2021 : un défi de référence pour la reconnaissance de triplets d'actes chirurgicaux. Préimpression sur arXiv https://arxiv.org/abs/2204.04746 (2022).

Béjar Haro, B., Zappella, L. & Vidal, R. Classification des gestes chirurgicaux à partir de données vidéo. Dans Conférence internationale sur l'informatique médicale et l'intervention assistée par ordinateur, 34–41 (Springer-Verlag, 2012).

Khalid, S., Goldenberg, M., Grantcharov, T., Taati, B. et Rudzicz, F. Évaluation de modèles d'apprentissage en profondeur pour identifier les actions chirurgicales et mesurer les performances. Réseau JAMA. Ouvert 3, e201664–e201664 (2020).

Article PubMed Google Scholar

van Amsterdam, B., Clarkson, MJ & Stoyanov, D. Réseau neuronal récurrent multitâche pour la reconnaissance des gestes chirurgicaux et la prédiction des progrès. En 2020 Conférence internationale IEEE sur la robotique et l'automatisation (ICRA), 1380–1386 (IEEE, 2020).

Gao, X., Jin, Y., Dou, Q. & Heng, P.-A. Reconnaissance automatique des gestes en chirurgie assistée par robot avec apprentissage par renforcement et recherche arborescente. En 2020 Conférence internationale IEEE sur la robotique et l'automatisation (ICRA), 8440–8446 (IEEE, 2020).

Wu, JY, Tamhane, A., Kazanzides, P. & Unberath, M. Apprentissage de la représentation auto-supervisée intermodale pour la reconnaissance des gestes et des compétences en chirurgie robotique. Int. J. Comput. Aider. Radiol. Surg. 16, 779–787 (2021).

Article PubMed Google Scholar

Wagner, M. et al. Validation comparative des algorithmes d'apprentissage automatique pour le flux de travail chirurgical et l'analyse des compétences avec le benchmark Heichole. Méd. Image anale. 86, 102770 (2023).

Zappella, L., Béjar, B., Hager, G. & Vidal, R. Classification des gestes chirurgicaux à partir de données vidéo et cinématiques. Méd. Image anale. 17, 732–745 (2013).

Article PubMed Google Scholar

Bar, O. et al. Impact des données sur la généralisation de l'IA pour les applications d'intelligence chirurgicale. Sci. Rép. 10, 1–12 (2020).

Article Google Scholar

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Dans Advances in Neural Information Processing Systems (Eds Guyon, I. et al.) Vol. 30 (NIPS, 2017).

Garrow, CR et al. Apprentissage automatique pour la reconnaissance de la phase chirurgicale : une revue systématique. Ann. Surg. 273, 684–693 (2021).

Article PubMed Google Scholar

Czempiel, T. et al. Opera : transformateurs régularisés par l'attention pour la reconnaissance de phase chirurgicale. Dans Conférence internationale sur l'informatique médicale et l'intervention assistée par ordinateur, 604–614 (Springer, 2021).

Nwoye, CI et al. Rendez-vous : mécanismes attentionnels pour la reconnaissance des triplets d'action chirurgicale dans les vidéos endoscopiques. Méd. Image anale. 78, 102433 (2022).

Article PubMed Google Scholar

Aspart, F. et al. ClipAssistNet : apporter un retour d'information de sécurité en temps réel aux blocs opératoires. Int. J. Comput. Aider. Radiol. Surg. 17, 5–13 (2022).

Article PubMed Google Scholar

Nwoye, CI & Padoy, N. Fractionnement des données et métriques pour l'analyse comparative des méthodes sur les ensembles de données de triplets d'action chirurgicale. Préimpression sur arXiv https://arxiv.org/abs/2204.05235 (2022).

Ma, R. et al. Une nouvelle classification des gestes de dissection pour caractériser la technique de dissection robotique pour la dissection hilaire rénale. J. Urol. 205, 271–275 (2021).

Article PubMed Google Scholar

Moy, RL, Waldman, B. & Hein, DW Un examen des sutures et des techniques de suture. J. Dermatol. Surg. Oncol. 18, 785–795 (1992).

Article CAS PubMed Google Scholar

Haque, TF et al. Un outil d'évaluation pour fournir un retour d'expérience ciblé aux stagiaires en chirurgie robotique : développement et validation de l'évaluation de bout en bout de l'expertise en suture (facilité). Urol. Pratique. 9, 532–539 (2022).

Hung, AJ et al. Vers l'automatisation de l'évaluation des compétences de suture robotique : lutter contre l'étiquetage erroné de la réalité de terrain. Chirurgie 171, 915–919 (2022).

Article PubMed Google Scholar

Teed, Z. & Deng, J. Raft : transformations de champ toutes paires récurrentes pour le flux optique. Dans Conférence européenne sur la vision par ordinateur, 402–419 (Springer, 2020).

Dosovitskiy, A. et al. Une image vaut 16x16 mots : des transformateurs pour la reconnaissance d'images à grande échelle. Dans Conférence internationale sur les représentations de l'apprentissage (ICLR, 2021).

Caron, M. et al. Propriétés émergentes dans les transformateurs de vision auto-supervisés. Dans Conférence internationale IEEE/CVF sur la vision par ordinateur, 9650–9660 (IEEE, 2021).

Paszke, A. et al. Pytorch : une bibliothèque d'apprentissage en profondeur hautes performances de style impératif. Dans Advances in Neural Information Processing Systems (Eds Wallach, H. et al.) Vol. 32 (NIPS, 2019).

Roy, AG et al. Votre classificateur dermatologique sait-il ce qu'il ne sait pas ? Détecter la longue traîne des conditions invisibles. Méd. Image anale. 75, 102274 (2022).

Article Google Scholar

Lakshminarayanan, B., Pritzel, A. & Blundell, C. Estimation de l'incertitude prédictive simple et évolutive à l'aide d'ensembles profonds. Dans Advances in Neural Information Processing Systems (Eds Guyon, I. et al.) Vol. 30 (NIPS, 2017).

Télécharger les références

Nous remercions T. Chu pour l'annotation des vidéos avec des gestes. Nous remercions également J. Laca et J. Nguyen pour leurs premiers commentaires sur la présentation du manuscrit. AJH divulgue un soutien pour la recherche décrite dans cette étude de l'Institut national du cancer sous le numéro d'attribution. R01CA251579-01A1 et une subvention pluriannuelle de recherche clinique en chirurgie intuitive.

Département d'informatique et de sciences mathématiques, California Institute of Technology, Pasadena, Californie, États-Unis

Dani Kiyasseh et Animashree Anandkumar

Center for Robotic Simulation and Education, Catherine & Joseph Aresty Department of Urology, University of Southern California, Los Angeles, Californie, États-Unis

Runzhuo Ma, Taseen F. Haque et Andrew J. Hung

Département d'urologie, Houston Methodist Hospital, Houston, Texas, États-Unis

Brian J. Miles

Département d'urologie, d'urologie pédiatrique et d'uro-oncologie, Prostate Center Northwest, St. Antonius-Hospital, Gronau, Allemagne

chrétien wagner

Division de neurochirurgie, Center for Neuroscience, Children's National Hospital, Washington, DC, États-Unis

Daniel A. Donoho

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

DK et AJH ont contribué à la conception de l'étude. DK a contribué à la conception de l'étude, a développé les modèles d'apprentissage en profondeur et a rédigé le manuscrit. RM et TH ont fourni des annotations pour les échantillons vidéo. DAD a fourni des commentaires détaillés sur le manuscrit. BJM a fourni des données pour l'étude. CW a recueilli des données auprès de SAH et a fourni des commentaires sur le manuscrit. AJH et AA ont assuré la supervision et contribué aux modifications du manuscrit.

Correspondance à Dani Kiyasseh ou Andrew J. Hung.

DK est un employé rémunéré de Vicarious Surgical et un consultant de Flatiron Health. CW est un consultant rémunéré d'Intuitive Surgical. AA est un employé de Nvidia. AJH est consultant en chirurgie intuitive. Les autres auteurs ne déclarent aucun intérêt concurrent.

Nature Biomedical Engineering remercie Masaaki Ito, Jie Ying Wu et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail. Les rapports des pairs examinateurs sont disponibles.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Notes, figures et tableaux supplémentaires.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Kiyasseh, D., Ma, R., Haque, TF et al. Un transformateur de vision pour décoder l'activité du chirurgien à partir de vidéos chirurgicales. Nat. Biomédical. Eng (2023). https://doi.org/10.1038/s41551-023-01010-8

Télécharger la citation

Reçu : 22 juin 2022

Accepté : 15 février 2023

Publié: 30 mars 2023

DOI : https://doi.org/10.1038/s41551-023-01010-8

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

npj Médecine numérique (2023)