banner
Centre d'Information
Articuler et maîtriser son expertise.

Les gestes chirurgicaux comme méthode pour quantifier les performances chirurgicales et prédire les résultats des patients

Oct 19, 2023

npj Digital Medicine volume 5, Article number: 187 (2022) Citer cet article

2050 accès

3 Citations

27 Altmétrique

Détails des métriques

La qualité d'une intervention chirurgicale a un impact sur les résultats d'un patient ; cependant, la quantification objective des performances reste un défi non résolu. Déconstruire une procédure en « gestes » discrets d'instruments et de tissus est une façon émergente de comprendre la chirurgie. Pour établir ce paradigme dans une procédure où la performance est le facteur le plus important pour les résultats des patients, nous identifions 34 323 gestes individuels effectués dans 80 prostatectomies radicales assistées par robot épargnant les nerfs de deux centres médicaux internationaux. Les gestes sont classés en neuf gestes de dissection distincts (par exemple, coupe à chaud) et quatre gestes d'appui (par exemple, rétraction). Notre objectif principal est d'identifier les facteurs ayant un impact sur la récupération de la fonction érectile (FE) d'un patient après une prostatectomie radicale. Nous constatons que moins d'utilisation de coupe à chaud et plus d'utilisation de pelage/poussée sont statistiquement associées à de meilleures chances de récupération de FE sur 1 an. Nos résultats montrent également des interactions entre l'expérience du chirurgien et les types de gestes - une sélection de gestes similaires a entraîné différents taux de récupération EF en fonction de l'expérience du chirurgien. Pour valider davantage ce cadre, deux équipes construisent indépendamment des modèles d'apprentissage automatique distincts utilisant des séquences de gestes par rapport aux caractéristiques cliniques traditionnelles pour prédire la FE à 1 an. Dans les deux modèles, les séquences gestuelles sont capables de mieux prédire la FE à 1 an (Équipe 1 : ASC 0,77, IC à 95 % 0,73-0,81 ; Équipe 2 : ASC 0,68, IC à 95 % 0,66-0,70) que les caractéristiques cliniques traditionnelles (Équipe 1 : ASC 0,69, IC à 95 % 0,65-0,73 ; Équipe 2 : ASC 0,65, IC à 95 % 0,62-0,68). Nos résultats suggèrent que les gestes fournissent une méthode granulaire pour indiquer objectivement les performances et les résultats chirurgicaux. L'application de cette méthodologie à d'autres chirurgies peut conduire à des découvertes sur des méthodes pour améliorer la chirurgie.

Au cours de la dernière décennie, de plus en plus de preuves ont démontré que la performance chirurgicale a un impact significatif sur les résultats chirurgicaux1,2. Par exemple, une compétence opératoire inférieure dans le pontage gastrique laparoscopique est associée à des taux de complications plus élevés, des taux de mortalité plus élevés, des opérations plus longues et des taux plus élevés de réopération et de réadmission1. Pour améliorer les résultats chirurgicaux, il faut d'abord quantifier la performance chirurgicale3. Cependant, il reste difficile d'y parvenir objectivement.

Les gestes chirurgicaux, définis comme la plus petite interaction significative d'un instrument chirurgical avec un tissu humain4,5, sont une nouvelle approche pour déconstruire la chirurgie. Ils ont le potentiel de quantifier objectivement la chirurgie tout en fournissant une rétroaction exploitable aux stagiaires. Auparavant, nous avons développé un système de classification des gestes chirurgicaux de dissection composé de neuf gestes de dissection distincts (par exemple, coupe à froid) et de quatre gestes de soutien (par exemple, rétraction) (Fig. 1a)5. Nous avons constaté que différentes sélections de gestes chirurgicaux lors de l'étape de dissection hilaire de la néphrectomie partielle assistée par robot peuvent distinguer l'expertise des chirurgiens5. Cependant, on ne sait toujours pas si différents gestes chirurgicaux sont associés aux résultats des patients après la chirurgie.

a Classification des gestes, comprenant 9 gestes de dissection et 4 gestes d'appui. b Séquences de gestes épargnant les nerfs à code couleur (montrant uniquement les 100 premiers gestes). Les couleurs représentaient les gestes correspondants en a. c Processus de construction d'un modèle de prévision de récupération des FE sur un an. Deux équipes ont indépendamment construit et testé leurs modèles de prédiction pour confirmer la reproductibilité des résultats.

La prostatectomie radicale assistée par robot (RARP), le traitement le plus courant du cancer de la prostate, est un cas test idéal pour évaluer si les gestes chirurgicaux sont liés aux résultats d'un patient, car il a un résultat fonctionnel concret, facilement mesurable et fortement associé à la performance chirurgicale6. La dysfonction érectile après RARP a un impact profond sur la qualité de vie d'un homme et plus de 60% des hommes souffrent de cette complication à long terme en raison d'une lésion des nerfs qui longent la prostate7. Pendant l'épargne nerveuse (NS), les chirurgiens décollent doucement ces nerfs de la prostate. Des changements infimes dans la technique de dissection d'un chirurgien peuvent avoir un impact majeur sur la récupération de la puissance d'un patient8. De nombreuses preuves suggèrent que la performance d'un chirurgien est importante : alors que les patients des chirurgiens de premier plan ont près de 50 % de chances de retrouver leur puissance, les patients des chirurgiens de niveau inférieur ont moins de 20 % de chances9.

Compte tenu de l'association entre la qualité de l'épargne nerveuse et le risque de dysfonction érectile postopératoire, nous visons principalement à examiner si les gestes utilisés lors de l'étape NS de RARP peuvent prédire les taux de DE après la chirurgie. L'objectif secondaire est d'étudier la sélection des gestes chirurgicaux par des chirurgiens de niveaux d'expérience variés afin d'approfondir notre compréhension des différentes techniques de dissection d'épargne nerveuse. Nous émettons l'hypothèse que les gestes chirurgicaux peuvent être utilisés comme un outil efficace pour quantifier les compétences techniques et potentiellement indiquer les résultats chirurgicaux.

Dans cette étude internationale bi-centrique, nous constatons qu'une utilisation moindre de la coupe à chaud et une utilisation accrue de l'épluchage/poussée pendant le SN sont associées à une meilleure chance de récupération de la FE à 1 an. De plus, en utilisant des séquences de gestes de dissection pendant NS, des modèles ML peuvent être construits pour prédire avec précision la récupération EF. De plus, nous constatons que des chirurgiens avec différents niveaux d'expérience utilisent différents gestes chirurgicaux pendant le NS. Ces résultats suggèrent que la décomposition de la chirurgie au niveau des gestes chirurgicaux peut servir de nouvelle méthode pour mesurer la performance chirurgicale, qui peut avoir des applications plus larges dans différentes spécialités chirurgicales pour prédire les résultats chirurgicaux et donner un retour d'information exploitable.

Six cent dix-neuf cas consécutifs de RARP étaient candidats à cette étude, et finalement 80 cas de 21 chirurgiens de 2 centres chirurgicaux internationaux remplissaient nos critères d'inclusion/exclusion (Fig. 2). La plupart des patients ont été exclus car ils n'avaient pas de fonction érectile de base à préserver pendant la chirurgie. Le nombre médian de cas antérieurs de chirurgie robotique de ces 21 chirurgiens praticiens était de 450 (intervalle de 100 à 5 800) cas. Il y avait un écart dans l'expérience chirurgicale robotique entre un groupe de 6 super-experts (médiane de 3000 cas, intervalle de 2000 à 5800) et un groupe de 15 experts (médiane de 275 cas, intervalle de 100 à 750) (tableau supplémentaire 1).

Enrôlement de 80 cas RARP.

Dans l'ensemble, le taux de récupération de la FE postopératoire à 1 an était de 34/80 (43 %). Les patients qui ont récupéré la FE étaient significativement plus jeunes (p = 0,02, test du Chi carré) et avaient un meilleur état physique de l'American Society of Anesthesiology (ASA) (p = 0,03, test du Chi carré) (Tableau 1). Les patients qui ont récupéré la FE avaient une plus grande proportion d'épargne nerveuse complète (76,5 % contre 69,6 %), bien que cela ne soit pas statistiquement significatif (p = 0,49, test du Chi carré).

Une médiane de 438 gestes discrets (IQR 254–559) a été identifiée par cas NS. Les gestes de dissection actifs représentaient 65,7 % de tous les gestes, et les gestes de soutien représentaient les 34,3 % restants (tableau 2).

Pour évaluer si un type de geste était significativement lié à la récupération de FE sur 1 an, la proportion de chaque type de geste dans un cas entre les patients FE récupérés et non récupérés a été comparée. Les patients qui ont récupéré la FE avaient moins de coupures à chaud (médiane 1,4 % contre 1,9 %, p = 0,016, modèle mixte linéaire généralisé [GLMM]) mais plus de pelage/poussée (médiane 33,4 % contre 29,7 %, p < 0,001, GLMM) (Fig. 3a). Pour confirmer les résultats, nous avons effectué des analyses de sous-groupes dans le groupe expert (Fig. 3b) et super-expert (Fig. 3c), respectivement. Dans les deux groupes, les patients qui ont récupéré la FE avaient plus de pelage/poussée (p ≤ 0,001, GLMM). L'utilisation de la coupe à chaud n'était significative que dans le groupe d'experts, où les patients qui ont récupéré EF avaient plus de coupe à chaud (p = 0,001, GLMM). De plus, les patients qui ont récupéré 1 an de FE avaient moins de coupe à froid, plus d'étalement, plus de crochet, moins de rétraction et moins de coagulation dans le groupe expert (tous p < 0,05, GLMM). Dans le groupe super-expert, le patient qui a récupéré 1 an de FE avait moins de propagation, moins de crochet et plus de coagulation (tous p < 0,05, GLMM).

a Toute la cohorte ; b groupe d'experts ; c groupe de super-experts.

Des séquences de gestes et des caractéristiques cliniques ont ensuite été utilisées par deux équipes pour construire indépendamment des modèles de prédiction d'apprentissage automatique (ML) pour la récupération d'EF sur 1 an, afin d'assurer la reproductibilité des résultats. En incluant uniquement les séquences de gestes chirurgicaux, les deux modèles ont atteint une capacité modérément élevée à prédire la récupération de la FE sur 1 an (ASC : Équipe 1 : 0,77, IC à 95 % 0,73-0,81 ; Équipe 2 : 0,68, IC à 95 % 0,66-0,70), qui surpassaient les caractéristiques cliniques seules (AUC, Équipe 1 : 0,69, IC à 95 % 0,65-0,73 ; Équipe 2 : 0,65, IC à 95 % 0,62-0,68). Lorsque les modèles incluaient à la fois les gestes chirurgicaux et les caractéristiques cliniques (ASC, Équipe 1 : 0,75, IC à 95 % 0,72-0,77 ; Équipe 2 : 0,67, IC à 95 % 0,65-0,70), les modèles ont eu des performances similaires à ceux qui incluaient uniquement les gestes chirurgicaux (Fig. . 4).

Graphiques en violon montrant les performances des modèles de prédiction de récupération EF sur 1 an.

Pour comprendre comment ces modèles font des prédictions, nous avons choisi le modèle de l'équipe 1 en raison de ses meilleures performances et avons classé les caractéristiques cliniques importantes pour la prédiction de la FE à 1 an (Fig. 5a), à savoir le score de Gleason, l'âge, l'IMC, le PSA et le volume de la prostate. . Nous avons également produit des séquences gestuelles importantes positivement ou négativement associées à la récupération d'EF à 1 an (Fig. 5b).

a Caractéristiques cliniques importantes ; b exemples de séquences de gestes chirurgicaux importants.

Pour exclure la possibilité que les modèles ML aient simplement appris la prédiction de la récupération EF sur 1 an par le nombre de gestes utilisés pendant NS plutôt que vraiment appris des séquences de gestes elles-mêmes, nous avons classé 80 cas en fonction du nombre de gestes et catégorisons les cas en quatre quartiles. Nous avons trouvé un taux de récupération EF similaire sur 1 an dans tous les quartiles (p = 0,66, test du chi carré, tableau supplémentaire 2).

Les super-experts ont utilisé moins de gestes que les experts (médiane 317 vs 530, p = 0,014, test U de Mann-Whitney) lors de l'étape NS. Cette tendance était présente à la fois pour les gestes actifs de dissection (c'est-à-dire, décoller/pousser) et les gestes d'appui (c'est-à-dire, mouvement de caméra, rétraction) (Tableau 3).

En comparant les proportions de gestes utilisées dans la NS, nous avons constaté que les super-experts utilisaient plus de coupe à froid (médiane 18,0 % contre 13,0 %, p = 0,001, GLMM), plus de coagulation (médiane 3,5 % contre 2,0 %, p = 0,005, GLMM) , mais moins de pelage/poussée (médiane 27,0 % contre 34,0 %, p = 0,024, GLMM) et moins d'ajustements de rétraction (médiane 10,5 % contre 16,0 %, p = 0,001, GLMM).

Notamment, le taux de récupération rapporté de la FE était similaire chez les patients opérés par des super-experts (23/53, 43,4 %) par rapport aux patients opérés par des experts (11/27, 40,7 %, p = 0,82, test du chi carré). Les caractéristiques cliniques de ces deux groupes de patients étaient également similaires (tableau supplémentaire 3).

Dans cette étude bicentrique internationale, nous avons démontré (a) qu'une utilisation moindre de la coupe à chaud et une plus grande utilisation de l'épluchage/poussée étaient associées à une meilleure chance de récupération de la FE à 1 an ; (b) les séquences de gestes chirurgicaux peuvent prédire avec succès la récupération EF à 1 an après RARP ; et (c) les sélections de gestes chirurgicaux étaient associées aux niveaux d'expérience du chirurgien. De plus, deux équipes ont confirmé indépendamment la relation entre les séquences de gestes chirurgicaux et les résultats chirurgicaux. Cette méthode à double effort a rarement été menée dans la littérature clinique, bien qu'elle ait été largement préconisée par la communauté des chercheurs en ML, dans le but d'augmenter la robustesse et de confirmer la reproductibilité des résultats de ML10,11. Ces résultats suggèrent que les gestes chirurgicaux peuvent servir de nouvelle méthode pour quantifier les performances chirurgicales et prédire les résultats fonctionnels après RARP.

Dans cette étude, nous démontrons une association entre les gestes chirurgicaux et les résultats chirurgicaux. Nos résultats indiquent que moins de coupe à chaud en NS est associée à une meilleure récupération de la puissance, en particulier dans le groupe expert (plutôt que super-experts). Ceci est cohérent avec des études antérieures qui ont rapporté qu'une utilisation intensive d'énergie dans le NS a un effet néfaste sur les faisceaux neurovasculaires à proximité, impactant ainsi la récupération des EF8,12. Plus de peau/poussée était associée à une meilleure récupération de la puissance, ce qui a été confirmé dans les groupes experts et super-experts. Nous pensons que peler/pousser est le geste approprié pour trouver le bon plan de dissection pendant le NS, ce qui peut à son tour entraîner de meilleurs résultats. Il convient de noter que les résultats ont également montré des interactions entre l'expertise du chirurgien et les types de gestes - les mêmes types de gestes utilisés par des chirurgiens ayant différents niveaux d'expérience peuvent avoir un impact différent sur la récupération de la FE. Par exemple, dans le groupe expert, plus de propagation, plus de crochet et moins de coagulation étaient associés à une plus grande chance de récupération de FE, tandis que dans le groupe super-expert, moins de propagation, moins de crochet et plus de coagulation étaient associés à une plus grande chance. de récupération EF. Ces résultats indiquent que non seulement les types de gestes sont importants pour les résultats, mais aussi probablement l'exécution et le contexte des gestes. Dans une étude récente, nous avons constaté que l'efficacité et les taux d'erreur d'un même type de gestes étaient différents entre les novices, les intermédiaires et les experts en laboratoire sec13. Notre prochaine étape explorera l'impact de ces différences sur les résultats chirurgicaux dans les chirurgies en direct.

Le même concept devrait être applicable à d'autres procédures chirurgicales - en déconstruisant la chirurgie en gestes, l'impact de différents gestes sur les résultats chirurgicaux peut être étudié de manière quantifiable et objective. L'évaluation et la quantification objectives de la chirurgie ont traditionnellement été difficiles. Une solution courante consiste à utiliser des outils d'évaluation objectifs tels que GEARS ou DART pour évaluer les compétences chirurgicales14,15,16. Malheureusement, ces outils souffrent de subjectivité et ne saisissent pas les données chirurgicales à leur niveau le plus granulaire17. Une autre méthode de quantification des performances chirurgicales consiste à utiliser des mesures de performances automatisées (APM), telles que les données cinématiques des instruments18. Les APM ont été en mesure de distinguer l'expertise et de prédire les résultats pour les patients19,20. Mais un inconvénient des APM, qui sont en grande partie des mesures de l'efficacité du chirurgien, est qu'elles sont difficiles à traduire en rétroaction exploitable18,19,21. Les gestes chirurgicaux ont le potentiel de quantifier objectivement la chirurgie tout en fournissant une rétroaction exploitable aux stagiaires. Ces mesures évaluent différemment les performances des chirurgiens et contiennent des informations connexes mais différentes. Les gestes déconstruisent globalement l'action chirurgicale dans le cadre de l'interaction instrument-tissu à partir de vidéos chirurgicales ; la cinématique fournit des informations résumées sur le mouvement des instruments en fonction de leurs coordonnées, ce qui peut refléter davantage l'efficacité de l'instrument. Ces différentes méthodes d'évaluation doivent se compléter pour dresser un tableau plus complet de la performance chirurgicale.

L'incorporation de gestes chirurgicaux dans les modèles ML a prédit efficacement la récupération postopératoire de la FE à 1 an. Pour confirmer la reproductibilité de nos résultats, deux équipes ML ont indépendamment construit et évalué deux modèles de prédiction. Les deux équipes ont confirmé qu'il y avait des signaux informatifs dans la séquence des gestes chirurgicaux qui pouvaient prédire la récupération de la FE avec des ASC modérées à fortes. Les différents types de gestes chirurgicaux utilisés en NS (par exemple, la proportion de coupe à chaud) peuvent expliquer en partie comment les modèles ont fait les prédictions. De plus, les modèles ML peuvent également utiliser les informations temporelles (séquentielles) des gestes chirurgicaux (c'est-à-dire l'ordre des gestes chirurgicaux) qui sont difficiles à capturer par les méthodes statistiques traditionnelles. Il convient de noter que l'équipe 1, qui a utilisé un modèle basé sur un transformateur, qui exploitait des informations temporelles (séquence) complètes (la séquence entière), a obtenu des AUC plus élevées que l'équipe 2, qui a utilisé une régression logistique, qui a exploité des informations temporelles à courte portée. (divisant la séquence entière en segments non superposés de 20 gestes). Cela peut indiquer que non seulement le type de gestes, mais aussi la combinaison et l'ordre des gestes ensemble jouent un rôle dans la détermination des résultats pour le patient.

Notre étude précédente a révélé que les super-experts prenaient moins de temps pour terminer NS et avaient une meilleure dextérité bimanuelle par rapport aux experts pendant NS22. Ici, en utilisant le système de classification des gestes de dissection, nous avons confirmé que les super-experts étaient plus rapides et plus efficaces (c'est-à-dire qu'ils utilisaient moins de gestes). En comparant la proportion de gestes de dissection utilisés par les super-experts et les experts, nous avons constaté que les super-experts choisissaient des gestes différents par rapport aux experts. Cela implique l'utilisation potentielle de gestes chirurgicaux pour distinguer l'expertise.

En ce qui concerne les caractéristiques cliniques, nous avons constaté que les patients récupérés par EF étaient plus jeunes et avaient de meilleures conditions générales, ce qui est cohérent avec les publications précédentes23,24. L'utilisation des caractéristiques cliniques seules pour prédire la récupération de la FE sur 1 an a permis d'obtenir des ASC modestes. Des publications antérieures ont suggéré que l'état de puissance de base des patients est un facteur critique pour la récupération de la FE après RARP23,24. Il convient de noter que tous les cas inclus dans cette étude avaient une FE préopératoire intacte et des scores SHIM très élevés (médiane de 24, sur une échelle de 25), ce qui peut avoir atténué l'impact des facteurs du patient sur la récupération de la FE. prédiction.

Les résultats de cette étude ont des implications cliniques importantes. En l'absence d'un système prédictif basé sur le ML, les chirurgiens ne peuvent recevoir des commentaires sur les résultats des patients tels que la fonction érectile que des mois ou des années après l'opération. Ce décalage temporel (entre la chirurgie et le résultat) rend difficile l'évaluation de l'impact de leurs actions aujourd'hui sur le patient. Avec le modèle ML formé présenté dans notre article, il est possible de fournir un retour d'information immédiatement après la chirurgie, ce qui peut permettre aux chirurgiens d'intégrer rapidement des améliorations dans leurs chirurgies ultérieures. De plus, notre groupe a récemment construit un algorithme ML pour automatiser la tâche de reconnaissance et de classification des gestes25. En combinaison avec le modèle ML dans l'étude actuelle, il est possible d'automatiser entièrement l'ensemble du processus, de l'annotation vidéo chirurgicale à la prédiction des résultats des patients, en prédisant directement les résultats des patients en temps réel. Nos travaux futurs seront consacrés à l'interprétabilité du modèle, afin d'identifier des séquences de gestes de dissection spécifiques importantes pour les résultats des patients, afin que des informations plus exploitables puissent être fournies pour la formation des chirurgiens.

La présente étude a quelques limites. Premièrement, la taille de l'échantillon était relativement petite, ce qui peut être élargi à l'avenir. Néanmoins, nous avons inclus les données de deux institutions pour traiter de la généralisabilité. Deuxièmement, nous n'avons pas considéré le contexte des gestes chirurgicaux exercés au cours du NS. Des études futures peuvent attribuer des gestes à une anatomie spécifique (par exemple, pédicules, fascia latéral, etc.) et étudier si les effets sont similaires. Troisièmement, cette étude n'a utilisé qu'un seul type d'intervention chirurgicale (c'est-à-dire, NS) et les résultats restent à valider dans plusieurs procédures dans toutes les spécialités. Enfin, la complexité des cas n'a pas été ajustée dans la présente étude en raison de l'absence d'une mesure objective de la complexité des cas. Il reste un facteur confondant pour les associations entre gestes chirurgicaux et résultats chirurgicaux.

En résumé, nous constatons que les gestes de dissection exécutés pendant NS étaient prédictifs de la récupération EF après RARP. Moins d'utilisation de coupe à chaud et plus d'utilisation de pelage/poussée sont associées à de meilleures chances de récupération EF. Les modèles ML sont construits pour prédire avec précision la récupération des EF. De plus, nous corrélons les gestes chirurgicaux avec l'expérience du chirurgien. Ces résultats impliquent que la déconstruction de la chirurgie à la granularité des gestes chirurgicaux peut servir de nouvelle méthode pour quantifier les performances chirurgicales, qui peuvent potentiellement avoir une application plus large à diverses spécialités chirurgicales pour prédire les résultats chirurgicaux et fournir une rétroaction exploitable.

Sous l'approbation des comités d'examen institutionnels de l'Université de Californie du Sud et de l'hôpital St. Antonius, les hommes qui ont subi le RARP primaire de juillet 2016 à novembre 2018 de ces deux institutions internationales ont été collectés de manière prospective et inclus dans cette étude si les éléments suivants étaient présents : (un ) un EF de base intact ; (b) séquences vidéo chirurgicales complètes de la SN ; et (c) ≥ 1 an de suivi postopératoire. Les cas bilatéraux non épargnant les nerfs ont été exclus. Des consentements écrits ont été obtenus de tous les patients inclus dans cette étude. Le critère de jugement principal était la récupération de la FE à 1 an après RARP. La FE initiale intacte et la récupération de la FE à 1 an ont toutes deux été définies comme l'obtention d'érections suffisamment fermes pour des rapports sexuels dans > 50 % des tentatives (score ≥ 4 aux 2èmes questions du SHIM) avec ou sans inhibiteurs de la phosphodiestérase de type 526.

NS des cas inclus ont été réalisés par des boursiers en chirurgie avancés et des chirurgiens universitaires. Les chirurgiens ont été séparés en deux niveaux d'expérience chirurgicale sur la base de publications précédentes : les experts qui avaient effectué 100 à 1 999 cas robotiques et les super-experts qui avaient effectué ≥ 2 000 cas robotiques22,27.

Les données cliniques ont été obtenues par examen des dossiers, comprenant à la fois des facteurs liés au patient et au traitement, tels que l'âge, le score SHIM préopératoire28, l'état physique ASA29, l'étendue de la NS, etc. (Tableau 1). Les données de suivi à 12 mois ont été obtenues par examen des dossiers ou par téléphone par un coordinateur de recherche indépendant utilisant les résultats rapportés par les patients.

Les séquences vidéo bilatérales NS ont été examinées manuellement. Au total, 7 annotateurs (RM, IR, GD, AD, SC, MO, SR) ont reçu une formation standardisée, puis des séquences gestuelles étiquetées indépendamment de trois vidéos de formation (365 gestes au total). Le taux d'accord de classification des gestes parmi sept annotateurs a été évalué en calculant la proportion d'étiquettes de gestes convenues entre les 7 annotateurs dans le nombre total de gestes. Un taux d'accord inter-évaluateur élevé a été atteint (328/365, 89,9 %), puis 80 vidéos NS formelles ont été divisées et annotées entre les annotateurs.

Chaque mouvement chirurgical discret dans la vidéo a été étiqueté comme un certain geste selon notre système de classification, qui comprend neuf gestes de dissection actifs et 4 gestes de soutien (c'est-à-dire des gestes destinés à faciliter les gestes de dissection, par exemple la rétraction) (Fig. 1)5. Lorsque plusieurs instruments se déplaçaient simultanément, le mouvement de l'instrument de la main dominante du chirurgien de la console était annoté comme geste principal.

Les tests U et chi carré de Mann–Whitney ont été utilisés pour comparer respectivement les données démographiques continues et catégorielles des patients. Un modèle à effets mixtes à plusieurs niveaux a été utilisé pour évaluer la relation entre l'état de récupération de la FE à 1 an (variable indépendante) et la proportion de chaque type de geste dans un cas (variable dépendante), tout en tenant compte du regroupement des données étant donné que plusieurs cas ont été faites par le même chirurgien. La relation entre l'expérience du chirurgien (variable indépendante) et la proportion de chaque type de geste dans un cas (variable dépendante) a également été évaluée par le modèle multi-niveaux à effets mixtes pour identifier les différences de technique de dissection. L'analyse statistique a été réalisée à l'aide d'IBM® SPSS v24, avec p < 0,05 (bilatéral) considéré comme statistiquement significatif.

Les séquences de gestes (c'est-à-dire tous les gestes utilisés en NS dans l'ordre du temps) et les caractéristiques cliniques (c'est-à-dire toutes les variables présentées dans le tableau 1) ont toutes deux été utilisées pour construire des modèles de prédiction pour la récupération de la FE sur 1 an. Pour confirmer la reproductibilité des résultats, deux équipes ML ont construit indépendamment des modèles de prédiction à l'aide d'algorithmes ML et testé les performances du modèle.

L'équipe ML 1 (JX, LT, LY) a formé un modèle de prédiction multimodal, composé de deux sous-réseaux utilisés pour gérer l'ensemble des séquences de gestes (un réseau basé sur un transformateur, c'est-à-dire IMV-LSTM30) et des caractéristiques cliniques (un transformateur FT, c'est-à-dire un réseau tabulaire pour les caractéristiques cliniques31). Les réseaux ont été choisis en raison de leurs mécanismes d'attention, qui sont des modules qui apprennent à calculer la somme pondérée de tous les vecteurs de représentation de gestes codés, permettant au modèle de capturer de manière flexible les dépendances à long terme et de concentrer son attention sur les parties les plus pertinentes de l'ensemble de la dissection. séquence. Dans la première phase de formation, les deux sous-réseaux ont été formés jusqu'à convergence avec descente de gradient stochastique. Dans la deuxième phase, les représentations extraites de chaque réseau ont été concaténées et introduites dans une couche entièrement connectée pour produire une seule prédiction de récupération EF. Le modèle a ensuite été évalué par une méthode de Monte-Carlo avec un total de 100 itérations. Dans chaque itération, nous avons sélectionné au hasard 70 cas comme données d'apprentissage et les 10 cas restants comme ensemble retenu pour tester indépendamment les performances du modèle. Nous rapportons l'aire sous la courbe ROC (AUC) et l'intervalle de confiance (IC) à 95 % de l'ensemble de tests sur les 100 itérations. Pour illustrer les séquences importantes pour la prédiction EF, l'équipe 1 a extrait les scores d'attention pour chaque geste dans une séquence et des techniques d'occlusion ont été utilisées pour extraire la directionnalité comme indicateur des séquences de gestes corrélées positivement ou négativement avec la récupération EF.

L'équipe ML 2 (DK, AA) a construit un modèle de prédiction de régression logistique pour la récupération d'EF sur 1 an. Ce modèle a été choisi en raison de sa simplicité et pour éviter de mémoriser les données (ie, surajustement). Lors de l'examen des caractéristiques cliniques seules, le modèle de régression logistique a directement mappé ces caractéristiques au résultat de récupération de la FE à 1 an. En considérant uniquement la séquence de gestes, l'équipe 2 a utilisé une approche faiblement supervisée. Cela impliquait de diviser l'ensemble de la séquence de gestes en segments non superposés de taille égale comprenant 20 gestes (le nombre de gestes par segment a été déterminé de manière empirique sur un ensemble retenu). Au cours de la phase de formation du modèle, chaque segment a été cartographié sur le résultat de récupération EF spécifique au cas sur 1 an correspondant. Par exemple, si un cas a 440 gestes, cela donnerait 440/20 = 22 sous-séquences de gestes. Chaque sous-séquence peut de manière équivalente être considérée comme un échantillon distinct dans une base de données. Avec ces sous-séquences appartenant au même cas chirurgical et un cas chirurgical étant associé à une seule cible (c'est-à-dire, la récupération EF), nous avons utilisé la cible du cas pour toutes ces sous-séquences. Cela se traduirait par 22 paires d'entrée-sortie composées de sous-séquences de gestes d'entrée et de valeurs de récupération EF de sortie. Nous avons répété cette stratégie pour tous les cas chirurgicaux afin de générer la base de données complète sur laquelle la régression logistique serait entraînée. Une telle configuration est appelée «apprentissage faiblement supervisé» et est souvent adoptée afin d'étendre la taille de l'ensemble de données sur lequel un modèle est formé. Notez que pour les séquences de gestes dont la longueur n'était pas divisible par 20, la fin de la séquence de gestes a été supprimée et n'a donc pas été présentée au modèle. En effet, un modèle de régression logistique attend des entrées d'une dimension cohérente. Le modèle a été formé sur la base de données susmentionnée de sous-séquences de gestes et de valeurs de récupération EF. Étant donné une sous-séquence de gestes (comprenant 20 gestes), le modèle a renvoyé une prédiction unique reflétant si le patient récupérera ou non la FE à 1 an. Ces 20 gestes ne capturent pas l'intégralité de l'action effectuée par le chirurgien lors du pas NS. Pour capturer toutes ces actions pendant l'inférence, comme cela est courant avec l'apprentissage faiblement supervisé, nous agrégeons toutes les prédictions du modèle pour les sous-séquences qui appartiennent au même cas chirurgical. Nous avons mis en œuvre une règle de majorité où la prédiction la plus probable dans tous les échantillons spécifiques à un cas était considérée comme la prédiction finale pour ce cas chirurgical particulier. Par exemple, si 15/22 échantillons sont associés à une prédiction de récupération EF, le modèle prédit que ce cas récupérera EF à 1 an. Lors de l'examen à la fois de la séquence de gestes de dissection et des caractéristiques cliniques, cette équipe a continué à utiliser l'approche faiblement supervisée susmentionnée. L'équipe 2 a mis en œuvre la même configuration d'évaluation que l'équipe 1 et a signalé l'AUC avec un IC à 95 % sur les 100 itérations.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports de recherche sur la nature lié à cet article.

Les ensembles de données générés pendant et/ou analysés pendant l'étude en cours sont disponibles auprès de l'auteur correspondant sur demande raisonnable.

Le code de cet article peut être trouvé par : https://github.com/crseusc/NS-Gestures-and-EF-outcomes.

Birkmeyer, JD et al. Compétence chirurgicale et taux de complications après chirurgie bariatrique. N. Engl. J. Med. 369, 1434-1442 (2013).

Article CAS Google Scholar

Fecso, AB, Szasz, P., Kerezov, G. & Grantcharov, TP L'effet de la performance technique sur les résultats des patients en chirurgie : une revue systématique. Ann. Surg. 265, 492–501 (2017).

Article Google Scholar

Hung, AJ, Liu, Y. & Anandkumar, A. Apprentissage en profondeur pour automatiser l'évaluation des compétences techniques en chirurgie robotique. JAMA Surg. 156, 1059 (2021).

Article Google Scholar

Meireles, OR et al. Recommandations consensuelles de la SAGES sur un cadre d'annotation pour la vidéo chirurgicale. Surg. Endoc. 35, 4918–4929 (2021).

Article Google Scholar

Ma, R. et al. Une nouvelle classification des gestes de dissection pour caractériser la technique de dissection robotique pour la dissection hilaire rénale. J. Urol. 205, 271–275 (2021).

Article Google Scholar

Siegel, RL, Miller, KD, Fuchs, HE et Jemal, A. Statistiques sur le cancer, 2022. CA Cancer J. Clin. 72, 7–33 (2022).

Article Google Scholar

Groupe de travail américain sur les services préventifs. et coll. Dépistage du cancer de la prostate : déclaration de recommandation du groupe de travail sur les services préventifs des États-Unis. JAMA 319, 1901-1913 (2018).

Article Google Scholar

Basourakos, SP et al. Manœuvres de prostatectomie radicale assistée par robot pour atténuer la dysfonction érectile : description technique et compilation vidéo. J.Endourol. https://doi.org/10.1089/end.2021.0081 (2021).

Vickers, A. et al. Contrôle du cancer et résultats fonctionnels après prostatectomie radicale comme marqueurs de la qualité chirurgicale : analyse de l'hétérogénéité entre chirurgiens d'un même centre anticancéreux. EUR. Urol. 59, 317-322 (2011).

Article Google Scholar

Chen, AB et al. Applications de l'intelligence artificielle en urologie: normes de rapport pour atteindre la fluidité pour les urologues. Urol. Clin. 49, 65-117 (2022).

Article Google Scholar

Lambin, P. et al. Radiomics : le pont entre l'imagerie médicale et la médecine personnalisée. Nat. Rév. Clin. Oncol. 14, 749–762 (2017).

Article Google Scholar

Ahlering, TE, Skarecky, D. & Borin, J. Impact de la cautérisation par rapport à la préservation sans cautérisation des faisceaux neurovasculaires sur le retour précoce de la puissance. J.Endourol. 20, 586–589 (2006).

Article Google Scholar

Inouye, DA et al. Évaluation de l'efficacité des gestes de dissection en chirurgie robotique. J. Robotique. Surg. https://doi.org/10.1007/s11701-022-01458-x (2022).

Vanstrum, EB et al. Développement et validation d'un outil de notation objective pour évaluer la dissection chirurgicale : dissection assessment for robotic technique (DART). Urol. Pratique. 8, 596–604 (2021).

Article Google Scholar

Aghazadeh, MA et al. Validation externe du Global Evaluative Assessment of Robotic Skills (GEARS). Surg. Endoc. 29, 3261–3266 (2015).

Article Google Scholar

Goh, AC, Goldfarb, DW, Sander, JC, Miles, BJ & Dunkin, BJ Évaluation évaluative globale des compétences robotiques : validation d'un outil d'évaluation clinique pour mesurer les compétences chirurgicales robotiques. J. Urol. 187, 247-252 (2012).

Article Google Scholar

Ma, R., Reddy, S., Vanstrum, EB & Hung, AJ Innovations dans la formation en chirurgie urologique. Courant. Urol. Rep. 22, 26 (2021).

Article Google Scholar

Hung, AJ et al. Développement et validation de mesures de performance objectives pour la prostatectomie radicale assistée par robot : une étude pilote. J. Urol. 199, 296–304 (2018).

Article Google Scholar

Hung, AJ, Chen, J. & Gill, IS Mesures de performances automatisées et algorithmes d'apprentissage automatique pour mesurer les performances des chirurgiens et anticiper les résultats cliniques en chirurgie robotique. JAMA Surg. 153, 770–771 (2018).

Article Google Scholar

Hung, AJ et al. Utilisation de l'apprentissage automatique et de mesures de performances automatisées pour évaluer les performances de la prostatectomie radicale assistée par robot et prédire les résultats. J.Endourol. 32, 438–444 (2018).

Article Google Scholar

Ma, R. et al. Des commentaires personnalisés basés sur des mesures de performance cliniquement pertinentes accélèrent l'acquisition de compétences de suture robotique - un essai contrôlé randomisé pilote sans insu. J. Urol. 208, 414–424 (2022).

Hung, AJ et al. Experts vs super-experts : différences dans les mesures de performance automatisées et les résultats cliniques pour la prostatectomie radicale assistée par robot. BJU Int. 123, 861–868 (2019).

Article Google Scholar

Bhat KRS et al. Un nomogramme pré- et post-opératoire prédictif pour la récupération post-opératoire de la puissance après une prostatectomie radicale assistée par robot. J. Urol. 206, 942–951 (2021).

Mulhall, JP et al. Développement de nomogrammes pour prédire la récupération de la fonction érectile après une prostatectomie radicale. J.Sexe. Méd. 16, 1796–1802 (2019).

Article Google Scholar

Kiyasseh, D. et al. Quantification des chirurgies robotiques avec apprentissage profond basé sur la vision. Préimpression sur https://arxiv.org/abs/2205.03028 (2022).

Nguyen, LN et al. Les risques et les avantages de l'épargne du faisceau neurovasculaire caverneux pendant la prostatectomie radicale : une revue systématique et une méta-analyse. J. Urol. 198, 760–769 (2017).

Article Google Scholar

Abboudi, H. et al. Courbes d'apprentissage pour les procédures urologiques: une revue systématique. BJU Int. 114, 617–629 (2014).

Article Google Scholar

Cappelleri, JC & Rosen, RC L'inventaire de la santé sexuelle des hommes (SHIM): un examen de 5 ans de la recherche et de l'expérience clinique. Int. J. Impot Rés. 17, 307–319 (2005).

Article CAS Google Scholar

Mayhew, D., Mendonca, V. & Murthy, BVS Un examen de l'état physique de l'ASA - perspectives historiques et développements modernes. Anesthésie 74, 373–379 (2019).

Article CAS Google Scholar

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Dans Advances in Neural Information Processing Systems vol. 30 (Curran Associates, Inc., 2017).

Gorishniy, Y., Rubachev, I., Khrulkov, V. & Babenko, A. Revisiting deep learning models for tabular data. https://arxiv.org/abs/2106.11959 (2021).

Télécharger les références

Cette étude a été financée en partie par le National Cancer Institute sous le numéro R01CA273031.

Center for Robotic Simulation & Education, Catherine & Joseph Aresty Department of Urology, USC Institute of Urology, University of Southern California, Los Angeles, Californie, États-Unis

Runzhuo Ma, Timothy N. Chu, Elyssa Y. Wong, Ryan S. Lee, Ivan Rodriguez, Aditya Desai, Maxwell X. Otiato, Sidney I. Roberts, Jessica H. Nguyen, Jasper Laca et Andrew J. Hung

Département d'urologie, Weill Cornell Medicine, New York, NY, États-Unis

Ashwin Ramaswamy, Gina DeMeo et Jim C. Hu

Département d'informatique, Viterbi School of Engineering, Université de Californie du Sud, Los Angeles, Californie, États-Unis

Jiashu Xu, Loc Trinh et Yan Liu

Département d'informatique et de sciences mathématiques, California Institute of Technology, Pasadena, Californie, États-Unis

Dani Kiyasseh et Animashree Anandkumar

Département d'urologie et d'oncologie urologique, St. Antonius-Hospital, Gronau, Allemagne

Katarina Urbanova et Christian Wagner

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

AJH a conçu l'étude. AJH et JCH ont obtenu le financement. AJH, RM, JL, JHN et CW ont conçu et supervisé l'administration et la mise en œuvre de l'étude. RM, TNC, IR, GD, AD, MXO, KU, SIR et CW ont collecté les données et annoté les vidéos chirurgicales. RM, JX, LT et DK ont effectué l'analyse et la visualisation des données. AA et YL ont fourni des conseils et une supervision pour l'analyse des données. RM, AR et RSL ont rédigé le brouillon du manuscrit.

Correspondance à Andrew J. Hung.

CW ne déclare aucun intérêt non financier concurrent, mais communique des informations financières à Intuitive Surgical, Inc. AA ne déclare aucun intérêt non financier concurrent, mais est un employé rémunéré de Nvidia. JCH ne déclare aucun intérêt non financier concurrent mais les intérêts financiers concurrents suivants : soutien salarial du Frederick J. and Theresa Dow Wallace Fund de New York et du Prostate Cancer Foundation Challenge Award. Également soutien salarial des NIH R01 CA241758 et R01 CA259173, PCORI CER-2019C1-15682 et CER-2019C2-17372. AJH ne déclare aucun intérêt non financier concurrent mais signale des informations financières à Intuitive Surgical, Inc. Les autres auteurs ne déclarent aucun intérêt concurrent.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Ma, R., Ramaswamy, A., Xu, J. et al. Gestes chirurgicaux comme méthode pour quantifier les performances chirurgicales et prédire les résultats des patients. npj Chiffre. Méd. 5, 187 (2022). https://doi.org/10.1038/s41746-022-00738-y

Télécharger la citation

Reçu : 30 août 2022

Accepté : 29 novembre 2022

Publié: 22 décembre 2022

DOI : https://doi.org/10.1038/s41746-022-00738-y

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

npj Médecine numérique (2023)

Rapports d'urologie actuels (2023)