Preuve d'une hiérarchie de codage prédictif dans le cerveau humain écoutant la parole

Nature Human Behavior volume 7, pages 430–441 (2023)Citer cet article

79 000 accès

1167 Altmétrique

Détails des métriques

Des progrès considérables ont récemment été réalisés dans le traitement du langage naturel : les algorithmes d'apprentissage profond sont de plus en plus capables de générer, résumer, traduire et classer des textes. Pourtant, ces modèles de langage ne correspondent toujours pas aux capacités linguistiques des humains. La théorie du codage prédictif offre une explication provisoire à cet écart : alors que les modèles de langage sont optimisés pour prédire les mots proches, le cerveau humain prédirait en permanence une hiérarchie de représentations qui s'étend sur plusieurs échelles de temps. Pour tester cette hypothèse, nous avons analysé les signaux cérébraux d'imagerie par résonance magnétique fonctionnelle de 304 participants écoutant des histoires courtes. Tout d'abord, nous avons confirmé que les activations des modèles de langage moderne correspondent linéairement aux réponses cérébrales à la parole. Deuxièmement, nous avons montré que l'amélioration de ces algorithmes avec des prédictions couvrant plusieurs échelles de temps améliore cette cartographie cérébrale. Enfin, nous avons montré que ces prédictions sont organisées de manière hiérarchique : les cortex fronto-pariétaux prédisent des représentations de plus haut niveau, à plus longue portée et plus contextuelles que les cortex temporaux. Dans l'ensemble, ces résultats renforcent le rôle du codage prédictif hiérarchique dans le traitement du langage et illustrent comment la synergie entre les neurosciences et l'intelligence artificielle peut démêler les bases computationnelles de la cognition humaine.

En moins de trois ans, le deep learning a fait des progrès considérables dans la génération, la traduction et la complétion de texte1,2,3,4 grâce à des algorithmes entraînés avec un objectif simple : prédire les mots à partir de leur contexte proche. Remarquablement, il a été démontré que les activations de ces modèles correspondent de manière linéaire aux réponses du cerveau humain à la parole et au texte5,6,7,8,9,10,11,12. De plus, cette cartographie dépend principalement de la capacité des algorithmes à prédire les mots futurs7,8, suggérant ainsi que cet objectif suffit à les faire converger vers des calculs de type cérébral.

Pourtant, un fossé persiste entre les humains et ces algorithmes : malgré des données d'entraînement considérables, les modèles de langage actuels sont remis en question par la génération d'histoires longues, le résumé et le dialogue cohérent et la recherche d'informations13,14,15,16,17 ; ils ne parviennent pas à capturer plusieurs constructions syntaxiques et propriétés sémantiques18,19,20,21,22 et leur compréhension linguistique est superficielle19,21,22,23,24. Par exemple, ils ont tendance à attribuer incorrectement le verbe au sujet dans des phrases imbriquées comme « les clés que l'homme détient SONT ici »20. De même, lorsque la génération de texte est optimisée uniquement sur la prédiction du mot suivant, les modèles de langage profond génèrent des séquences fades et incohérentes ou restent bloqués dans des boucles répétitives13.

La théorie du codage prédictif25,26,27 offre une explication potentielle à ces lacunes ; alors que les modèles de langage profond sont principalement réglés pour prédire le mot suivant, ce cadre suggère que le cerveau humain fait des prédictions sur plusieurs échelles de temps et niveaux de représentations à travers la hiérarchie corticale28,29 (Fig. 1a).

Des travaux antérieurs ont déjà mis en évidence des prédictions de la parole dans le cerveau en corrélant le mot ou la surprise phonétique, c'est-à-dire la mesure dans laquelle un mot ou un téléphone est attendu, avec l'imagerie par résonance magnétique fonctionnelle (IRMf)30,31,32,33, l'électroencéphalographie34,35, 36, magnétoencéphalographie37 et électrocorticographie11,38. Cependant, ces estimations surprenantes dérivent de modèles formés pour prédire le mot ou le phonème suivant et réduire leur sortie à un seul nombre, c'est-à-dire la probabilité du jeton suivant. Par conséquent, la nature des représentations prédites et leur portée temporelle sont largement inconnues.

Dans cette étude, nous abordons ces problèmes en analysant les signaux cérébraux de 304 personnes écoutant des histoires courtes pendant que leur activité cérébrale est enregistrée avec l'IRMf39. Après avoir confirmé que les algorithmes de langage profond cartographient linéairement l'activité cérébrale6,8,40, nous montrons que l'amélioration de ces modèles avec des prédictions à long terme et à plusieurs niveaux améliore cette cartographie cérébrale. De manière critique, et conformément à la théorie du codage prédictif, nos résultats révèlent une organisation hiérarchique des prédictions du langage dans le cortex, dans laquelle les zones les plus élevées prédisent les représentations les plus éloignées et de plus haut niveau.

a, Les algorithmes de langage profond sont généralement formés pour prédire les mots à partir de leurs contextes proches. Contrairement à ces algorithmes, le cerveau fait, selon la théorie du codage prédictif, (1) des prédictions à longue portée et (2) des prédictions hiérarchiques. b, Pour tester cette hypothèse, nous avons d'abord extrait les signaux IRMf de 304 individus écoutant chacun ≈26 min d'histoires courtes (Y) ainsi que les activations d'un algorithme de langage profond (X) en entrée avec les mêmes histoires. Nous avons ensuite quantifié la similarité entre X et Y avec un 'brain score' : une corrélation de Pearson \({{{\mathcal{R}}}}\) après une projection linéaire optimale W (Méthodes). c, Pour tester si l'ajout de représentations de mots futurs (ou de mots prédits ; Fig. 4 supplémentaire) améliore cette corrélation, nous avons concaténé (⊕) les activations du réseau (X, représenté ici par un rectangle noir) aux activations d'une "fenêtre de prévision". ' (\(\tilde{X}\), représenté ici par un rectangle de couleur). Nous avons utilisé l'ACP pour réduire la dimensionnalité de la fenêtre de prévision jusqu'à la dimensionnalité de X. Enfin, \({{{\mathcal{F}}}}\) quantifie le gain de score cérébral obtenu en améliorant les activations de l'algorithme de langage à cette fenêtre de prévision. Nous avons répété cette analyse avec des fenêtres à distance variable (d, Méthodes). d, En haut, un score de prévision plat sur les distances indique que les représentations de prévision ne rendent pas l'algorithme plus similaire au cerveau. En bas, en revanche, un score de prévision culminant à d > 1 indiquerait que le modèle manque de prévisions de type cérébral. Le pic de \({{{{\mathcal{F}}}}}^{d}\) indique à quelle distance dans le futur l'algorithme devrait prévoir les représentations les plus similaires au cerveau.

Premièrement, nous avons quantifié la similitude entre les modèles de langage profond et le cerveau, lorsque ces deux systèmes sont entrés avec les mêmes histoires. Pour cela, nous avons utilisé le jeu de données Narratives39 et analysé l'IRMf de 304 individus écoutant des histoires courtes (27 histoires allant de 7 à 56 min ; 4,6 h de stimulus unique au total, 26 min en moyenne par participant, de 7 à 99 min) . Nous avons ensuite ajusté, pour chaque voxel et chaque individu indépendamment, une régression linéaire de crête pour prédire les signaux IRMf à partir des activations de plusieurs modèles de langage profond. Enfin, nous avons calculé les `` scores cérébraux '' correspondants à l'aide de données conservées, c'est-à-dire la corrélation par voxel entre les signaux d'IRMf et les prédictions de l'entrée de régression de crête avec les activations d'un modèle de langage donné (Fig. 1b). Pour plus de clarté, nous nous sommes d'abord concentrés sur les activations de la huitième couche de Generative Pre-trained Transformer 2 (GPT-2), un réseau neuronal profond causal à 12 couches fourni par HuggingFace2 car il prédit le mieux l'activité cérébrale7,8.

Conformément aux études précédentes5,7,40,41, les activations de GPT-2 sont cartographiées avec précision sur un ensemble distribué et bilatéral de zones cérébrales. Les scores cérébraux ont culminé dans le cortex auditif et dans les zones temporales antérieure et supérieure (Fig. 2a, Fig. 1 supplémentaire, Note supplémentaire 1 et Tableaux supplémentaires 1 à 3). Les tailles d'effet de ces scores cérébraux sont conformes aux travaux antérieurs7,42,43 : par exemple, les scores cérébraux les plus élevés (R = 0,23 dans le sillon temporal supérieur (Fig. 2a)) représentent 60 % du signal explicable maximal, comme évaluée par une analyse du plafond de bruit (Méthodes). La note supplémentaire 2 et la figure supplémentaire 2 montrent qu'en moyenne, des scores cérébraux similaires sont obtenus avec d'autres modèles de langage de pointe et la figure supplémentaire 3 montre que les régions auditives peuvent être encore améliorées avec des représentations vocales de niveau inférieur. Comme prévu, le score cérébral du débit de mots (Fig. 3 supplémentaire), du plafond de bruit (Méthodes) et du GPT-2 (Fig. 2a) atteint tous un pic dans le réseau linguistique44. Dans l'ensemble, ces résultats confirment que les modèles de langage profond correspondent linéairement aux réponses du cerveau aux histoires parlées.

a, Le 'brain score' (\({{{\mathcal{R}}}}\ ); Fig. 1b et Méthodes), obtenu avec GPT-2, pour chaque individu et chaque voxel, ici moyenné sur les individus (n = 304). Seuls les voxels avec des scores cérébraux significatifs sont codés par couleur. b, Scores cérébraux moyens (à travers les voxels) obtenus avec GPT-2 avec (gris) ou sans représentations prévisionnelles (bleu). Le score cérébral moyen culmine à d* = 8 (étoile grise). c, Pour chaque voxel, le "score de prévision" moyen (entre les individus) \({{{{\mathcal{F}}}}}^{d}\), c'est-à-dire le gain de score cérébral lors de la concaténation des activations de GPT-2 avec une fenêtre de prévision \({\tilde{X}}^{(8)}\) est affiché. Seuls les voxels avec des scores de prévision significatifs sont codés par couleur. d, Scores de prévision moyens (à travers les voxels) pour différentes distances d. e, Distance qui maximise \({{{{\mathcal{F}}}}}^{d}\), calculée pour chaque individu et chaque voxel et notée d*. Cette « distance de prévision » révèle les régions associées aux prévisions à court et à long terme. Les régions en rouge et en bleu sont associées respectivement aux prévisions à long terme et à court terme. Nous n'affichons que les voxels avec un pic moyen significatif (\({{{{\mathcal{F}}}}}^{{d}^{* }}-{{{{\mathcal{F}}}}} ^{0},{d}^{* }=\,8\ ); Méthodes). f, score de prévision dans deux régions d'intérêt. Pour chaque région, nous rapportons les scores moyens prévus des individus avec un pic représentatif (individus dont le pic appartient aux centiles 45-55 de tous les pics, n = 30 individus). g, distance de prévision de sept régions d'intérêt, calculée pour chaque voxel de chaque individu, puis moyennée dans les régions cérébrales sélectionnées. Pour tous les panels, nous rapportons l'effet moyen sur les individus (n = 304), avec les IC à 95 % sur les individus (b,d,f). Les valeurs P ont été évaluées à l'aide d'un test bilatéral de rang signé de Wilcoxon entre les individus. Dans a, c, e, les valeurs P ont été corrigées pour de multiples comparaisons entre les voxels à l'aide du FDR et les cartes cérébrales sont seuillées à P <0,01. Le boxplot en g résume la distribution de l'effet obtenu sur dix subdivisions distinctes et aléatoires du jeu de données.

Ensuite, nous avons testé si l'amélioration des activations des modèles de langage avec des prédictions à long terme entraînait des scores cérébraux plus élevés (Fig. 1c, d). Plus précisément, pour chaque mot, nous avons concaténé (1) les activations modèles du mot présent (notées X) et (2) une "fenêtre de prévision" (notée \({\tilde{X}}^{(d)}\) ), constitué des incorporations de mots futurs et paramétré par une distance temporelle d et une largeur de w = 7 mots (voir la Fig. 4 supplémentaire pour l'analyse de la fenêtre croissante). Alors que la largeur est le nombre de mots concaténés, d correspond à la distance entre le mot courant et le dernier mot de la fenêtre. Par exemple, \({\tilde{X}}^{(10)}\) est la concaténation de mots à des distances de 4, 5 et jusqu'à 10 du mot courant, et \({\tilde{X}}^ {(8)}\) est la concaténation des mots aux distances 2, 3 et jusqu'à 8 du mot courant. Pour chaque distance d, nous avons calculé le 'score prévisionnel' (noté \({{{{\mathcal{F}}}}}^{d}\)) en comparant les scores cérébraux obtenus avec et sans les représentations prévisionnelles (Fig. .2b).

Nos résultats montrent que \({{{\mathcal{F}}}}\) est maximal pour une distance de d = 8 mots et culmine dans les zones généralement associées au traitement du langage (Fig. 2b – d). A titre de comparaison, il y a 2,54 mots par seconde en moyenne dans les stimuli. Ainsi, 8 mots correspondent à 3,15 s d'audio (le temps de deux scans IRMf successifs). Ces scores prévisionnels sont distribués bilatéralement dans le cerveau, à l'exception des gyrus frontal-inférieur et supramarginal (P < 0,001 dans la pars opercularis et supramarginal, en utilisant un test bilatéral de somme des rangs de Wilcoxon entre les hémisphères gauche et droit, après correction pour les comparaisons multiples (Méthodes)).

Des analyses supplémentaires confirment que (1) chaque mot futur du mot zéro à dix contribue de manière significative à l'effet de prévision, (2) les représentations de prévision sont mieux capturées avec une taille de fenêtre d'environ 8 mots, (3) les représentations de prévision aléatoires n'améliorent pas les scores cérébraux et (4) l'utilisation des mots générés par GPT-2 au lieu des vrais futurs mots donne des résultats inférieurs mais similaires (Notes supplémentaires 3–5 et Figs. 4–6 supplémentaires).

Ensemble, ces résultats révèlent des représentations prévisionnelles à long terme dans le cerveau représentant une amélioration de 23 % (± 9 % sur l'ensemble des individus) des scores cérébraux (Fig. 2a, b).

Des études tant anatomiques que fonctionnelles ont montré que le cortex est organisé en hiérarchie28,45 : par exemple, l'acoustique de bas niveau, les phonèmes et la sémantique sont principalement encodés dans le gyrus de Heschl, le gyrus temporal supérieur et les cortex associatifs des parties frontale, temporale et sémantique. lobes pariétaux, respectivement42,46,47,48,49.

Les différents niveaux de cette hiérarchie corticale prédisent-ils la même fenêtre temporelle ? Pour résoudre ce problème, nous avons estimé le pic du score de prévision de chaque voxel et noté d* la distance correspondante. Les résultats montrent que la prévision de la zone préfrontale est, en moyenne, plus éloignée dans le futur que les zones temporelles (Fig. 2e). Par exemple, d * dans le gyrus temporal inférieur (IFG) est plus élevé que dans le sillon temporal supérieur antérieur (aSTS) (Δd * = 0, 9 ± 0, 2, P <0, 001; Fig. 2f, g).

La variation de la distance de prévision optimale le long de l'axe temporo-pariétal-frontal est largement symétrique à travers les deux hémisphères (Fig. 1 supplémentaire).

Quelle est la nature de ces représentations prédictives ? Pour résoudre ce problème, nous avons évalué si le score de prévision se rapporte à (1) faible ou élevé ainsi qu'à (2) représentations syntaxiques ou sémantiques. Dans ce but, nous avons calculé les scores de prévision comme sur la Fig. 1c mais en faisant varier la couche utilisée à partir de GPT-2. Ensuite, nous avons identifié k* pour chaque voxel, c'est-à-dire la profondeur qui maximise les scores de prévision (Méthodes). Nous avons considéré que les couches profondes des algorithmes de langage encodent des représentations de plus haut niveau et plus contextualisées que leurs premières couches50,51.

Nos résultats ont montré que la profondeur de prévision optimale varie le long de la hiérarchie corticale attendue (Fig. 3a). Plus précisément, les cortex associatifs sont mieux modélisés avec des prévisions plus profondes (k *> 6) que les zones de langage de bas niveau (par exemple, k * <6 dans les gyri / sulci de Heschl, aSTS; Fig. 3a, b). La différence entre les régions, bien que faible en moyenne, était très significative d'un individu à l'autre (par exemple, entre le gyri angulaire et de Heschl : Δk* = 2,5 ± 0,3, P < 0,001) et observée à la fois dans les hémisphères gauche et droit (Fig. 3b ).

a, Profondeur de la représentation qui maximise le score prévisionnel dans le cerveau, notée k*. Les scores de prévision ont été calculés pour chaque profondeur, individu et voxel, à une distance fixe de d* = 8 et moyennés sur les individus. Nous avons calculé la profondeur optimale pour chaque individu et voxel et tracé la profondeur moyenne prévue pour les individus. Les régions sombres sont mieux expliquées par des prévisions profondes, tandis que les régions claires sont mieux expliquées par des prévisions peu profondes. Seuls les voxels significatifs sont codés par couleur comme sur la figure 2c). b, Identique à a mais avec k * moyenné sur les voxels de neuf régions d'intérêt, dans les hémisphères gauche (cercle) et droit (triangle). Les scores ont été moyennés entre les individus (n = 304) et la boîte à moustaches résume la distribution de l'effet obtenu sur dix subdivisions distinctes et aléatoires de l'ensemble de données. La signification par paires entre les régions a été évaluée à l'aide d'un test de somme des rangs de Wilcoxon bilatéral sur les scores de l'hémisphère gauche (les barres grises indiquent P <0,001).

Ensemble, ces résultats suggèrent que les prédictions à long terme des cortex fronto-pariétaux sont plus contextualisées et de niveau supérieur que les prédictions à court terme des régions cérébrales de bas niveau.

Pour factoriser les représentations prévisionnelles en composantes syntaxiques et sémantiques, nous avons appliqué une méthode introduite dans Caucheteux et al.40 et procédé comme suit : pour chaque mot et son contexte précédent, nous avons généré dix futurs possibles, qui correspondent à la syntaxe des vrais futurs mots. Nous avons choisi k = 10 futurs possibles suivants40. Pour chacun de ces futurs possibles, nous avons extrait les activations GPT-2 correspondantes et les avons moyennées sur les dix futurs possibles (Fig. 4a et Méthodes). Cette méthode nous a permis de décomposer les activations d'un modèle de langage X donné en composantes syntaxiques (le vecteur moyen, noté Xsyn) et sémantiques (les résidus, Xsem = X − Xsyn) (Méthodes). Une fois les fenêtres de prévision syntaxique et sémantique construites, nous avons calculé les scores de prévision correspondants (Méthodes).

a, Méthode d'extraction des représentations prévisionnelles syntaxiques et sémantiques, adaptée de Caucheteux et al.40. Pour chaque mot et son contexte (par exemple, 'Génial, votre papier...', nous avons généré dix futurs possibles avec la même syntaxe que la phrase d'origine (partie du discours et arbre de dépendance) mais une sémantique échantillonnée au hasard (par exemple, ' ... reste si vrai", "... semble si petit"). Ensuite, nous avons extrait les activations GPT-2 correspondantes (couche huit). Enfin, nous avons fait la moyenne des activations sur les dix futurs. Cette méthode nous a permis d'extraire la composante syntaxique commune aux dix futurs, notée Xsyn. La composante sémantique a été définie comme les résidus de syntaxe dans les activations complètes ; Xsem = X − Xsyn. Nous avons construit les fenêtres de prévision syntaxique et sémantique en concaténant les composantes syntaxique et sémantique de sept mots futurs consécutifs, respectivement (Méthodes). b, Scores de prévision syntaxiques (bleu) et sémantiques (rouge), en moyenne sur tous les voxels, comme sur la figure 2c. Les scores ont été moyennés entre les individus ; les régions ombrées indiquent les IC à 95 % sur individus (n = 304) Les pics moyens à travers les individus sont indiqués par une étoile. c, scores de prévision sémantique pour chaque voxel, moyennés entre les individus et à d * = 8, la distance qui maximise les scores de prévision sémantique en b. Seuls les voxels significatifs sont affichés comme sur la figure 2c. d, Identique à c pour les scores de prévision syntaxique et d* = 5.

Les résultats montrent que les prévisions sémantiques sont à longue portée (d* = 8) et impliquent un réseau distribué culminant dans les lobes frontaux et pariétaux. En revanche, les prévisions syntaxiques (Fig. 4b) sont relativement courtes (d * = 5) et localisées dans les zones temporale supérieure et frontale gauche (Fig. 4c, d). Notez que le modèle syntaxique sans fenêtre de prévision (qui a une dimensionnalité plus faible) est plus performant que le modèle syntaxique avec une fenêtre de prévision distante. De tels scores diminués peuvent se produire lorsqu'il n'y a pas d'informations supplémentaires dans la dimension supplémentaire de la régression en raison de la fameuse malédiction de la dimensionnalité52. Cela suggère qu'une prévision syntaxique à long terme n'est pas détectable dans l'ensemble de données actuel.

Dans l'ensemble, ces résultats révèlent plusieurs niveaux de prédictions dans le cerveau dans lesquels le cortex temporal supérieur prédit principalement des représentations à court terme, superficielles et syntaxiques, tandis que les zones frontale inférieure et pariétale prédisent principalement des représentations à long terme, contextuelles, de haut niveau et sémantiques. .

Ces résultats montrent que la concaténation des représentations verbales présentes et futures de GPT-2 conduit à une meilleure modélisation de l'activité cérébrale, en particulier dans les zones frontopariétales (Fig. 2). Le réglage fin de GPT-2 pour prédire des représentations à plus longue portée, plus contextuelles et de plus haut niveau améliore-t-il la cartographie cérébrale dans ces régions ? Pour répondre à cette question, nous avons affiné GPT-2 sur Wikipédia, non seulement en utilisant la modélisation du langage (c'est-à-dire prédire le mot suivant), mais également un objectif de haut niveau et à long terme (c'est-à-dire prédire des représentations de haut niveau de mots lointains). Plus précisément, l'objectif de haut niveau est de prédire la couche 8 du modèle GPT-2 pré-entraîné, de mot t + 8 (Méthodes). Les résultats montrent que le GPT-2 affiné avec une modélisation de haut niveau et à longue portée rend le mieux compte des réponses frontopariétales (Fig. 5, gain> 2% dans l'IFG et les gyri angulaires / supramarginaux en moyenne, tous P <0, 001). En revanche, les zones auditives et les régions cérébrales de niveau inférieur ne bénéficient pas de manière significative d'un objectif aussi élevé (Fig. 5 et Supplémentaire Fig. 7). Ces résultats renforcent encore le rôle des aires frontopariétales dans la prédiction des représentations à long terme, contextuelles et de haut niveau du langage.

a, Gain des scores cérébraux entre GPT-2 affiné avec la modélisation du langage plus prédiction de haut niveau (pour αniveau élevé = 0,5) et GPT-2 affiné avec la modélisation du langage seul. Seuls les voxels avec un gain significatif sont affichés (P < 0,05 avec un test bilatéral Wilcoxon rank-sum après correction FDR pour les comparaisons multiples). b, Gain de score cérébral en fonction du poids de haut niveau α dans la perte (équation (8)), de la modélisation complète du langage (gauche, α = 0) à la prédiction complète de haut niveau (droite, α = 1). Les gains ont été moyennés sur les voxels dans six régions d'intérêt (voir Méthodes de parcellisation et Fig. 7 supplémentaire pour les autres régions du cerveau). Les scores ont été moyennés entre les individus et nous affichons les IC à 95 % entre les individus (n = 304).

Dans la présente étude, nous avons mis à l'épreuve des hypothèses spécifiques de la théorie du codage prédictif25,26,27. Alors que les algorithmes de langage profond sont généralement formés pour faire des prédictions proches et au niveau des mots1,2,3,53,54,55, nous avons évalué si la hiérarchie corticale prédit plusieurs niveaux de représentations, couvrant plusieurs échelles de temps. Dans ce but, nous avons comparé les activations du cerveau à celles de modèles de langage profond à la pointe de la technologie5,6,7,42,56. Nous avons validé avec succès notre hypothèse sur une cohorte de 304 participants écoutant des récits parlés39. L'activité cérébrale s'explique mieux par les activations d'algorithmes de langage profond améliorés par des prédictions à long terme et de haut niveau. Notre étude apporte trois contributions supplémentaires.

Premièrement, les cortex latéral, dorsolatéral et frontal inférieur et le gyrus supramarginal présentaient les distances de prévision les plus longues. Fait intéressant, ces régions corticales ont été liées à plusieurs reprises à la sémantique de haut niveau, à la planification à long terme, au contrôle attentionnel, à la pensée abstraite et à d'autres fonctions exécutives de haut niveau57,58. Ce résultat fait écho à des études antérieures montrant que la constante d'intégration des cortex fronto-pariétaux est plus grande que celles des aires sensorielles et temporelles46,59,60,61. Plus précisément, nos résultats suggèrent que ces régions, situées au sommet de la hiérarchie linguistique, ne se limitent pas à intégrer passivement les stimuli passés mais anticipent activement les représentations linguistiques futures.

Deuxièmement, nous avons montré que la profondeur des représentations prédictives varie le long d'une organisation anatomique similaire : les prédictions de bas niveau modélisent mieux le sillon temporal supérieur et le gyrus, tandis que les prédictions de haut niveau modélisent mieux les zones temporales moyennes, pariétales et frontales. Cette découverte prolonge les études antérieures portant sur la multiplicité des prédictions sous-jacentes au traitement complexe du son ou de la parole28,34,36,62. Alors que les études précédentes se concentraient sur la corrélation de l'activité cérébrale avec un sous-ensemble d'erreurs de prédiction artisanales et unidimensionnelles (par exemple, mots ou phonèmes surprenants), les analyses actuelles ont exploré et décomposé les prédictions de grande dimension. Plus généralement, nos résultats soutiennent l'idée que, contrairement aux algorithmes de langage actuels, le cerveau ne se limite pas à prédire les représentations au niveau des mots mais prédit plutôt plusieurs niveaux de représentations.

Enfin, nous avons décomposé ces activations neuronales en représentations syntaxiques et sémantiques et montré que les caractéristiques sémantiques, par opposition aux caractéristiques syntaxiques, conduisent à des prévisions à long terme. Cette découverte renforce l'idée que si la syntaxe peut être explicitement représentée dans l'activité neuronale40,63,64, la prédiction de la sémantique de haut niveau peut être au cœur du traitement du langage de forme longue65,66.

Ensemble, ces résultats soutiennent les théories de codage prédictif, selon lesquelles le cerveau prédit continuellement les entrées sensorielles, compare ces prédictions à la vérité et met à jour son modèle interne en conséquence25,26,67. Notre étude précise davantage ce cadre général. Non seulement le cerveau prédit les entrées sensorielles, mais chaque région de la hiérarchie corticale est organisée pour prédire différentes portées temporelles et différents niveaux de représentations (Fig. 1a). Cependant, le lien entre les constructions hiérarchiques dans la syntaxe et la hiérarchie fonctionnelle dans le cortex et dans le modèle est une question majeure à explorer40,51,68.

Cette organisation informatique est en contradiction avec les algorithmes de langage actuels, qui sont principalement formés pour faire des prédictions adjacentes et au niveau des mots (Fig. 1a). Certaines études ont examiné les règles d'apprentissage alternatives4,53,55,69,70,71,72 mais elles n'ont pas combiné les prédictions à long terme et de haut niveau. Nous supposons que l'architecture cérébrale mise en évidence dans cette étude présente au moins un avantage majeur par rapport à ses homologues actuels d'apprentissage en profondeur. Alors que les observations futures deviennent rapidement indéterminées dans leur format d'origine, leurs représentations latentes peuvent rester prévisibles sur de longues périodes. Ce problème est déjà omniprésent dans les algorithmes basés sur la parole et l'image et a été partiellement contourné avec des pertes basées sur l'intégration pré-entraînée73, l'apprentissage contrastif et, plus généralement, les architectures d'intégration conjointe74,75,76,77. Dans cette étude, nous soulignons que ce problème prévaut également dans les modèles de langage, où les séquences de mots, mais sans doute pas leur sens, deviennent rapidement imprévisibles. Nos résultats suggèrent que la prédiction de plusieurs niveaux de représentations sur plusieurs étendues temporelles peut être essentielle pour répondre à la nature indéterminée de ces observations distantes et ajuster leur confiance relative en conséquence78.

Trois éléments principaux atténuent ces conclusions. Premièrement, contrairement aux techniques résolues temporellement7,11,36, la résolution temporelle de l'IRMf est d'environ 1,5 s et peut donc difficilement être utilisée pour étudier les prédictions sublexicales. Deuxièmement, les représentations et prédictions précises calculées dans chaque région de la hiérarchie corticale doivent être caractérisées. Cela nécessitera probablement de nouvelles techniques de sondage car l'interprétation des représentations neuronales est un défi majeur à la fois pour l'intelligence artificielle et les neurosciences. Enfin, l'architecture de codage prédictif actuellement testée est rudimentaire. Une généralisation, une mise à l'échelle et une évaluation systématiques de cette approche sur des repères de traitement du langage naturel sont nécessaires pour démontrer l'utilité effective de rendre les modèles plus similaires au cerveau.

Au-delà de la clarification des bases cérébrales et computationnelles du langage, notre étude appelle donc à entraîner systématiquement des algorithmes pour prédire de multiples échelles de temps et niveaux de représentations.

On note :

w comme suite de M mots (c'est-à-dire plusieurs nouvelles) ;

X comme les activations d'un modèle de langage profond entré avec w, de taille M × U, avec U comme dimensionnalité des plongements (pour une couche de GPT-2, U = 768). Sauf mention contraire, nous avons utilisé les activations extraites de la huitième couche d'un modèle GPT-2 à 12 couches. Nous notons explicitement Xk les activations extraites de la couche k lors de l'utilisation d'une autre couche ;

Y comme les enregistrements IRMf suscités par w, de taille T × V, avec T comme nombre d'échantillons temporels IRMf et V comme nombre de voxels ;

\({{{\mathcal{R}}}}(X)\) comme score cérébral de X ;

\({\widetilde{X}}^{(d)}\) comme fenêtre de prévision contenant des informations jusqu'à d mots dans le futur. Brièvement, la fenêtre de prévision est la concaténation des activations du réseau profond de sept mots successifs, le dernier mot étant à une distance d du mot courant ;

\({{{{\mathcal{F}}}}}^{(d)}(X)\) comme score de prévision à distance d, c'est-à-dire le gain de score cérébral lors de la concaténation de la fenêtre de prévision \({ \tilde{X}}^{(d)}\) aux activations du réseau ; \({{{{\mathcal{F}}}}}^{(d)}(X)={{{\mathcal{R}}}}(X\oplus {\tilde{X}}^{( d)})-{{{\mathcal{R}}}}(X)\ );

d* comme la distance maximisant le score de prévision ; \({d}^{* }={{{{\rm{argmax}}}}}_{d\in [-10,\ldots,30]}\,{{{{\mathcal{F}} }}}^{(d)}(X)\);

k* comme la profondeur du réseau maximisant le score de prévision à une distance fixe d = 8 ; \({k}^{* }={{{{\rm{argmax}}}}}_{k\in [0,\ldots ,12]}\,{{{{\mathcal{F}}} }}^{(8)}({X}_{k})\), avec Xk comme les activations extraites de la kième couche de GPT-2. Nous avons utilisé d = 8 car c'était la distance avec le meilleur score de prévision en moyenne entre les individus et les voxels.

Nous avons utilisé les enregistrements cérébraux (notés Y) de l'ensemble de données Narratives39, un ensemble de données accessible au public contenant les enregistrements IRMf de 345 personnes écoutant 27 histoires parlées en anglais, de 7 à 56 min (4,6 h de stimulus unique au total). Nous utilisons les signaux IRMf prétraités de l'ensemble de données d'origine, sans lissage spatial (appelés « afni-nosmooth » dans le référentiel) et échantillonnés avec TR = 1,5 s. Les étapes de prétraitement ont été effectuées à l'aide de fMRIPrep79 ; aucun filtrage temporel n'a été appliqué. Le prétraitement qui en a résulté a conduit à l'analyse de voxels corticaux projetés sur la surface et transformés en un cerveau modèle «fsaverage»; ci-après, ils sont appelés voxels pour plus de simplicité. Comme suggéré dans l'article original, certaines paires individu-histoire ont été exclues en raison du bruit, ce qui a donné 304 individus et 622 paires individu-histoire et 4 h de matériel audio unique au total.

Nous avons comparé les enregistrements IRMf avec les activations de plusieurs entrées de modèles de langage profond pré-entraînés avec les mêmes phrases présentées aux individus. Pour plus de clarté, nous nous sommes principalement concentrés sur GPT-2, un modèle de langage causal très performant formé pour prédire les mots en fonction de leur contexte précédent. GPT-2 se compose de 12 modules Transformer1,2, chacun d'eux étant appelé « couche », empilés sur une couche d'intégration de mots non contextuels. Nous avons utilisé les modèles pré-entraînés de Huggingface80 (1,5 milliard de paramètres entraînés sur 8 millions de pages Web).

En pratique, pour extraire les activations X suscitées par une séquence de M mots w de la kième couche du réseau, nous (1) avons formaté la transcription textuelle de la séquence w (en remplaçant les signes de ponctuation spéciaux tels que '-' et les signes dupliqués ' ?.' par des points), (2) tokenisé le texte à l'aide du tokenizer Huggingface, (3) entré le réseau avec les jetons et (4) extrait les activations correspondantes de la couche k. Cela a abouti à un vecteur de taille M × U, avec M le nombre de mots et U le nombre d'unités par couche (c'est-à-dire U = 768). Compte tenu de la taille de contexte contrainte du réseau, chaque mot a été successivement entré dans le réseau avec au plus 1 024 jetons précédents. Par exemple, alors que le vecteur du troisième mot était calculé en saisissant le réseau avec (w1, w2, w3), le vecteur du dernier mot wM était calculé en saisissant le réseau avec (wM−1,024,…,wM). L'alignement entre les enregistrements audio des histoires et leurs transcriptions textuelles a été fourni dans la base de données originale Narratives39.

Suite à des travaux antérieurs7,42,56, nous avons évalué, pour chaque individu s et voxel v, la cartographie entre (1) les activations IRMf Y(s,v) en réponse aux histoires audio et (2) les activations X de la profondeur entrée réseau avec les transcriptions textuelles des mêmes histoires. À cette fin, nous avons ajusté une régression linéaire de crête W sur un ensemble d'apprentissage pour prédire les scans IRMf compte tenu des activations du réseau. Ensuite, nous avons évalué cette cartographie en calculant la corrélation de Pearson entre les scans IRMf prédits et réels sur un ensemble retenu :

avec W comme projection linéaire ajustée, corr comme corrélation de Pearson, X comme les activations de GPT-2 et Y(s,v) comme les scans IRMf d'un individu s à un voxel v, tous deux provoqués par les mêmes histoires retenues .

En pratique et à la suite de Huth et al.42, nous avons modélisé la réponse lente en gras grâce à un modèle de réponse impulsionnelle finie (RIF) à six retards (de 0 à 9 s, TR = 1,5 s). Toujours en suivant Huth et al.42, nous avons additionné les activations du modèle des mots présentés dans le même TR pour correspondre à la fréquence d'échantillonnage des modèles d'IRMf et de langage (Figs. 8 et 9 supplémentaires). Ensuite, nous avons estimé la cartographie linéaire W avec une régression linéaire pénalisée ℓ2 après avoir standardisé les données et réduit leur dimensionnalité (pour des raisons de calcul). Nous avons implémenté scikit-learn81 et utilisé un pipeline avec les étapes suivantes : (1) standardisation des fonctionnalités (définies sur une moyenne de 0 avec un écart-type de 1 à l'aide d'un StandardScaler), (2) analyse en composantes principales (ACP) avec 20 composantes et ( 3) Régression linéaire pénalisée ℓ2 (RidgeCV dans scikit-learn). Dans la Fig. 3c supplémentaire, nous avons reproduit les principales analyses sans PCA (les scores cérébraux et l'effet prévu ont été légèrement sous-estimés par la PCA). L'hyperparamètre de régularisation du RidgeCV a été sélectionné avec une validation croisée imbriquée sans un seul parmi dix valeurs possibles log-espacées entre 10−1 et 108 pour chaque voxel et chaque pli d'apprentissage.

Le schéma de validation croisée externe, qui permet une évaluation indépendante des performances, utilise cinq plis obtenus en divisant la série chronologique IRMf en cinq morceaux contigus. La moyenne des corrélations de Pearson sur les cinq plis de test est appelée "score cérébral" et notée \({{{{\mathcal{R}}}}}^{(s,v)}(X)\). Il mesure la cartographie entre l'espace d'activation X et le cerveau d'un individu s à un voxel v en réponse au même stimulus langagier.

Sur les figures 2a, b, les scores cérébraux ont été calculés pour chaque paire (individuelle, voxel). Nous avons ensuite moyenné les scores cérébraux des individus (Fig. 2a) et/ou des voxels (Fig. 2b) en fonction de l'analyse. Pour plus de simplicité, nous désignons \({{{\mathcal{R}}}}(X)\) comme les scores cérébraux moyennés entre les individus et/ou les voxels.

Nous avons testé si l'ajout de représentations prévisionnelles améliorerait notre capacité à prédire l'activité cérébrale. Dans ce but, nous n'avons pas modifié le réseau profond lui-même mais ajouté des représentations de prévision à l'entrée du modèle d'encodage, c'est-à-dire la fenêtre de prévision. La fenêtre de prévision à distance d, notée \({\widetilde{X}}^{(d)}\), est la concaténation des activations du réseau de sept mots successifs, le dernier étant à une distance d du courant mot. Précisément, la fenêtre de prévision d'un mot wn à une distance d est la concaténation des activations du réseau suscitées par les mots wn + d−6, …, wn + d. Ainsi,

avec ⊕ comme opérateur de concaténation et M comme nombre de mots dans la transcription w (Fig. 9 supplémentaire). Notez que d peut être négatif : dans ce cas, la fenêtre de prévision ne contient que les informations passées. Sauf mention contraire, la fenêtre de prévision a été construite à partir des activations X extraites de la huitième couche de GPT-2. Sur la Fig. 3, la fenêtre de prévision a été construite à partir des activations Xk extraites des différentes couches k de GPT-2. Nous avons désigné \({\widetilde{X}}_{k}^{(d)}\) comme les fenêtres de prévision correspondantes. Dans la Fig. 4, les fenêtres de prévision ont été construites à partir des activations syntaxiques (Xsyn) et sémantiques (Xsem) de GPT-2.

Pour chaque distance d, individu s et voxel v, nous avons calculé le 'score prévisionnel' \({{{{\mathcal{F}}}}}^{(d,s,v)}\), qui est le gain dans le score cérébral lors de la concaténation des fenêtres de prévision aux activations GPT-2 actuelles. Ainsi,

Pour faire correspondre la dimensionnalité de X et \(\tilde{X}\), l'ACP utilisée pour calculer le mappage a été formée sur X et \(\tilde{X}\) séparément avant de concaténer les deux caractéristiques, c'est-à-dire \( {{{\mathcal{F}}}}(X)={{{\mathcal{R}}}}({{{\rm{PCA}}}}(X)+{{{\rm{PCA} }}}(\tilde{X}))-{{{\mathcal{R}}}}({{{\rm{PCA}}}}(X))\).

Pour tester si la portée de prévision variait le long de la hiérarchie corticale, nous avons estimé la distance maximisant le score de prévision. Précisément, la "distance de prévision" optimale d* pour chaque individu s et voxel v a été définie comme :

avec X comme activations du modèle de langage et \({{{{\mathcal{F}}}}}^{(d,s,v)}\) comme score de prévision à distance d pour l'individu s et le voxel v (équation (3)). Les distances prévues d* ont ensuite été moyennées sur les individus et/ou les voxels selon les analyses.

La présente analyse n'est pertinente que pour les régions du cerveau pour lesquelles les scores de prévision ne sont pas plats. En effet, calculer la distance maximisant une courbe plate serait trompeur. Ainsi, sur la figure 2e, nous avons calculé la différence \({{{{\mathcal{F}}}}}^{8}-{{{{\mathcal{F}}}}}^{0}\) pour chaque individu et voxel, évalué la signification avec un test de somme des rangs de Wilcoxon entre les individus et ignoré les voxels avec une différence non significative (P > 0,01).

Pour tester si la profondeur de la prévision variait le long de la hiérarchie corticale, nous avons calculé le score de prévision pour différentes profondeurs de représentation. Nous avons remplacé X par les activations Xk extraites de la couche k de GPT-2 (k ∈ [0, …, 12]) dans les équations (3) et (4). Ensuite, nous avons calculé la profondeur maximisant le score de prévision, appelée 'profondeur de prévision', et donnée par :

avec \({{{{\mathcal{F}}}}}^{(d,s,v)}({X}_{k})={{{{\mathcal{R}}}}}^ {(s,v)}({X}_{k}\oplus {\widetilde{{X}_{k}}}^{(d)})-{{{\mathcal{R}}}}( {X}_{k})\) (équation (3)). Pour simplifier, nous avons étudié la profondeur en nous concentrant sur la distance fixe d = 8 (Fig. 3c, d), ce qui maximise le score de prévision de la Fig. 2.

Pour extraire les composantes syntaxiques et sémantiques de X, vecteur d'activations en réponse à une histoire w, nous avons appliqué une méthode introduite dans Caucheteux et al.40 (Fig. 4a). Pour chaque mot, (1) nous avons généré n = 10 futurs de la même syntaxe que le vrai futur (c'est-à-dire la même partie du discours et les mêmes balises de dépendance que le vrai futur) mais avec une sémantique échantillonnée au hasard, (2) nous avons calculé les activations pour chacun des 10 contrats à terme possibles et (3) nous avons fait la moyenne des activations sur les 10 contrats à terme. Nous avons utilisé le même hyperparamètre n = 10 que dans l'article original. La méthode converge en fait à partir de n = 7 (Fig. 8 supplémentaire dans l'article). Cette méthode permet d'extraire le vecteur moyen Xsyn, qui contient des informations syntaxiques mais est dépourvu d'informations sémantiques. Les activations sémantiques Xsem = X − Xsyn sont les résidus de la syntaxe dans les activations complètes X. Dans l'article original (Fig. 3), les auteurs ont vérifié par des analyses approfondies que les plongements syntaxiques encodaient des informations syntaxiques pertinentes (partie du discours et profondeur de l'arbre syntaxique) et non plus d'informations sémantiques codées (fréquence des mots, incorporation de mots, catégorie sémantique).

Pour étudier les prévisions syntaxiques et sémantiques dans le cerveau, nous avons construit des fenêtres de prévision à partir des activations syntaxiques et sémantiques de GPT-2, respectivement. Dans ce but, nous avons d'abord construit les fenêtres de prévision à partir des activations GPT-2 \({\widetilde{X}}^{(d)}\). Ensuite, nous avons extrait la syntaxe \({\widetilde{X}}_{{{{\rm{syn}}}}}^{(d)}\) et la sémantique \({\widetilde{X}}_{ {{{\rm{sem}}}}}^{(d)}\) composants des activations concaténées, comme introduit dans Caucheteux et al.40. Enfin, le score de prévision syntaxique est l'augmentation du score cérébral lors de la concaténation de la fenêtre syntaxique :

De même, le score de prévision sémantique est donné par :

Nous avons systématiquement mis en œuvre des analyses du cerveau entier et calculé des scores pour chaque voxel dans le cerveau. Pourtant, pour plus de simplicité, nous rapportons les scores moyennés dans les régions d'intérêt sélectionnées dans les Figs. 2f,g et 3c. Pour cela, nous avons utilisé une subdivision de l'atlas de Destrieux82. Les régions avec plus de 500 sommets ont été divisées en parties plus petites. Cela a abouti à 142 régions par hémisphère, chacune contenant moins de 500 sommets.

Il en résulte 142 régions par hémisphère, chacune contenant moins de 500 sommets

GST / STS

Gyrus temporal supérieur / sulcus

aSTS

STS antérieur

mSTS

STS moyen

pSTS

STS postérieur

Angulaire / Supramar

Gyrus pariétal inférieur angulaire / supramarginal

IFG / IFS

Gyrus frontal inférieur / sulcus

Tri/Op

Pars triangularis / opercularis (IFG)

Heschl G / Heschl S

Gyrus de Heschl / sillon

Nous avons systématiquement mis en œuvre des analyses individuelles et du cerveau entier : toutes les métriques (score cérébral, score prévisionnel, distance et profondeur prévisionnelles) ont été calculées pour chaque paire individu-voxel. Nous rapportons les métriques moyennées sur les individus et/ou les voxels en fonction de l'analyse. Les statistiques ont été calculées sur les individus à l'aide d'un test de somme de rang Wilcoxon bilatéral de Scipy83 évaluant si la métrique (ou la différence entre deux métriques) était significativement différente de zéro, puis corrigées pour les comparaisons multiples à l'aide du taux de fausses découvertes (FDR). Nous rapportons un effet comme significatif si P < 0,01. Les régions ombrées des Fig. 2, 4 et 5 correspondent aux intervalles de confiance (IC) à 95 % entre les individus (n = 304). Les boîtes à moustaches des Figs. 2–5 résument la distribution de l'effet obtenu sur 10 subdivisions distinctes et aléatoires du jeu de données.

Les enregistrements IRMf sont intrinsèquement bruyants. Pour évaluer la quantité de signal explicable, nous avons utilisé une analyse de "plafond de bruit", c'est-à-dire que nous avons prédit les réponses cérébrales Y(s) de chaque individu s compte tenu des réponses des autres individus à la même histoire \(\overline{Y }\). Nous avons procédé de la même manière que pour le calcul du score cérébral et appliqué le même paramètre que l'équation (1), mais en utilisant les signaux cérébraux moyens des cerveaux d'autres individus \({\overline{Y}}^{(s)}=\frac{1} {| {{{\mathcal{S}}}}| }{\sum }_{{s}^{{\prime} }\ne s}{Y}^{({s}^{{\prime} })}\) (de taille T × V) au lieu des activations X du réseau. Précisément :

Pour le calcul du score cérébral, Y(s) représente les enregistrements IRMf de l'individu s, correspondant à toutes les histoires que l'individu s a écoutées lors de son scan. X se compose des intégrations contextuelles des mots correspondants, additionnées dans chaque TR et transformées avec FIR. Ainsi,

avec X comme inclusions GPT-2, alignées temporellement avec Y à l'aide du FIR.

Pour le calcul du plafond de bruit, Y(s) est le même que pour le calcul du score cérébral. X se compose des enregistrements IRMf moyens des autres individus qui ont écouté les mêmes histoires que l'individu s. X et Y ont la même dimensionnalité et le délai en gras est supposé être comparable entre les individus, nous n'avons donc pas appliqué de FIR à X. Ainsi,

avec Y(s) comme IRMf moyenne des autres individus ayant écouté la même histoire que l'individu s.

Pour le calcul du score cérébral et du plafond de bruit, nous avons ajusté une régression de crête W(s) pour chaque individu s, prédisant Y(s) étant donné X, en utilisant le même paramètre de validation croisée quintuple. Nous avons évalué la prédiction successivement sur les cinq plis de test en utilisant la corrélation de Pearson et avons moyenné les scores de corrélation entre les plis. Il en est résulté un score cérébral et une estimation du plafond de bruit par individu (et voxel). Les résultats moyennés entre les individus sont affichés dans la Fig. 10 supplémentaire. Ce score est une limite supérieure possible pour le meilleur score cérébral pouvant être obtenu compte tenu du niveau de bruit dans l'ensemble de données.

Le réglage fin de GPT-2 pour prédire des représentations à long terme, de haut niveau et plus contextualisées augmente-t-il sa similitude avec le cerveau ?

Pour tester cette question, nous avons affiné GPT-2 en utilisant un mélange de perte de modélisation de langage et de perte de haut niveau et à long terme. Nous avons ensuite évalué les scores cérébraux et testé si l'objectif de haut niveau conduirait à des scores cérébraux significativement plus élevés que l'objectif de modélisation du langage.

Nous avons affiné le modèle GPT-2 pré-entraîné fourni par Huggingface avec un mélange de modélisation du langage et de prévisions de haut niveau. La perte de mélange a été paramétrée par un hyperparamètre α ∈ [0,1]. La perte totale minimisée est donnée par :

avec la contrainte que \({\alpha }^{{\prime} }{{{{\mathcal{L}}}}}_{\mathrm{high-level}}=\alpha (1-{\alpha } ^{{\prime} }){{{{\mathcal{L}}}}}_{\mathrm{langage}\ {\mathrm{modélisation}}}\). Ce faisant, fixer α à 0,5 signifie que chaque terme de la perte contribue à 50 % de la perte totale. L'objectif de modélisation du langage prédit le mot suivant et il est donné par :

avec:

CE comme perte d'entropie croisée ;

f comme le modèle affiné appris. f est initialisé avec les poids de GPT-2 pré-entraînés. Ainsi, f est un réseau Transformer à 12 couches empilé sur un word embedding, chaque couche ayant une dimensionnalité de 768 ;

\(h_{{\rm{langage}}\,{\rm{modélisation}}}\) comme tête linéaire de modélisation du langage au-dessus de la dernière couche de f, de 768 à nvocab, qui prédit le mot suivant ;

xt comme jetons d'entrée ;

xt + 1 lorsque les jetons d'entrée se sont décalés d'un pas de temps (les mots suivants).

L'objectif de haut niveau prédit la couche k de mot à distance d du mot courant et il est donné par :

où:

Nk est un réseau séparé et fixe. Ici, nous utilisons la version pré-entraînée de GPT-2 fournie par Huggingface, prise à la couche k. Ses poids sont fixes : ils ne varient pas avec l'entraînement.

\(h_{{\rm{high}}\hbox{-}{\rm{level}}}\) est une tête linéaire au-dessus de la dernière couche de f, de 768 à 768, qui prédit les activations du kième couche du réseau fixe Nk, correspondant au mot à distance d du mot courant.

x représente les entrées, xt marque les mots courants et xt + d marque les mots à distance d du mot courant.

Le CPC est la perte de codage prédictive contrastive84.

avec S comme métrique de similarité, ytrue,negative comme un ensemble d'échantillons négatifs et ytrue,positive comme un ensemble d'échantillons positifs.

En pratique, nous avons choisi de prédire les états cachés à la couche k = 8 du futur mot à distance d = 8. Nous avons choisi la couche k = 8 et d = 8 car elle conduisait aux meilleurs résultats (Fig. 2d). Pour calculer la perte de CPC, nous avons pris τ = 0,1 et utilisé la similarité cosinus comme métrique de similarité S. Nous avons utilisé 2 000 négatifs échantillonnés au hasard dans une file d'attente négative (de taille 2 500). La file d'attente négative a été mise à jour à chaque lot en ajoutant les états masqués aux mots non cibles du lot en cours. Ces états cachés ont été extraits du réseau pré-entraîné au niveau de la couche k (Nk). Pour que les pertes de haut niveau et de modélisation du langage aient une contribution fixe α et 1 - α sur l'entraînement, nous avons mis à jour le paramètre \({\alpha }^{{\prime} }\) dans l'équation (8) tous les 100 pas de gradient .

Nous avons affiné GPT-2 sur le jeu de données Wikipedia anglais déjà prétraité (https://huggingface.co/datasets/wikipedia) composé de 6 millions de documents (30 Go) sur 2 unités de traitement graphique. Nous avons utilisé l'implémentation 'Trainer' de Huggingface avec les arguments d'entraînement par défaut (optimiseur Adam, taux d'apprentissage = 0,00005 ; voir https://huggingface.co/docs/transformers/main_classes/trainer pour les autres paramètres par défaut). En raison de contraintes de mémoire, nous avons limité la taille de contexte de GPT-2 à 256 jetons et utilisé une taille de lot de 4 par appareil (ainsi, 2 × 4 × 256 = 1 024 jetons par lot et mises à jour de gradient). Pour plus de stabilité, nous affinons les couches supérieures du réseau (de la couche 8 à la couche 12), tandis que les couches inférieures sont restées figées. Le réglage fin de l'ensemble du réseau avec la modélisation du langage a entraîné une baisse significative des scores cérébraux (avec des paramètres d'entraînement fixes). Les pertes ont été surveillées sur un ensemble d'évaluation séparé de 1 000 documents Wikipédia.

Nous avons affiné sept modèles GPT-2 avec différents poids de haut niveau α, d'une perte étant une modélisation de langage complet (α = 0), une modélisation de demi-langage et un haut niveau (α = 0,5) à un haut niveau complet (α = 1). Au cours de la formation, nous avons enregistré ≈15 points de contrôle du modèle (régulièrement espacés entre 0 et 106 mises à jour de gradient). Pour chaque modèle et chaque étape, nous avons calculé les scores cérébraux de ses couches concaténées [0,4,8,12] sur le même jeu de données Narratives39. Nous avons choisi de couvrir toutes les couches de 0 à 12 car les représentations pouvaient « se déplacer » d'une couche à l'autre pendant le réglage fin, ce qui pouvait fausser les résultats. Nous avons ensuite fait la moyenne des scores cérébraux à travers les étapes et évalué le gain d'un réseau par rapport à un autre. Dans la figure 5, nous rapportons le gain moyen entre les individus lors de l'ajout de plus en plus de prédiction de haut niveau dans la perte.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

L'ensemble de données Narratives39 est accessible au public sur OpenNeuro https://openneuro.org/datasets/ds002345/versions/1.1.4.

Toutes les analyses ont été effectuées avec Python et scikit-learn81. Les données IRMf ont été analysées avec nilearn (https://nilearn.github.io/stable/index.html), mne-python85,86,87,88 et freesurfer (https://surfer.nmr.mgh.harvard.edu /). Les modèles de langage profond ont été analysés à l'aide de la bibliothèque de transformateurs80. La signification statistique a été évaluée à l'aide de Scipy83.

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Dans Advances in Neural Information Processing Systems, Vol. 30 (Curran Associates, 2017).

Radford, A. et al. Les modèles linguistiques sont des apprenants multitâches non supervisés (2019).

Brown, TB et al. Les modèles de langage sont des apprenants peu nombreux. Dans Advances in Neural Information Processing Systems, Vol. 33, 1877-1901 (Curran Associates, 2020).

Fan, A., Lewis, M. et Dauphin, Y. Hierarchical Neural Story Generation. Dans Actes de la 56e réunion annuelle de l'Association for Computational Linguistics (Volume 1: Long Papers), 889–898 (Association for Computational Linguistics, 2018).

Jain, S. et Huth, AG Intégration du contexte dans les modèles de codage de langage pour l'IRMf. Dans Proc. 32e Conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2018), Vol. 31, (Curran Associates, 2018).

Toneva, M. & Wehbe, L. Interpréter et améliorer le traitement du langage naturel (dans les machines) avec le traitement du langage naturel (dans le cerveau). Dans Advances in Neural Information Processing Systems, Vol. 32 (Curran Associates, 2019).

Caucheteux, C. & King, J.-R. Les cerveaux et les algorithmes convergent partiellement dans le traitement du langage naturel. Commun Biol. 5, 134 (2022).

Schrimpf, M. et al. L'architecture neuronale du langage : La modélisation intégrative converge vers le traitement prédictif. Actes de l'Académie nationale des sciences, vol. 118, e2105646118 (Actes de l'Académie nationale des sciences, 2020).

Toneva, M., Mitchell, TM et Wehbe, L. La combinaison de contrôles informatiques avec un texte naturel révèle de nouveaux aspects de la composition du sens. Nat. Calcul. Sci. 2, 745–757 (2022).

Article PubMed PubMed Central Google Scholar

Reddy, AJ & Wehbe, L. Représentations syntaxiques dans le cerveau humain : au-delà des mesures basées sur l'effort. Préimpression sur bioRxiv https://doi.org/10.1101/2020.06.16.155499 (2021).

Goldstein, A. et al. Principes de calcul partagés pour le traitement du langage chez les humains et les modèles de langage profond. Nat Neurosci. 25, 369–380 (2022).

Article CAS PubMed PubMed Central Google Scholar

Millet, J., et al. Vers un modèle réaliste de traitement de la parole dans le cerveau avec apprentissage auto-supervisé. Dans Advances in Neural Information Processing Systems (NeurIPS, 2022).

Holtzman, A., Buys, J., Maxwell Forbes, LD & Choi, Y. Le cas curieux de la dégénérescence neuronale du texte. Dans Conférence internationale sur les représentations d'apprentissage (2020).

Wiseman, S., Shieber, SM & Rush, AM Défis dans la génération de données à document. Dans Actes de la conférence 2017 sur les méthodes empiriques dans le traitement du langage naturel, 2253–2263. (Association pour la linguistique computationnelle, 2017).

Thakur, N., Reimers, N., Rücklé, A., Srivastava, A. & Gurevych, I. BEIR : une référence hétérogène pour l'évaluation zéro des modèles de recherche d'informations. Dans la trente-cinquième conférence sur les ensembles de données et les repères des systèmes de traitement de l'information neuronale (2e ronde) (2021).

Raffel, C. et al. Explorer les limites de l'apprentissage par transfert avec un transformateur de texte à texte unifié. J.Mach. Apprendre. Rés. 21, 140 (2020).

Google Scholar

Krishna, K., Roy, A. & Iyyer, M. Obstacles pour progresser dans la réponse aux questions détaillées. Dans Actes de la conférence 2021 de la section nord-américaine de l'Association for Computational Linguistics: Human Language Technologies, 4940–4957 (Association for Computational Linguistics, 2021).

Lakretz, Y. et al. L'émergence des unités de nombre et de syntaxe dans les modèles de langage LSTM. Dans Actes de la conférence 2019 de la section nord-américaine de l'Association for Computational Linguistics: Human Language Technologies, Volume 1 (articles longs et courts), 11–20 (Association for Computational Linguistics, 2019).

Arehalli, S. et Linzen, T. Les modèles de langage neuronal capturent certains effets d'attraction d'accord, mais pas tous. Préimpression sur PsyArXiv https://doi.org/10.31234/osf.io/97qcg (2020).

Lakretz, Y. et al. Les RNN peuvent-ils apprendre des accords sujet-verbe imbriqués récursifs ? Préimpression sur arXiv https://doi.org/10.48550/arXiv.2101.02258 (2021).

Baroni, M. Généralisation linguistique et compositionnalité dans les réseaux de neurones artificiels modernes. Philos. Trans. R. Soc. Londres. B Biol. Sci. 375, 20190307 (2020).

Article PubMed Google Scholar

Lake, BM & Murphy, GL Signification des mots dans les esprits et les machines. Psychol. Publication en ligne Rev. Advance https://doi.org/10.1037/rev0000297 (2021).

Marcus, G. Gpt-2 et la nature de l'intelligence. Le gradient https://thegradient.pub/gpt2-and-the-nature-of-intelligence/ (2020).

Warstadt, A. et Bowman, SR Ce que les réseaux de neurones artificiels peuvent nous dire sur l'acquisition du langage humain. Préimpression sur arXiv https://doi.org/10.48550/arXiv.2208.07998 (2022).

Rumelhart, DE & McClelland, JL Un modèle interactif d'activation des effets contextuels dans la perception des lettres : Partie 2. L'effet d'amélioration contextuelle et quelques tests et extensions du modèle. Psychol. Rév. 89, 60–94 (1982).

Article CAS PubMed Google Scholar

Rao, RP & Ballard, DH Codage prédictif dans le cortex visuel : une interprétation fonctionnelle de certains effets de champ réceptif extra-classiques. Nat. Neurosci. 2, 79–87 (1999).

Article CAS PubMed Google Scholar

Friston, K. & Kiebel, S. Codage prédictif selon le principe de l'énergie libre. Philos. Trans. R. Soc. Londres. B Biol. Sci. 364, 1211-1221 (2009).

Article PubMed PubMed Central Google Scholar

Wacongne, C. et al. Preuve d'une hiérarchie des prédictions et des erreurs de prédiction dans le cortex humain. Proc. Natl Acad. Sci. États-Unis 108, 20754–20759 (2011).

Article CAS PubMed PubMed Central Google Scholar

Garrido, MI, Kilner, JM, Stephan, KE & Friston, KJ La négativité de l'inadéquation : un examen des mécanismes sous-jacents. Clin. Neurophysiol. 120, 453–463 (2009).

Article PubMed PubMed Central Google Scholar

Willems, RM, Frank, SL, Nijhof, AD, Hagoort, P. & van den Bosch, A. Prédiction pendant la compréhension du langage naturel. Cereb. Cortex 26, 2506–2516.

Article PubMed Google Scholar

Lopopolo, A., Frank, SL, van den Bosch, A. & Willems, RM Utilisation de modèles de langage stochastiques (SLM) pour cartographier le traitement de l'information lexicale, syntaxique et phonologique dans le cerveau. PLoS ONE 12, e0177794 (2017).

Article PubMed PubMed Central Google Scholar

Okada, K., Matchin, W. & Hickok, G. Preuve neurale du codage prédictif dans le cortex auditif pendant la production de la parole. Psychone. Taureau. Rév. 25, 423–430 (2018).

Article PubMed Google Scholar

Shain, C., Blank, IA, van Schijndel, M., Schuler, W. & Fedorenko, E. L'IRMf révèle un codage prédictif spécifique à la langue lors de la compréhension de phrases naturalistes. Neuropsychologia 138, 107307 (2020).

Article PubMed Google Scholar

Heilbron , M. , Armeni , K. , Schoffelen , J.-M. , Hagoort , P. & de Lange , F. Hiérarchie des prédictions linguistiques lors de la compréhension du langage naturel . Proc. Natl. Acad. Sci. États-Unis 119, e2201968119 (2022).

Article CAS PubMed PubMed Central Google Scholar

Heilbron, M., Ehinger, B., Hagoort, P. & de Lange, FP Suivi des prédictions linguistiques naturalistes avec des modèles de langage neuronal profond. Dans Conférence sur les neurosciences computationnelles cognitives (2019).

Donhauser, PW & Baillet, S. Deux échelles de temps neurales distinctes pour le traitement prédictif de la parole. Neurone 105, 385–393 (2020).

Article Google Scholar

Mousavi, Z., Kiani, MM et Aghajan, H. Signatures cérébrales de surprise dans les données EEG et MEG. Préimpression sur bioRxiv https://doi.org/10.1101/2020.01.06.895664 (2020).

Forseth, KJ, Hickok, G., Rollo, PS et Tandon, N. Mécanismes de prédiction du langage dans le cortex auditif humain. Nat. Commun. 11, 5240 (2020).

Article CAS PubMed PubMed Central Google Scholar

Nastase, SA et al. Récits : données IRMf pour évaluer les modèles de compréhension naturaliste du langage. Sci. Données 8, 250 (2021).

Article PubMed PubMed Central Google Scholar

Caucheteux, C., Gramfort, A. & King, J.-R. Démêler la syntaxe et la sémantique dans le cerveau avec des réseaux profonds. Dans Actes de la 38e Conférence internationale sur l'apprentissage automatique, 1336-1348 (PMLR, 2021).

Wehbe, L., Vaswani, A., Knight, K. et Mitchell, T. Alignement des modèles statistiques contextuels du langage avec l'activité cérébrale pendant la lecture. Dans Proc. 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 233–243 (Association for Computational Linguistics, 2014).

Huth, AG, de Heer, WA, Griffiths, TL, Theunissen, FE & Gallant, JL La parole naturelle révèle les cartes sémantiques qui recouvrent le cortex cérébral humain. Nature 532, 453–458 (2016).

Article PubMed PubMed Central Google Scholar

Toneva, M., Mitchell, TM & Wehbe, L. Le sens qui émerge de la combinaison de mots est robustement localisable dans l'espace mais pas dans le temps. Préimpression sur bioRxiv https://doi.org/10.1101/2020.09.28.316935 (2020).

Fedorenko, E. et al. Corrélat neural de la construction du sens de la phrase. Proc. Natl. Acad. Sci. États-Unis 113, E6256–E6262 (2016).

Article CAS PubMed PubMed Central Google Scholar

Felleman, DJ & Van Essen, DC Traitement hiérarchique distribué dans le cortex cérébral des primates. Cerb. Cortex 1, 1–47 (1991).

Article CAS PubMed Google Scholar

Lerner, Y., Honey, CJ, Silbert, LJ & Hasson, U. Cartographie topographique d'une hiérarchie de fenêtres réceptives temporelles à l'aide d'une histoire racontée. J. Neurosci. 31, 2906-2915 (2011).

Article CAS PubMed PubMed Central Google Scholar

Kell, AJE, Yamins, DLK, Shook, EN, Norman-Haignere, SV & McDermott, JH Un réseau neuronal optimisé pour les tâches reproduit le comportement auditif humain, prédit les réponses cérébrales et révèle une hiérarchie de traitement cortical. Neurone 98, 630–644 (2018).

Article Google Scholar

Mesgarani, N., Cheung, C., Johnson, K. & Chang, EF Codage des caractéristiques phonétiques dans le gyrus temporal supérieur humain. Sciences 343, 1006-1010 (2014).

Article CAS PubMed PubMed Central Google Scholar

Hickok, G. & Poeppel, D. L'organisation corticale du traitement de la parole. Nat. Rév. Neurosci. 8, 393–402 (2007).

Article CAS PubMed Google Scholar

Jawahar, G., Sagot, B. & Seddah, D. Qu'est-ce que le BERT apprend sur la structure du langage? Dans Proc. 57e réunion annuelle de l'Association for Computational Linguistics, 3651–3657 (Association for Computational Linguistics, 2019).

Manning, CD, Clark, K., Hewitt, J., Khandelwal, U. & Levy, O. Structure linguistique émergente dans les réseaux de neurones artificiels formés par l'auto-supervision. Proc. Natl. Acad. Sci. États-Unis 117, 30046–30054 (2020).

Article CAS PubMed PubMed Central Google Scholar

Bellman, R. Programmation dynamique. Sciences 153, 34-37 (1966).

Article CAS PubMed Google Scholar

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT : pré-entraînement des transformateurs bidirectionnels profonds pour la compréhension du langage. Dans Actes de la conférence 2019 de la section nord-américaine de l'Association for Computational Linguistics: Human Language Technologies, 1, 4171–4186, (Association for Computational Linguistics, 2019).

Liu, Y. et al. RoBERTa : une approche de préformation BERT robustement optimisée. Préimpression sur arXiv https://doi.org/10.48550/arXiv.1907.11692 (2019).

Clark, K., Luong, M.-T. & Le, QV & Manning, CD ELECTRA : encodeurs de texte de pré-formation comme discriminateurs plutôt que comme générateurs. Préimpression sur arXiv https://doi.org/10.48550/arXiv.2003.10555 (2020).

Caucheteux, C., Gramfort, A. & King, J.-R. Les algorithmes de langage profond prédisent la compréhension sémantique à partir de l'activité cérébrale. Sci Rep. 12, 16327 (2022).

Article CAS PubMed PubMed Central Google Scholar

Gilbert, SJ & Burgess, PW Fonction exécutive. Courant. Biol. 18, R110–R114 (2008).

Article CAS PubMed Google Scholar

Shallice, T. & Burgess, P. Déficits dans l'application de la stratégie suite à une lésion du lobe frontal chez l'homme. Cerveau 114, 727-741 (1991).

Article PubMed Google Scholar

Wang, L. et al. Codage prédictif dynamique à travers la hiérarchie du langage fronto-temporal gauche : preuves issues du MEG, de l'EEG et de l'IRMf. Préimpression sur bioRxiv https://doi.org/10.1101/2021.02.17.431452 (2021).

Lee, CS, Aly, M. & Baldassano, C. Anticipation d'événements temporellement structurés dans le cerveau. eLife 10, e64972 (2021).

Article CAS PubMed PubMed Central Google Scholar

Caucheteux, C., Gramfort, A. et King, J.-R. L'analyse basée sur un modèle de l'activité cérébrale révèle la hiérarchie du langage chez 305 sujets. Dans Proc. EMNLP 2021, Conférence sur les méthodes empiriques dans le traitement du langage naturel 3635–3644 (Association for Computational Linguistics, 2021).

Vidal, Y., Brusini, P., Bonfieni, M., Mehler, J. & Bekinschtein, TA Signal neuronal aux violations de règles abstraites utilisant des stimuli de type parole. eNeuro 6, ENEURO.0128-19.2019 (2019).

Nelson, MJ et al. Dynamique neurophysiologique de la construction de la structure de la phrase lors du traitement de la phrase. Proc. Natl Acad. Sci. États-Unis 114, E3669–E3678 (2017).

Article CAS PubMed PubMed Central Google Scholar

Ding, N., Melloni, L., Zhang, H., Tian, X. & Poeppel, D. Suivi cortical des structures linguistiques hiérarchiques dans le discours connecté. Nat. Neurosci. 19, 158-164 (2016).

Article CAS PubMed Google Scholar

Jackendoff, R. & Jackendoff, RS Foundations of Language: Brain, Meaning, Grammar, Evolution (Oxford Univ. Press, 2002).

Shain, C. et al. Les effets de «longueur constituante» dans l'IRMf ne fournissent pas de preuves d'un traitement syntaxique abstrait. Préimpression sur bioRxiv https://doi.org/10.1101/2021.11.12.467812 (2021).

McClelland, JL & Rumelhart, DE Un modèle d'activation interactif des effets de contexte dans la perception des lettres : I. Un compte rendu des résultats de base. Psychol. Rev.88, 375–407 (1981).

Article Google Scholar

Hale, JT et al. Modèles neurocomputationnels du traitement du langage. Ann. Rev. Linguiste. 8, 427–446 (2022).

Article Google Scholar

Jernite, Y., Bowman, SR & Sontag, D. Objectifs basés sur le discours pour un apprentissage rapide et non supervisé de la représentation de phrases. Préimpression sur arXiv https://doi.org/10.48550/arXiv.1705.00557 (2017).

Lewis, M. et al. BART : formation préalable au débruitage séquence à séquence pour la génération, la traduction et la compréhension du langage naturel. Dans Actes de la 58e réunion annuelle de l'Association for Computational Linguistics, 7871–7880 (Association for Computational Linguistics, 2020).

Yang, Z. et al. XLNet : préformation autorégressive généralisée pour la compréhension du langage. Dans Advances in Neural Information Processing Systems, 32 (Curran Associates, 2019).

Joshi, M. et al. SpanBERT : Améliorer la pré-formation en représentant et en prédisant les durées. Dans Transactions of the Association for Computational Linguistics 8, 64–77 (2020).

Google Scholar

Szegedy, C. et al. Aller plus loin avec les circonvolutions. Dans Proc. Conférence IEEE 2015 sur la vision par ordinateur et la reconnaissance de formes (CVPR), 1–9 (IEEE, 2015).

Chen, T., Kornblith, S., Norouzi, M. & Hinton, G. Un cadre simple pour l'apprentissage contrastif des représentations visuelles. Dans Actes de la 37e Conférence internationale sur l'apprentissage automatique, 149 (2020).

He, K., Fan, H., Wu, Y., Xie, S. et Girshick, R. Momentum contraste pour l'apprentissage non supervisé de la représentation visuelle. Préimpression sur arXiv https://doi.org/10.48550/arXiv.1911.05722 (2020).

El-Nouby, A. et al. XCiT : transformateurs d'image à covariance croisée. Dans Advances in Neural Information Processing Systems, 34, 20014–20027 (Curran Associates, 2021).

Bardes, A., Ponce, J. & LeCun, Y. VICReg : régularisation variance-invariance-covariance pour l'apprentissage auto-supervisé. Dans Conférence internationale sur les représentations de l'apprentissage (2022).

Kepecs, A., Uchida, N., Zariwala, HA & Mainen, ZF Corrélats neuronaux, calcul et impact comportemental de la confiance dans la décision. Nature 455, 227–231 (2008).

Article CAS PubMed Google Scholar

Esteban, O. et al. fMRIPrep : un pipeline de prétraitement robuste pour l'IRM fonctionnelle. Nat. Méthodes 16, 111–116 (2019).

Article CAS PubMed Google Scholar

Wolf, T. et al. Transformers : traitement du langage naturel à la pointe de la technologie. Dans Proc. Conférence 2020 sur les méthodes empiriques dans le traitement du langage naturel : démonstrations de systèmes, 38–45 (Association for Computational Linguistics, 2020).

Pedregosa, F. et al. Scikit-learn : apprentissage automatique en Python. J.Mach. Apprendre. Rés. 12, 2825–2830 (2011).

Google Scholar

Destrieux, C., Fischl, B., Dale, A. & Halgren, E. Parcellisation automatique des gyri et sulci corticaux humains à l'aide de la nomenclature anatomique standard. Neuroimage 53, 1–15 (2010).

Article PubMed Google Scholar

Virtanen, P. et al. SciPy 1.0 : algorithmes fondamentaux pour le calcul scientifique en Python. Nat. Méthodes 17, 261–272 (2020).

Article CAS PubMed PubMed Central Google Scholar

Hénaff, OJ et al. Reconnaissance d'image efficace en termes de données avec codage prédictif contrastif. Dans Actes de la 37e Conférence internationale sur l'apprentissage automatique, 4182–4192 (PMLR, 2020).

Gramfort, A. et al. Analyse des données MEG et EEG avec MNE-Python. Devant. Neurosci. 7, 267 (2013).

Article PubMed PubMed Central Google Scholar

Dai, Z. et al. Transformer-XL : modèles de langage attentifs au-delà d'un contexte de longueur fixe. Dans Actes de la 57e réunion annuelle de l'Association for Computational Linguistics, 2978-2988 (Association for Computational Linguistics, 2019).

Nunez-Elizalde, AO, Huth, AG & Gallant, JL Modèles de codage Voxelwise avec priors normaux multivariés non sphériques. Neuroimage 197, 482–492 (2019).

Article PubMed Google Scholar

Dupré la Tour, T., Eickenberg, M., Nunez-Elizalde, AO & Gallant, J. Feature-space selection with banded ridge regression. Neuroimage 264, 119728 (2022).

Article PubMed Google Scholar

Télécharger les références

Ce projet a été financé, en partie, par la Fondation Bettencourt-Schueller, la Fondation Philippe et la bourse FrontCog no. ANR-17-EURE-0017 à JRK pour ses travaux à l'Université Paris Sciences et Lettres. Les bailleurs de fonds n'ont joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation du manuscrit.

Meta AI, Paris, France

Charlotte Caucheteux, Alexandre Gramfort & Jean-Rémi King

Université Paris-Saclay, Inria, Commissariat à l’Énergie Atomique et aux Énergies Alternatives, Paris, France

Charlotte Caucheteux & Alexandre Gramfort

Laboratoire des systèmes perceptifs, Département d’études cognitives, École normale supérieure, PSL University, CNRS, Paris, France

Jean-Rémi King

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

CC, AG et J.-RK ont conjointement conçu l'analyse, interprété les résultats et rédigé l'article. CC a effectué les analyses et les expériences.

Correspondence to Charlotte Caucheteux or Jean-Rémi King.

Les auteurs ne déclarent aucun intérêt concurrent.

Nature Human Behavior remercie Samuel Nastase et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Notes supplémentaires 1 à 5, fig. 1–10 et Tableaux 1–3.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Caucheteux, C., Gramfort, A. & King, JR. Preuve d'une hiérarchie de codage prédictif dans le cerveau humain écoutant la parole. Nat Hum Behav 7, 430–441 (2023). https://doi.org/10.1038/s41562-022-01516-2

Télécharger la citation

Reçu : 31 mars 2022

Accepté : 15 décembre 2022

Publié: 02 mars 2023

Date d'émission : Mars 2023

DOI : https://doi.org/10.1038/s41562-022-01516-2

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt