Ce que ChatGPT peut et ne peut pas faire pour l'intelligence
En novembre 2022, ChatGPT est devenu un chef de file parmi les grands modèles de langage (LLM) d'intelligence artificielle (IA), attirant l'attention de la CIA et d'autres agences de défense américaines. L'intelligence artificielle générale - l'IA avec un raisonnement flexible comme celui des humains - est encore au-delà de l'horizon technologique et pourrait ne jamais se produire. Mais la plupart des experts s'accordent à dire que les LLM constituent une avancée technologique majeure. La capacité des LLM à produire des résultats utiles dans certaines tâches et à rater complètement d'autres tâches offre un aperçu des capacités et des contraintes de l'IA dans la prochaine décennie.
Les perspectives de ChatGPT pour le renseignement sont mitigées. D'une part, la technologie semble "impressionnante" et "effrayante d'intelligence", mais d'autre part, ses propres créateurs ont averti qu'"elle peut créer une impression trompeuse de grandeur". En l'absence d'un consensus d'experts, les chercheurs et les praticiens doivent explorer le potentiel et les inconvénients de la technologie pour le renseignement. Pour combler cette lacune, nous - des universitaires qui étudient l'analyse du renseignement et un ingénieur en technologie de l'information - avons cherché à tester la capacité de ChatGPT (GPT-4) à compléter le travail des analystes du renseignement. Nous l'avons soumis à un test préliminaire en utilisant la fameuse requête de Colin Powell : "Dis-moi ce que tu sais. Dis-moi ce que tu ne sais pas. Ensuite, tu es autorisé à me dire ce que tu penses." Pour chaque tâche, nous fournissons la sortie de ChatGPT afin que les lecteurs puissent reproduire les analyses et tirer leurs propres conclusions.
Sur la base de ces résultats, il semble possible que ChatGPT et ses successeurs puissent éliminer des aspects du travail de l'analyste du renseignement (par exemple, la synthèse fastidieuse, bien que nous reconnaissions que ChatGPT ne résume pas d'une manière qu'un humain reconnaîtrait) et en compléter d'autres (par exemple, aider à générer des critiques pour les produits analytiques). Malgré ces capacités, nous notons comme d'autres que ChatGPT a des limitations notables (par exemple, l'extraction des réseaux sociaux). Cela transformera également les compétences d'artisanat analytique en équipe IA-humain, où "poser la bonne question" s'étendra pour inclure "l'ingénierie rapide". L'ingénierie des invites est le processus d'optimisation de la manière dont les questions ou les invites sont présentées pour extraire des réponses définies d'un modèle d'IA. Les LLM créeront également de nouveaux risques, par le biais de tactiques telles que "l'empoisonnement des données", comme nous l'expliquons ci-dessous.
Comment fonctionne ChatGPT
ChatGPT, ou transformateur génératif pré-formé, est une sorte de modèle d'IA qui génère du texte en fonction des informations qui lui sont données. C'est comme un acteur d'improvisation (improvisation) qui a appris d'un grand nombre de scénarios et qui peut établir des liens entre différents sujets. L'IA, comme l'hypothétique acteur d'improvisation, est limitée aux informations qui ont été fournies. ChatGPT a été formé sur les informations jusqu'en 2021, bien que les modèles de test bêta disponibles s'appuient sur les données de formation du Web en temps réel.
ChatGPT est "enseigné" en deux étapes principales. Tout d'abord, il apprend les bases d'un domaine de connaissances en étudiant un vaste corpus de textes. Ensuite, il est affiné pour effectuer des tâches spécifiques à l'aide d'exemples et de conseils. Grâce à cette méthode, il devient plus efficace pour répondre aux questions et aux déclarations des utilisateurs. La précision de ses réponses dépend de plusieurs facteurs, dont la qualité des données fournies au modèle et les techniques d'ingénierie rapides employées, entre autres.
La dépendance du modèle aux données de formation présente des risques allant de fausses données innocentes (désinformation) à des données intentionnellement fausses (désinformation). ChatGPT peut refléter des biais dans les données de formation, faussant potentiellement l'impartialité et l'objectivité de sa sortie générée. Les rapports des médias sur les résultats biaisés de ChatGPT sur des personnalités politiques controversées comme Donald Trump et Joe Biden illustrent ce point. Un autre risque est lorsque le modèle est « empoisonné » par des adversaires qui altèrent délibérément les données d'entraînement. Comme les LLM dépendent fortement de la qualité de leurs données de formation, les données empoisonnées peuvent intégrer des modèles néfastes difficiles à détecter et à atténuer.
La qualité avec laquelle l'utilisateur explique ce qu'il veut que ChatGPT fasse - connue sous le nom d'ingénierie rapide - est essentielle pour obtenir de meilleurs résultats du système. Dans sa forme actuelle, la sortie de ChatGPT est à un niveau superficiel, du moins sans incitation significative et prudente.
Nous avons constaté que si les invites sont claires, les utilisateurs peuvent générer des procédures analytiques. Pour illustrer l'ingénierie rapide, nous avons interrogé ChatGPT pour générer une analyse de la procédure d'hypothèses concurrentes (ACH) - une technique d'analyse pour tester des hypothèses - en utilisant la question de savoir si la Russie utilisera des armes nucléaires dans sa guerre avec l'Ukraine.
Pour générer l'analyse, nous avons demandé à ChatGPT de fournir une sortie basée sur les étapes ACH. (Nous avons fourni les huit étapes de la formulation de la technique par Heuer dans la "Psychologie de l'analyse du renseignement".) Ensuite, nous avons fourni le contexte qui manque à ChatGPT, connu sous le nom d'"enrichissement". Rappelons que le modèle a été développé sur des données d'entraînement jusqu'en 2021, un an avant que la Russie ne procède à une invasion à grande échelle de l'Ukraine. Nous proposons l'enrichissement suivant :
Les analystes peuvent fournir un enrichissement supplémentaire, bien que ChatGPT limite la quantité de texte que les utilisateurs peuvent fournir au modèle.
Dans sa réponse aux invites, ChatGPT a généré des hypothèses et une liste d'arguments influencés par le contexte qui lui a été fourni. Le modèle a généré trois hypothèses : (1) la Russie utilisera des armes nucléaires en Ukraine, (2) la Russie ne poursuivra qu'une guerre conventionnelle et (3) la Russie n'utilisera les armes nucléaires que comme outil de négociation.
Le modèle a ensuite préparé une matrice et indiqué si un élément de preuve est cohérent avec chaque hypothèse. Il convient de noter à nouveau que Chat GPT ne pense pas au sens humain mais "improvise" ou remplit un texte prédictif basé sur ses données de formation.
Enfin, ChatGPT a généré une analyse basée sur la matrice, une conclusion générale et les futurs jalons à surveiller. Dans l'exemple, la sortie note que l'hypothèse la plus probable est que la Russie n'utilisera les armes nucléaires que comme outil de négociation.
Aucun analyste compétent du renseignement ne considérerait ces résultats comme révolutionnaires. Le résultat s'apparente à une première ébauche qu'un analyste débutant pourrait produire puis affiner continuellement. C'est là que se trouve la valeur actuelle de la technologie : Chat GPT sert de bon point de départ initial pour l'analyse. Par exemple, ce test d'hypothèse initial pourrait amener un analyste à affiner les hypothèses ou à explorer de nouvelles sources de preuves. La capacité de Chat GPT à stimuler la réflexion des analystes est vraie dans la façon dont il aide les analystes à synthétiser les informations, à réfléchir et à critiquer leur travail.
"Dis moi ce que tu sais."
Les analystes évaluent les événements actuels à partir de diverses sources et résument les principaux développements. L'explosion de la quantité de données, en particulier d'informations open source, a rendu cette tâche plus difficile ces dernières années. Les spécialistes du renseignement Nick Hare et Peter Coghill ont noté que pour tout lire sur un seul pays de second rang en 1995, il faudrait lire environ 20 000 mots par jour. En 2015, ils ont estimé que ce nombre serait plus proche de 200 000 mots, et il est sûrement plus élevé en 2023. Cette tâche - passer au crible de grandes quantités d'informations - est peut-être celle à laquelle l'IA peut le mieux aider dans sa forme actuelle, comme Tom Tugendhat, ministre d'État à la sécurité au Royaume-Uni, l'a noté récemment.
ChatGPT est prometteur dans la synthèse rapide d'informations provenant de plusieurs sources, en supposant que les utilisateurs suivent les meilleures pratiques (par exemple, utiliser des données de qualité, une bonne ingénierie rapide). Par exemple, ChatGPT a réussi une série d'évaluations, qui nécessitent la récupération et le résumé de grandes quantités d'informations, telles que l'examen uniforme du barreau et l'examen du dossier d'études supérieures (GRE).
Avec une incitation minutieuse, ChatGPT peut rationaliser le processus de mise en évidence des tendances ainsi que des modèles dans les données et, espérons-le, conduire les analystes à des conclusions mieux informées. Pour tester les capacités de ChatGPT, nous l'avons utilisé pour résumer rapidement des articles d'actualité. Il a fourni une douzaine d'aperçus opportuns des développements et des idées et a présenté les informations dans un format bottom line up front (BLUF). Nous avons généré des mémos pour mettre en évidence les implications des récentes audiences TikTok tenues à Washington, en utilisant des informations provenant de diverses sources d'information.
Pour commencer, nous avons demandé à l'IA son rôle ("Vous êtes une IA formée pour créer des rapports tactiques BLUF rapides, concis et efficaces à partir de plusieurs sources") et nous avons invité à créer des rapports au format BLUF avec les principales conclusions et les actions recommandées. Nous avons ensuite fourni les articles de presse. Comme nous l'avons noté ci-dessus, Chat GPT limite la quantité de texte saisi pour enrichir le modèle. Dans cet exemple, nous avons ajouté un maximum de seulement deux articles pour résumer. Cependant, il n'est pas difficile d'imaginer des organisations ayant accès à leurs propres LLM capables de traiter des quantités de données beaucoup plus importantes.
Chat GPT a généré le mémo de type BLUF composé d'informations provenant du contexte et généré conformément aux objectifs de notre invite. Le temps écoulé, le coût et les jetons utilisés étaient cohérents dans de nombreuses instances, la sortie étant de qualité similaire.
La section « Points clés » met en évidence les points à retenir tandis que le « Résumé exécutif » fournit les principales conclusions et recommandations. De plus, ChatGPT a été chargé de corréler les notes de fin et les références de style APA au contenu généré en fonction des sources.
ChatGPT et ses successeurs peuvent fournir une mesure permettant de gagner du temps pour aider les analystes à résoudre le problème du "big data" consistant à essayer de rester à jour. Comme nous l'avons noté ci-dessus, la précision globale de la sortie est directement proportionnelle à la qualité et au détail du contexte fourni au LLM. Comme le dit le vieil adage en informatique : « Garbage in, garbage out ».
Les experts en cybersécurité commencent à utiliser ChatGPT de la même manière pour les rapports automatisés et en temps réel sur les menaces. (Nous reconnaissons que leur modèle est formé sur un ensemble de données hautement organisé.) Bien qu'il ne semble pas fournir beaucoup plus de substance par rapport à des techniques plus simples de type "repérer la différence", où les systèmes vérifient les e-mails entrants par rapport à une collection de contenu suspect connu —ChatGPT pourrait encore offrir des informations précieuses dans des cas d'utilisation spécifiques. Par exemple, il peut offrir des informations sur l'analyse des e-mails de phishing. Dans ce scénario, ChatGPT pourrait analyser le contenu des e-mails entrants en temps réel et identifier les tentatives de phishing en évaluant le contexte derrière le message.
"Dis-moi ce que tu ne sais pas."
Les analystes doivent être clairs sur ce qu'ils ne savent pas afin que leurs clients comprennent les limites de leurs connaissances. Néanmoins, les analystes peuvent rechercher des informations supplémentaires pour combler leurs lacunes dans les connaissances, ce que des systèmes comme ChatGPT pourraient aider. Cependant, il existe des problèmes bien documentés lorsque le modèle s'efforce de "combler le vide" de sa base de connaissances en offrant des réponses plausibles mais inexactes, ce qui entraîne des réponses trompeuses. C'est de loin le plus grand risque lié à l'intégration des LLM contemporains dans le travail de renseignement.
Nous avons constaté que ChatGPT reconnaissait fréquemment sa compréhension limitée lorsqu'il était confronté à des demandes dépassant la portée de ses données de formation. Dans ses réponses, il a offert des réponses informatives qui nous ont aidés à identifier les sujets qu'il ne pouvait pas aborder. Nous avons remarqué qu'une ingénierie rapide pouvait être utilisée pour affiner les résultats qui sortent des limites de la base de connaissances de ChatGPT afin d'encourager davantage la promotion d'admissions honnêtes des limites du modèle. Nous avons constaté qu'une ingénierie rapide peut servir à contourner entièrement les mesures de sécurité. Dans cet esprit, au moment de la rédaction de cet article, les analystes ne doivent pas utiliser ChatGPT comme base de connaissances automatisée en raison du risque inhérent de désinformation.
Mis à part les limitations, ChatGPT peut être utile dans les phases initiales d'un projet pour aider au brainstorming. Cela peut être réalisé en affinant divers ensembles de données qui englobent diverses perspectives, telles que des rapports de renseignement étranger ou des manifestes extrémistes, et grâce à des méthodes d'ingénierie rapides et minutieuses.
Pour illustrer comment ChatGPT peut aider les analystes à réfléchir à ce qu'ils ne savent pas, nous avons mené un exercice d'équipe rouge élémentaire, inspiré d'une interview avec l'experte en renseignement Amy Zegart qui discute de l'utilisation hypothétique de "l'équipe rouge de l'IA".
Nous avons utilisé ChatGPT pour prendre le profil contradictoire d'Aaron Thompson, un extrémiste violent domestique aux États-Unis. Dans une gamme de situations, l'IA simule les schémas cognitifs d'Aaron et comment il pourrait ajuster ses tactiques. Par exemple, nous avons demandé à ChatGPT, du point de vue d'Aaron Thompson, comment il réagirait s'il était acculé par les autorités lors de l'exécution d'un complot terroriste. Dans l'invite, nous demandons au modèle de considérer qu'Aaron est à un événement public et entouré de policiers. ChatGPT génère une réponse peu profonde qui voit Thompson évaluer, s'adapter et improviser, et communiquer.
Cependant, nous avons incité Chat GPT à envisager des situations plus spécifiques pour tirer une réponse plus précise du modèle. Dans l'invite améliorée, nous avons demandé au modèle de considérer qu'un policier est à proximité (à 10 pieds) et qu'un chien est présent. La sortie considère comment Thompson pourrait réagir en fonction du but du chien (en tant que K-9 ou chien de compagnie ordinaire) ou des actions pour s'échapper ("se fondre dans la foule").
Ceci et d'autres résultats ne sont pas très spécifiques - Aaron Thompson n'est pas richement écrit par le LLM comme le ferait un expert en la matière sur l'extrémisme violent domestique - mais cela peut toujours aider les analystes à stimuler leur réflexion. Les chercheurs doivent mener des études pour comparer les résultats de ChatGPT aux experts en la matière. L'approche pourrait être similaire à l'étude de Romyn et Kebbell de 2014 qui a enquêté sur la différence entre les personnes avec et sans expérience militaire dans la simulation de la prise de décision terroriste. Des projets de recherche comme celui-ci et d'autres peuvent être utilisés pour améliorer encore les performances LLM pour l'équipe rouge.
"... dis-moi ce que tu penses."
Le rôle central des évaluations éclairées dans le travail d'analyse du renseignement réside dans l'élaboration de jugements. Porter ces jugements signifie aller au-delà de ce qui est immédiatement connu et tirer des conclusions éclairées. Comme l'a dit un jour l'ancien directeur de la CIA, Michael Hayden, "Si c'est un fait, ce n'est pas du renseignement."
Les LLM contemporains peuvent fournir une assistance pour aider les analystes à tirer des conclusions en fournissant des critiques de base de leur raisonnement et de leurs jugements. Par exemple, il peut jouer le rôle d'un « globule rouge » personnel. Nous l'avons chargé d'agir en tant qu'avocat du diable sur la section iranienne de l'édition 2023 de l'évaluation annuelle des menaces de la communauté américaine du renseignement. Nous avons incité ChatGPT à fournir des points de vue opposés et à valider le rapport par rapport aux meilleures pratiques énoncées dans les directives de la communauté du renseignement (ICD), telles que l'ICD 203 sur les normes analytiques et l'ICD 206 sur les exigences d'approvisionnement. Notre invite comprenait également des demandes de critiques des lacunes potentielles en matière d'information, l'anticipation des questions des lecteurs, ainsi que la pondération de l'importance de chaque critique. Dans sa réponse à la section cyber de l'évaluation de l'Iran, ChatGPT a souligné le flou et a suggéré d'inclure des détails pour étayer le jugement.
Le résultat comprend des suggestions, des questions et des "lentilles Intel", ces dernières se concentrant sur la prise en charge du contenu par les prémisses du rapport. Une question demande à l'auteur d'examiner comment les cybercapacités de l'Iran se comparent à celles d'autres nations voyous, comme la Corée du Nord. Le modèle suggère également de "clarifier le calendrier du développement potentiel par l'Iran d'une arme nucléaire s'il choisit d'en poursuivre une et si le JCPOA n'est pas renouvelé". Pour approfondir la critique, nous avons incité ChatGPT à générer des justifications pour chacune des critiques avec des exemples tirés du texte. Par exemple, sur la suggestion d'inclure un calendrier pour l'acquisition d'une arme nucléaire par l'Iran, la sortie du modèle a souligné l'importance de clarifier "l'urgence et l'importance de la question".
Ces résultats peuvent aider les analystes dans leurs projets en évaluant les forces et les faiblesses des produits de renseignement. Nous soupçonnons que les successeurs de ChatGPT-4 affineront et approuveront cette fonctionnalité. Le projet REASON de l'IARPA, un projet de recherche conçu pour aider les analystes à raisonner avec les systèmes d'IA, est une initiative contemporaine pour ce faire.
Les implications pour le développement de la main-d'œuvre et les futurs modèles d'IA
Comme d'autres professions centrées sur l'information telles que le journalisme et le droit, les praticiens du renseignement ont réalisé que l'IA avait le potentiel de perturber et de changer leur façon de faire leur travail. Il y a quatre ans, la communauté du renseignement a défini sa propre stratégie de mise en œuvre de l'IA. Ce qui est surprenant, c'est la rapidité avec laquelle la technologie s'améliore : Open AI a déjà des plans pour améliorer GPT-4, et d'autres fournisseurs publient des outils auparavant restreints. Les capacités de la technologie pour aider les analystes comme nous l'avons décrit ci-dessus et les améliorations de la technologie à venir suggèrent quelques implications.
Premièrement, les analystes devront se sentir plus à l'aise avec l'IA. Plus précisément, les analystes ont besoin d'une solide compréhension des grands modèles de langage et des algorithmes, en se concentrant sur certains des biais de données dont nous avons discuté dans cet article, comme l'empoisonnement des données et la distorsion des sorties du modèle basée sur la désinformation. Ils devront également perfectionner leurs compétences en ingénierie rapide. Les compétences de base en science des données sont déjà importantes et le deviendront davantage au cours de la prochaine décennie. Heureusement, il existe de nombreuses opportunités d'apprendre et d'expérimenter les LLM pour les utilisateurs non avertis. Dans une note de service de Google divulguée, un employé a noté que l'expérimentation de l'IA "est passée de la production totale d'un grand organisme de recherche à une personne, une soirée et un ordinateur portable costaud".
Deuxièmement, les managers analytiques devront également être conscients de la manière dont l'IA affectera la façon de penser des analystes. Dans un article prémonitoire de 2013, le spécialiste du renseignement Michael Landon-Murray a noté que la numérisation de la société modifie fondamentalement la façon dont les analystes du renseignement pensent et, ce faisant, raccourcit leur durée d'attention. De même, la mise en œuvre d'assistants IA pourrait avoir pour effet secondaire négatif de diminuer la volonté des analystes de rechercher des informations dans les modes traditionnels en recherchant la réponse directement à la source.
Troisièmement, il existe un danger inhérent que les systèmes renforcent simplement les modes de pensée et d'analyse, car un pourcentage plus élevé de contenu de toutes sortes est produit par les LLM et réinjecté dans ces derniers sous forme de données de formation. Cela risque d'affaiblir davantage les compétences analytiques et de créer des opportunités pour les adversaires de réaliser une surprise stratégique.
Enfin, des modèles d'IA spécialisés seront développés par domaine. Plus les données de formation fournies aux modèles d'IA sont spécialisées, plus la sortie est utile. Il est vrai que les caractéristiques du renseignement peuvent être différentes de celles du droit et des systèmes en cours de développement pour des domaines spécifiques comme la finance. Un modèle récent a été construit à partir des données du Dark Web. Néanmoins, le principe général d'adaptation des données de formation à des domaines spécifiques reste une approche intéressante pour améliorer les performances des modèles d'IA. La plate-forme d'IA de Palantir en est un bon exemple, avec des implications pour les organisations militaires et de défense.
L'avancement rapide des technologies d'IA façonne les professions dans de nombreux secteurs avec de nouveaux systèmes émergeant à un rythme que les professionnels pourraient avoir du mal à suivre. Dans le domaine du renseignement, il est facile d'imaginer des agences développant des technologies innovantes avec leurs propres modèles entraînés sur des données organisées, y compris des informations classifiées. Avec ce paysage changeant, ChatGPT n'est qu'une autre technologie à laquelle la communauté du renseignement doit s'adapter intelligemment.
Jason Healey Herb Lin Daniel Byman Chongyang Gao Chris Meserole VS Subrahmanian Sean O'Brien Scott Shapiro Benjamin Wittes Eugenia Lostri