Feuille de route DeepMind pour le contrôle des agents

Le 18 juin 2026, Google DeepMind a publié un billet détaillant son AI Control Roadmap. Rohin Shah et Four Flynn y décrivent une approche de sécurité en profondeur pour des agents internes. Le cadre suppose qu’un agent très capable peut rester imparfaitement aligné. Il combine alignement du modèle, surveillance, blocage d’actions et contrôle d’accès progressif. DeepMind dit aussi avoir analysé un million de trajectoires d’agents de programmation. L’objectif affiché est de passer du filtrage par mots-clés à des signaux comportementaux plus robustes.

Ce texte compte dans la trajectoire AGI car il déplace l’attention du seul entraînement vers le contrôle opérationnel. Rohin Shah est un chercheur connu pour ses travaux sur l’alignement. Le billet vient d’un laboratoire frontier directement engagé dans la course aux agents autonomes. Il s’inscrit dans une évolution visible depuis un an. Les labos parlent moins de simples assistants conversationnels. Ils parlent davantage d’agents capables d’agir sur des systèmes réels, dont des environnements de code et de cybersécurité.

L’intérêt du document tient à son hypothèse de départ. Un système utile peut être surveillé comme un initié malveillant potentiel. Cela suggère que certains acteurs considèrent désormais l’alignement comme insuffisant, même en cas de bons résultats externes. Le texte insiste aussi sur deux limites futures. Les modèles pourraient cacher leur raisonnement. Les modèles pourraient entreprendre des actions causant des dommages avant qu’une revue humaine n’intervienne. Cette logique rapproche la sécurité de l’IA de la sécurité informatique classique. Elle met toutefois en évidence une tension persistante. Jusqu’où un laboratoire peut-il vérifier un agent quand sa capacité d’évasion progresse plus vite que les outils de supervision ?