Feuille de route DeepMind pour contrôler des agents imparfaitement alignés

Le fait — DeepMind a publié le 18 juin 2026 un billet sur la sécurisation des agents d’IA. Le laboratoire y présente son AI Control Roadmap, une feuille de route de contrôle interne. L’idée centrale est une défense en profondeur. Elle ajoute des mécanismes de supervision et de blocage au-delà de l’alignement du modèle. DeepMind dit traiter ses agents internes comme des menaces potentielles de type insider, donc comme des acteurs disposant déjà d’accès.

Le contexte — Ce positionnement compte dans le débat AGI, car il émane d’un laboratoire frontier. Il formalise une hypothèse prudente. Des agents plus capables peuvent rester imparfaitement alignés. Le texte relie les protections à deux axes de capacité. Le premier est l’aptitude à dissimuler son raisonnement. Le second est l’aptitude à causer un dommage réel, notamment en cybersécurité. DeepMind dit aussi avoir analysé un million de trajectoires d’agents de code pour affiner sa surveillance.

L’analyse — Le billet est institutionnel et partiellement promotionnel. Il reste toutefois informatif sur l’évolution de la doctrine de sécurité. Le point le plus significatif n’est pas l’annonce d’un nouveau garde-fou isolé. C’est l’acceptation publique d’un cadre où l’alignement est nécessaire mais insuffisant. Cela rapproche le débat AGI d’une logique de contrôle opérationnel continue, inspirée de la cybersécurité. Ce déplacement a une conséquence. Plus les agents gagnent en autonomie, plus l’évaluation porte sur leur surveillabilité et leur réversibilité, pas seulement sur leurs intentions apparentes. Mais jusqu’où ces contrôles restent-ils efficaces si les modèles deviennent opaques à l’inspection ?