Benchmark ouvert d’attaques cyber autonomes en environnements réalistes

Le fait — Des chercheurs ont publié sur arXiv, avec une version révisée datée du 16 juin 2026, le benchmark AgentCyberRange. Le système propose une infrastructure ouverte pour évaluer des agents d’IA sur des cyber ranges réalistes, c’est-à-dire des environnements de test simulant des réseaux d’entreprise. Le benchmark regroupe 110 vulnérabilités, 15 applications web réelles, 8 environnements de type entreprise et 156 hôtes internes. Il couvre deux phases d’une attaque. La première est l’exploitation web initiale. La seconde est la post-exploitation, où l’agent étend son accès à travers le réseau. Les auteurs évaluent six systèmes frontier avec budgets et prompts alignés. GPT-5.5 avec Codex obtient les meilleurs résultats reportés, avec 16,1 % en exploitation web et 31,7 % en post-exploitation. Avec des indices plus concrets, ces résultats montent à 33,0 % et 46,3 %. Les auteurs mentionnent aussi des découvertes hors benchmark, dont des vulnérabilités inconnues et des variations de charge utile contournant certaines défenses.

Le contexte — Les débats AGI portent souvent sur des benchmarks généralistes ou sur la programmation. Ici, l’enjeu est différent. Il s’agit d’une capacité agentique longue, interactive et orientée objectif, dans un domaine à fort impact sécuritaire. Le travail rejoint un mouvement plus large d’évaluation réaliste des agents. Il ne dit pas que les systèmes actuels sont proches d’une intelligence générale humaine. En revanche, il montre que des capacités offensives composites émergent déjà dans des contextes moins jouets que les capture-the-flag classiques. L’analyse — Pour la chronologie AGI, ce papier vaut surtout comme signal sur les risques de capacité partielle. Les systèmes n’ont pas besoin d’être généraux pour devenir dangereux dans certains domaines. Le fait que les performances restent loin de 100 % est rassurant à court terme. Le fait qu’elles augmentent fortement avec des indices l’est beaucoup moins. Cela suggère que l’écart entre agent assisté et agent autonome reste une variable de gouvernance décisive. La question ouverte est donc moins de savoir si l’AGI est là, que de savoir à partir de quel niveau de fiabilité des capacités étroites mais agentiques changent déjà le paysage du risque.