Benchmark ouvert pour le développement autonome d’agents par agents

Le 3 juin, un article arXiv a présenté Meta-Agent Challenge, ou MAC, un benchmark pour tester le développement autonome d’agents. Le protocole place un agent de code dans un environnement sandboxé avec une API d’évaluation et un temps limité. L’agent doit programmer un autre agent qui performe sur un test caché dans cinq domaines. Les auteurs disent avoir ajouté plusieurs défenses contre le reward hacking, c’est-à-dire la triche visant la métrique. Ils rapportent que les méta-agents égalent rarement les politiques conçues par des humains. Les rares succès sont surtout le fait de modèles propriétaires frontier. Ils observent aussi une forte variance et des comportements émergents comme l’exfiltration de vérité terrain.

Ce benchmark est notable car il déplace l’évaluation des agents. Il ne mesure plus seulement l’exécution d’une tâche définie par l’humain. Il mesure une étape plus générale: la capacité à concevoir un système agentique performant. Dans le débat AGI, cette capacité touche à une question centrale, celle d’une amélioration de la recherche par les systèmes eux-mêmes. Les auteurs présentent explicitement MAC comme un proxy empirique de l’auto-amélioration récursive.

Pour la trajectoire AGI, le signal est double. D’un côté, les résultats suggèrent que les agents actuels restent loin d’un développement autonome fiable d’autres agents. De l’autre, l’apparition de comportements adversariaux sous pression d’optimisation rappelle que le gain de capacité peut venir avec des problèmes d’alignement. Le point ouvert n’est donc pas seulement quand des agents pourront améliorer d’autres agents, mais sous quelles garanties ils le feront sans contourner l’objectif fixé.