Écart entre scores d’agents et validité hors distribution

Le fait — Un article publié sur arXiv le 18 juin 2026 critique les classements statiques des agents fondés sur un score moyen. Les auteurs agrègent quatorze études d’implémentation sur un benchmark industriel basé sur MCP, un protocole d’outillage pour agents. Ils les combinent avec sept benchmarks antérieurs. Leur thèse est simple. Le bon critère n’est pas seulement la performance en distribution. C’est la validité prédictive, donc la capacité d’un classement à tenir hors distribution.

Le contexte — Le discours AGI accorde une place croissante aux agents, c’est-à-dire aux modèles qui planifient, utilisent des outils et agissent en environnement. Or les benchmarks d’agents prolifèrent plus vite que les méthodes d’évaluation solides. Si les classements changent dès que l’environnement varie, les annonces de progrès deviennent plus fragiles. Cela touche directement la lecture des trajectoires vers l’AGI, car beaucoup de signaux récents reposent sur des scores de benchmark.

L’analyse — Ce papier ne présente pas un nouveau franchissement de capacité. Il attaque plutôt la qualité du thermomètre. C’est pertinent pour l’AGI, car des mesures instables peuvent gonfler ou brouiller la perception des progrès réels. Les auteurs proposent des critères falsifiables et un protocole préenregistré, ce qui pousse vers des évaluations plus proches du déploiement. Mais leur position reste en partie programmatique. La question ouverte est donc la suivante. Les laboratoires accepteront-ils des métriques moins flatteuses mais plus informatives sur la généralité effective de leurs agents ?