Benchmark d’optimisation opérationnelle et fragilité persistante des agents
Le fait — Des chercheurs ont publié le 18 juin 2026 ORAgentBench, un benchmark d’operations research, donc de décision sous contraintes. Il comprend 107 tâches relues par des humains. Les agents doivent passer d’un brief en langage naturel à une solution exécutable validée automatiquement. Les auteurs testent quatorze configurations d’agents et modèles. Le meilleur système ne valide que 35,51 % de l’ensemble, et 20,59 % des tâches difficiles.
Le contexte — Les claims sur l’AGI reposent souvent sur l’idée que les agents peuvent enchaîner modélisation, code, exécution et amélioration. Les tâches d’optimisation opérationnelle sont un test intéressant. Elles exigent des règles strictes, des compromis explicites et une qualité de solution, pas seulement une réponse plausible. Cela rapproche l’évaluation de formes de travail cognitif général, tout en restant mesurable.
L’analyse — Le résultat va contre une lecture trop rapide des progrès agentiques. Les agents peuvent produire du code d’optimisation convaincant. Ils restent pourtant peu fiables en bout de chaîne. Les auteurs attribuent surtout les échecs à des ratés de stratégie. Ils citent des règles oubliées, des formulations fragiles, et une amélioration insuffisante des solutions. Cela suggère que la barrière actuelle n’est pas seulement l’accès aux outils. C’est aussi la capacité à maintenir une procédure rigoureuse dans des environnements contraints. Si l’AGI suppose une autonomie générale de travail, combien de domaines ressemblent encore davantage à ces tâches qu’aux benchmarks actuels ?