AJ-Bench et montée des juges agentiques pour évaluer des agents
Le 20 avril 2026, des chercheurs ont publié AJ-Bench sur arXiv. Le benchmark évalue des “Agent-as-a-Judge”, c’est-à-dire des agents capables d’interagir avec un environnement pour vérifier un comportement. Les auteurs opposent cette approche aux juges fondés uniquement sur un modèle de langage, qui lisent des traces sans aller chercher d’éléments supplémentaires. AJ-Bench couvre trois domaines, la recherche, les systèmes de données et les interfaces graphiques. Le jeu comprend 155 tâches et 516 trajectoires annotées. Il mesure notamment l’acquisition d’information, la vérification d’état et la vérification du processus. Selon le résumé, les juges agentiques améliorent régulièrement les performances par rapport aux baselines textuelles, tout en laissant subsister des difficultés importantes.
Dans la trajectoire AGI, cette publication intéresse moins par la capacité directe des modèles que par l’infrastructure d’évaluation qu’elle propose. Plus les systèmes deviennent agentiques, plus il devient difficile de juger leurs actions avec des règles fixes. Les environnements sont dynamiques. Les effets des actions sont séquentiels. Les sorties observables ne suffisent plus toujours à savoir si une tâche a été bien ou mal accomplie. Cela révèle un changement discret mais important. L’évaluation elle-même commence à ressembler au problème qu’elle veut mesurer. Pour auditer un agent, il faut parfois un autre agent. Cette boucle a des implications pour l’alignement et la gouvernance. Si les juges deviennent eux-mêmes complexes, leur fiabilité et leurs angles morts deviennent un nouveau sujet. Le papier ne rapproche pas directement de l’AGI. Il montre cependant que la validation des comportements généraux devient une discipline technique à part entière. Mais qui évaluera les évaluateurs lorsque les systèmes agiront dans des environnements de plus en plus ouverts ?