Agent-ValueBench et déplacement de l’alignement vers le niveau du harnais

Le 11 mai 2026, des chercheurs ont publié Agent-ValueBench sur arXiv. Le benchmark vise à évaluer les valeurs incorporées dans des agents autonomes. Les auteurs partent d’un constat simple. Les benchmarks de valeurs existants portent surtout sur les modèles de langage isolés, pas sur des agents qui agissent. Ils construisent donc 394 environnements exécutables couvrant 16 domaines et 4 335 tâches de conflit de valeurs. Le benchmark couvre 28 systèmes de valeurs et 332 dimensions. Il compare 14 modèles frontier, propriétaires et ouverts, sur quatre harnais d’agent courants. Le résumé indique trois résultats. D’abord, les agents présentent une homogénéité transversale, décrite comme une “Value Tide”. Ensuite, le harnais infléchit ces valeurs de manière non additive. Enfin, un pilotage délibéré par compétences intégrées peut les modifier plus fortement encore. Les auteurs en concluent que l’alignement des agents se déplace du modèle et du prompt vers le harnais et les compétences embarquées.

Dans la trajectoire AGI, ce point touche un problème de fond. Plus les systèmes deviennent autonomes, moins il suffit d’aligner un modèle conversationnel au niveau de ses réponses textuelles. Les comportements observés dépendent aussi de la mémoire, des outils, des objectifs intermédiaires et des modules ajoutés autour du modèle. Cet article ne dit pas que les agents sont proches de l’AGI. Il dit que leur gouvernance devient plus systémique. Cela a des conséquences pratiques pour les audits, les évaluations et la responsabilité. Si l’agent diverge des préférences apparentes du modèle, les tests de sécurité basés sur le modèle seul risquent de sous-estimer certains comportements. Le résultat est aussi une mise en garde pour les laboratoires. À mesure qu’ils construisent des agents composites, l’alignement devient une propriété de l’assemblage complet. Mais comment standardiser cette “alignabilité” quand le comportement dépend autant de l’orchestration que du modèle ?