Benchmark d’alignement raté face aux réponses étayées
Le fait — Des chercheurs ont publié le 17 juin 2026 sur arXiv un article intitulé “The Wrong Kind of Right”. Ils y introduisent VETO, un benchmark de 2 032 paires contrastives dérivées de BBQ. Leur métrique, appelée Misfired Alignment Rate, mesure les cas où un modèle échoue sur une question liée aux stéréotypes, mais réussit sur sa contrepartie. Les auteurs évaluent 25 grands modèles de langage. Ils rapportent des taux non nuls pour tous les modèles testés. Les humains de leur expérience obtiennent un taux nul. Les auteurs disent aussi avoir localisé ce comportement dans des couches tardives de modèles ouverts. Ils estiment que cet effet apparaît après l’instruction et l’alignement, pas dans les modèles de base.
Le contexte — L’alignement vise à rendre les modèles plus sûrs et plus fiables. Une partie du débat AGI porte pourtant sur les effets secondaires de ces méthodes. Un système plus prudent peut devenir moins ancré dans le contexte fourni. Ce problème compte davantage à mesure que les modèles sont déployés comme assistants généraux. Il compte aussi pour l’évaluation des capacités. Un modèle qui refuse une réponse correcte peut sembler sûr, tout en devenant moins compétent sur des tâches réelles.
L’analyse — Ce papier n’annonce pas un saut de capacité. Il documente plutôt une limite de la stratégie actuelle d’alignement comportemental. Cela suggère que l’amélioration de la sûreté par surcouche peut déformer le raisonnement au lieu de seulement le contraindre. Pour la trajectoire AGI, l’enjeu est direct. Un agent général devra distinguer un signal de risque d’une preuve contextuelle valide. Sinon, il restera fragile dans des environnements ambigus. La question reste ouverte : comment renforcer la sécurité sans apprendre au modèle à ignorer des faits explicitement donnés ?