L’alignement comme ensemble de priorités techniques parfois incompatibles
Le 12 juin, un article arXiv a soutenu que l’expression « AI alignment » recouvre plusieurs concepts distincts plutôt qu’un agenda unique. Les auteurs distinguent trois conceptions liées à des programmes de recherche différents. Ils avancent qu’une intervention présentée comme favorable à l’alignement peut être contre-productive selon une autre conception. Ils attribuent ces tensions à des différences de modèles de menace et à des orientations normatives différentes. Le texte recommande de distinguer l’idéal général d’alignement des proxys empiriques utilisés en recherche, et d’employer des termes plus granulaires.
Ce papier importe pour la gouvernance AGI car l’alignement est devenu un mot omnibus. Les laboratoires, régulateurs et chercheurs l’emploient souvent comme s’il désignait une cible partagée. Or, des désaccords sur ce qui doit être aligné, contre quels risques et selon quelles valeurs changent directement les priorités techniques. Dans un environnement où les agents gagnent en autonomie, cette ambiguïté a des effets concrets sur l’évaluation des systèmes et sur les promesses faites au public.
Pour la trajectoire AGI, le texte n’ajoute pas un nouveau résultat de capacité. Il clarifie un obstacle conceptuel à mesure que les systèmes deviennent plus puissants et plus intégrés à des outils. Si les acteurs utilisent le même mot pour des objectifs divergents, la coordination devient plus difficile. La question ouverte est alors politique autant que technique: peut-on gouverner des systèmes plus généraux sans accord minimal sur ce que “aligner” veut dire ?