Alignement dès le préentraînement par réflexions de sécurité

Le fait — Le 17 juin 2026, un article arXiv a présenté “Safety Reflection Pretraining”. Les auteurs proposent d’insérer dans les corpus de préentraînement de brèves réflexions sur la sécurité. Leur idée est de faire émerger une forme d’auto-surveillance pendant l’apprentissage de base. Ils testent la méthode sur des modèles de 1,7 milliard de paramètres entraînés sur FineWeb-Edu. Ils rapportent de meilleurs scores en classification de sécurité. Ils rapportent aussi une baisse de la réussite d’attaques à l’inférence et au finetuning. Les auteurs ajoutent un environnement synthétique, MedSafetyWorld, pour étudier des généralisations dangereuses à partir de données pourtant sûres.

Le contexte — Une ligne de recherche récente cherche à pousser l’alignement en amont. Au lieu de corriger les modèles après préentraînement, elle tente de modifier ce qu’ils apprennent au départ. Cette approche intéresse le débat AGI car les systèmes plus généraux combinent des connaissances anodines en comportements nouveaux. Filtrer les données ne suffit pas forcément si le danger vient de la composition des capacités. Le papier s’inscrit donc dans une bascule plus large. L’alignement n’est plus seulement un problème de refus ou de garde-fous. Il devient un problème de formation des habitudes cognitives du modèle.

L’analyse — Le résultat reste précoce et observé sur de petits modèles. Il ne démontre pas qu’une telle méthode s’étendra aux systèmes frontier. Mais il formalise une intuition importante pour la trajectoire AGI. La sécurité pourrait dépendre moins de couches externes que des dispositions apprises pendant le préentraînement. Cela déplace une tension connue. Plus on intègre la sécurité tôt, plus elle peut devenir robuste. Mais plus il devient difficile de vérifier ce qui a été véritablement appris. La question reste ouverte : faut-il aligner davantage les bases du modèle, au risque de rendre son comportement moins lisible ?