Préentraînement avec réflexion de sécurité intégrée et auto-surveillance

Le fait — Des chercheurs ont publié sur arXiv, le 17 juin 2026, un article sur l’alignement au stade du préentraînement. Leur méthode, appelée Safety Reflection Pretraining, insère régulièrement de courtes réflexions de sécurité dans les corpus. Les auteurs testent l’approche sur des modèles de 1,7 milliard de paramètres entraînés sur FineWeb-Edu. Ils rapportent une meilleure classification des contenus dangereux. Ils rapportent aussi une baisse du succès de certaines attaques au moment de l’inférence et du finetuning.

Le contexte — L’alignement est souvent traité après le préentraînement, par filtrage, ajustement supervisé, ou apprentissage par préférences. Ce papier défend une autre idée. Il ne suffit pas de rendre les données d’entraînement plus sûres. Un modèle peut recombiner un savoir banal en comportement dangereux. Cette question compte dans la trajectoire AGI, car des systèmes plus généraux peuvent transférer des capacités d’un domaine à l’autre.

L’analyse — Ce travail ne montre pas une avancée directe de capacité générale. Il documente plutôt un déplacement du débat technique sur l’alignement. L’enjeu n’est plus seulement de censurer les données risquées. Il devient aussi de façonner les habitudes de raisonnement apprises très tôt. Cela suggère une vision de l’alignement comme propriété de base du modèle, et non simple couche ajoutée après coup. Mais les résultats portent sur de petits modèles et sur un environnement synthétique complémentaire. La question reste donc ouverte sur la robustesse de cette approche à l’échelle frontier.