Enquête ARC-AGI et limites persistantes de la généralisation compositionnelle

Le 9 mars 2026, un article arXiv a présenté un survey vivant sur les progrès réalisés sur ARC-AGI. ARC-AGI est un benchmark conçu par François Chollet pour tester l’apprentissage de nouvelles règles à partir de peu d’exemples. Les auteurs comparent 82 approches sur trois versions du benchmark et sur les compétitions ARC Prize 2024-2025. Leur résultat central est une dégradation régulière des scores quand la difficulté augmente. Ils disent observer des baisses de deux à trois fois entre ARC-AGI-1 et ARC-AGI-2, puis une chute plus forte sur ARC-AGI-3. Le résumé mentionne 93,0% sur ARC-AGI-1, 68,8% sur ARC-AGI-2 et 13% sur ARC-AGI-3, alors que les humains resteraient proches de la perfection. Les auteurs notent aussi une baisse forte du coût par tâche, tout en précisant qu’elle tient largement à moins de calcul au moment du test.

Dans le paysage AGI, ARC-AGI occupe une place particulière. Le benchmark ne mesure pas la simple restitution de connaissances. Il vise la capacité à abstraire, recomposer et apprendre des règles inédites. C’est précisément un angle souvent présenté comme plus proche de l’intelligence générale que les tests saturés par mémorisation. Le survey est notable car il agrège plusieurs générations d’approches, des méthodes neuronales aux approches neuro-symboliques et à la synthèse de programmes. L’analyse qui s’en dégage est sobre mais importante. Les progrès existent, mais ils ne se traduisent pas en robustesse stable lorsqu’on change de version. Cela suggère que beaucoup de systèmes exploitent encore des régularités benchmark-spécifiques plutôt qu’une généralisation flexible. Le fait que des modèles de tailles modestes restent compétitifs soutient aussi l’idée que l’intelligence générale ne se réduit pas à l’échelle brute. Enfin, l’importance des boucles d’adaptation au test montre une dépendance croissante à des procédures élaborées plutôt qu’à des compétences intrinsèques. La question reste donc ouverte : assiste-t-on à un vrai élargissement des capacités générales, ou surtout à une meilleure ingénierie autour de tâches encore mal conquises ?