Rapport ARC Prize 2025 sur les limites du raisonnement général

Le 15 janvier 2026, les organisateurs d’ARC Prize publient le rapport technique de l’édition 2025. Le concours portait sur ARC-AGI-2, une nouvelle version plus difficile du benchmark ARC-AGI. Ce test vise la généralisation à peu d’exemples sur des tâches inédites. Les organisateurs le présentent comme une propriété centrale de l’intelligence générale. Le concours a réuni 1 455 équipes et 15 154 soumissions. Le meilleur score sur l’évaluation privée atteint 24 %. Le rapport note aussi que quatre laboratoires frontier ont publié en 2025 des résultats ARC-AGI dans leurs cartes de modèles. Il cite Anthropic, Google DeepMind, OpenAI et xAI. Le texte soutient cependant que les performances actuelles restent contraintes par la couverture de connaissances. Il parle aussi de nouvelles formes de contamination de benchmark. Il annonce enfin ARC-AGI-3, avec des défis interactifs demandant exploration, planification, mémoire, acquisition de but et alignement.

Ce rapport est pertinent car ARC-AGI est devenu un point de référence dans les débats sur le raisonnement général. Contrairement à des tests plus académiques, il cherche à mesurer la capacité à comprendre une tâche nouvelle plutôt qu’à rappeler un savoir déjà vu. Le faible plafond observé, malgré une forte mobilisation et l’attention des grands laboratoires, rappelle que les gains visibles sur certains benchmarks ne se traduisent pas automatiquement en généralisation robuste. Dans la trajectoire AGI, ce fait pousse à distinguer deux récits. Le premier met en avant les progrès rapides des modèles de raisonnement et des agents. Le second souligne que beaucoup de scores reposent encore sur la familiarité avec des formats ou des distributions connues. Le rapport renforce ce second récit. Il ne montre pas une stagnation générale de l’IA. Il montre plutôt que certains tests ciblant la nouveauté restent difficiles. L’annonce d’ARC-AGI-3 déplace aussi le débat. L’enjeu ne sera plus seulement de résoudre une énigme statique. Il sera d’agir, de mémoriser et de planifier dans une interaction. Cela rapproche davantage l’évaluation des prétentions agentiques actuelles. Reste alors une question simple. Les laboratoires progressent-ils vers une intelligence plus générale, ou surtout vers une meilleure adaptation aux jeux d’évaluation existants ?