Benchmark Agentick et comparaison unifiée des paradigmes d’agents généraux
Le 7 mai 2026, des chercheurs ont mis en ligne Agentick sur arXiv. Le benchmark vise à comparer sur une base commune plusieurs familles d’agents. Il couvre les agents d’apprentissage par renforcement, les agents fondés sur des modèles de langage, les agents multimodaux, les systèmes hybrides et les humains. Agentick propose 37 tâches générées procéduralement, réparties en six catégories de capacités, quatre niveaux de difficulté et cinq modalités d’observation. Les auteurs rapportent une évaluation de 27 configurations sur plus de 90 000 épisodes. Le résumé indique qu’aucune approche ne domine toutes les dimensions. GPT-5 mini arrive en tête au score global normalisé, tandis que PPO domine les tâches de planification et les tâches multi-agents. Les auteurs notent aussi qu’un “reasoning harness”, soit une couche de raisonnement ajoutée au système, multiplie parfois les performances des modèles de langage par 3 à 10.
Ce travail est directement lié au suivi des capacités générales. Il tente de sortir d’une fragmentation croissante des évaluations, où chaque sous-communauté mesure sa propre idée de l’agent compétent. En établissant un terrain commun, Agentick rend plus visible ce qui manque encore à une compétence transversale en environnement séquentiel. Ce que révèle ce benchmark est nuancé. Les modèles de fondation restent compétitifs, mais ils ne remplacent pas les méthodes spécialisées sur tous les axes. Les gains liés au harnais de raisonnement montrent aussi que la performance dépend fortement de l’architecture système, pas seulement du modèle de base. Cela complique les récits simples sur une marche linéaire vers l’AGI. Les agents semblent progresser par assemblage de capacités hétérogènes plutôt que par convergence vers une seule recette. La question reste donc entière : quel mélange d’apprentissage, de mémoire, de planification et d’interface produira une généralité réellement robuste ?