Agents scientifiques encore limités face à la recherche ouverte
Le 10 juin, un article arXiv a présenté SciAgentArena, un benchmark d’agents pour des scénarios de recherche scientifique. L’ensemble comprend environ 200 tâches avec vérification par étapes dans un environnement interactif. Les auteurs disent que les agents actuels contribuent correctement à des workflows d’analyse de données bien cadrés. En revanche, ils peinent à produire des idées nouvelles, à maintenir une exploration autonome et à résoudre des questions ouvertes. Le papier décrit ces limites comme des problèmes de fiabilité, d’autonomie et de raisonnement scientifique.
Dans le débat AGI, cette évaluation est utile car la découverte scientifique est souvent citée comme un test de généralité. Un système capable d’avancer dans plusieurs sciences, sans guidage serré, porterait un poids particulier dans les discussions sur l’intelligence générale. Ici, le benchmark suggère qu’il existe encore un écart entre assistance compétente et recherche auto-dirigée. Cela nuance les récits où les agents seraient déjà proches d’un rôle de chercheur autonome.
Le signal principal est donc un bornage des capacités actuelles. Les agents semblent efficaces lorsque la structure de la tâche et les critères d’évaluation sont clairs. Ils restent fragiles quand il faut définir le problème, explorer l’espace des hypothèses et produire une nouveauté défendable. Cela rapproche ce travail d’autres évaluations récentes qui séparent exécution et autonomie soutenue. La question reste alors ouverte: les prochains gains viendront-ils surtout de meilleurs modèles, ou d’environnements et d’outils qui cadrent davantage la recherche ?