Benchmark OpenAI de recherche scientifique agentique en biologie

Le fait — OpenAI a publié le 17 juin 2026 une présentation de LifeSciBench. Le benchmark regroupe 750 tâches couvrant sept workflows et sept domaines des sciences de la vie. Les tâches sont rédigées et évaluées par des chercheurs expérimentés issus de la biotech et de la pharmacie. OpenAI indique que beaucoup de tâches demandent plusieurs étapes de raisonnement. Le benchmark inclut aussi des artefacts comme figures, PDF, tableaux et fichiers de séquence. OpenAI rapporte des progrès d’un modèle nommé GPT-Rosalind par rapport à GPT-5.5. Les meilleurs résultats restent toutefois loin d’une réussite généralisée, surtout sur les tâches avec artefacts, calculs exacts ou conception expérimentale.

Le contexte — Les benchmarks généralistes captent mal la recherche scientifique réelle. Or l’argument central de plusieurs laboratoires est que des agents plus capables aideront bientôt à la découverte scientifique. LifeSciBench tente de mesurer autre chose qu’une bonne réponse verbale. Il teste l’interprétation d’indices imparfaits, la gestion d’incertitude et la production de jugements utilisables. Pour le récit AGI, ce type d’évaluation compte car la recherche autonome est souvent citée comme seuil de généralité. Un système capable d’aider sur des tâches savantes longues serait plus proche d’une intelligence transférable que d’un simple chatbot.

L’analyse — Ce lancement apporte surtout une nouvelle surface de mesure. Il ne prouve pas une percée vers l’AGI. Il montre plutôt où les modèles progressent et où ils cassent encore. Les gains semblent réels sur la synthèse, la communication et certaines décisions expertes. Les limites restent fortes sur l’usage d’artefacts, la précision et la conception lourde en contraintes. Cela suggère une trajectoire asymétrique. Les modèles deviennent plus convaincants dans des tâches savantes, sans maîtriser encore l’exécution rigoureuse de bout en bout. La question reste ouverte : ces benchmarks rapprochent-ils d’une science plus autonome, ou mesurent-ils surtout une meilleure imitation du travail scientifique ?