Gemini 2.5 Computer Use : Google fait entrer l’IA dans le navigateur

Gemini 2.5 Computer Use de Google permet à une IA d’agir sur le web comme un humain, automatisant formulaires, tests d’interface et tâches complexes.

octobre 20, 2025

Humanoïde translucide manipulant un navigateur géant, designer observant dans la pénombre

Contexte : Gemini 2.5 Computer Use, une IA qui sait naviguer sur le web

Début octobre 2025, Google a lancé Gemini 2.5 Computer Use, un nouveau modèle d’intelligence artificielle conçu pour interagir avec des interfaces web comme un utilisateur humain. Cette technologie permet à l’IA de cliquer, remplir des formulaires, tester des interfaces (UI) et automatiser des tâches directement dans un navigateur. Accessible en preview via Google AI Studio et Vertex AI, elle illustre une étape majeure dans l’« agentification » de l’IA – sa capacité à agir plutôt qu’à seulement répondre.

Selon les données disponibles, le modèle atteint plus de 70 % de précision sur des benchmarks spécialisés tels qu’Online-Mind2Web, WebVoyager et AndroidWorld, tout en affichant une latence inférieure à celle des agents concurrents. Google a néanmoins encadré son usage : les utilisateurs gratuits sont limités à cinq requêtes par jour, tandis que les abonnés Pro et Ultra bénéficient de quotas élargis. L’entreprise a aussi intégré des garde-fous, exigeant une confirmation humaine avant toute action sensible.

Pourquoi c’est important : une avancée pour l’automatisation intelligente

Gemini 2.5 Computer Use marque un tournant dans la manière dont les modèles d’IA comprennent et manipulent les environnements numériques. Jusqu’ici, la majorité des agents – y compris ChatGPT ou Claude – se limitaient à produire du texte ou du code. Le modèle de Google, lui, voit et agit dans un navigateur, interprétant visuellement la structure d’une page pour interagir comme un utilisateur réel.

Cette approche ouvre des possibilités concrètes : automatiser les tests d’interfaces pour les développeurs, exécuter des workflows complexes sans script spécifique, ou encore faciliter la navigation sur des plateformes collaboratives et de commerce en ligne. Les équipes d’ingénierie de Google s’en servent déjà en interne, notamment dans des projets de test automatisé comme Project Mariner.

La communauté technologique salue la performance du modèle, qui surpasse ses rivaux sur plusieurs bancs d’essai. Des chercheurs y voient une avancée clé vers des systèmes d’agents capables d’opérer de manière autonome dans des environnements riches et variables – une étape longtemps considérée comme cruciale dans l’évolution des IA généralistes.

Ce que cela change : des cas d’usage concrets en entreprise

L’arrivée de Gemini 2.5 Computer Use réoriente la réflexion sur l’utilisation des modèles d’IA en production. En entreprise, il peut automatiser des processus chronophages : saisie d’informations sur des portails administratifs, gestion du support client, vérification de conformité ou validation d’étapes dans des outils internes. Le modèle agit directement sur les interfaces existantes, sans nécessiter de développement dédié.

Dans le domaine du test logiciel, il complète ou remplace des outils comme Playwright ou Selenium pour certaines tâches. En observant l’écran et en adaptant ses actions, il réduit le besoin de scripts rigides, ce qui facilite la maintenance des tests face à des applications évolutives. En revanche, les outils classiques gardent l’avantage sur la vitesse et le coût d’exécution pour les scénarios simples.

Les assistants personnels pilotés par ce modèle illustrent aussi un nouvel usage : réserver des services, gérer des comptes en ligne ou trier des documents sur le web, le tout sans intervention directe de l’utilisateur. Cette capacité multiplie les perspectives pour les créateurs de produits, mais soulève également des questions de fiabilité et de responsabilité.

À surveiller : robustesse, sécurité et limites d’accès

Malgré ses promesses, Gemini 2.5 Computer Use soulève plusieurs défis. Sur le plan technique, le modèle reste vulnérable face à des pages très dynamiques, à des flux d’authentification complexes ou à des interfaces atypiques. Certains chercheurs évoquent encore des problèmes de robustesse et de stabilité lorsque l’environnement web évolue rapidement.

Sur le plan de la sécurité, Google a prévu des contrôles par étape pour éviter les actions risquées. Toutefois, les risques liés à l’injection de prompts malveillants, au contournement de CAPTCHA ou à l’exécution non désirée d’opérations persistent. La responsabilité revient aux développeurs de configurer des garde-fous adaptés avant tout déploiement.

Enfin, la limitation d’accès pour les utilisateurs gratuits pourrait freiner l’expérimentation ouverte et retarder la diffusion d’usages innovants. Entre performance prometteuse et contraintes de gestion, Gemini 2.5 Computer Use inaugure une nouvelle phase où les IA ne se contentent plus de comprendre le web, mais commencent réellement à y agir.

Les dernière news

Tous les contenus en illimité
pour 9,99€ 1 € le premier mois

Déja abonné ?