Google Gemini 2.5 Computer Use : l’IA qui navigue sur le web

Google lance Gemini 2.5 Computer Use, un modèle d’IA capable d’agir dans un navigateur comme un humain. Une avancée décisive pour l’automatisation web.

octobre 20, 2025

Figure humanoïde en manteau marchant sur un fil url lumineux entre fenêtres navigateur au-dessus d'une ville numérique

Contexte : Google lance Gemini 2.5 Computer Use

Google a officialisé début octobre 2025 la preview de son nouveau modèle d’intelligence artificielle, Gemini 2.5 Computer Use. Ce système, disponible via l’API Gemini, Google AI Studio et Vertex AI, permet à une IA d’interagir avec les interfaces web comme un utilisateur humain. Grâce à une compréhension visuelle poussée, il peut cliquer, faire défiler des pages, remplir des formulaires et exécuter des tâches complexes depuis un navigateur.

Cette avancée place Google au cœur de la compétition entre les grands acteurs de l’IA, face aux initiatives similaires d’OpenAI (Computer Agent) et d’Anthropic (Claude Sonnet 4.5). Selon les données disponibles, Gemini 2.5 Computer Use affiche une précision d’environ 70 % sur le benchmark Online‑Mind2Web et une latence inférieure à celle de ses concurrents, des indicateurs qui confirment sa maturité technique.

L’accès reste pour l’instant limité à des phases d’expérimentation. Les tests sont réservés aux développeurs et entreprises partenaires disposant de quotas d’utilisation adaptés à leurs abonnements. Néanmoins, la dynamique d’adoption s’annonce rapide, portée par des usages concrets en automatisation et tests d’interfaces.

Pourquoi c’est important : un pas décisif pour l’automatisation

Gemini 2.5 Computer Use marque une étape clé dans la manière dont les systèmes d’IA comprennent et interagissent avec le web. Contrairement aux approches classiques basées sur le code source des pages (via les « sélecteurs DOM »), le modèle se fonde sur la vision — il « voit » les pages comme un humain le ferait grâce à des captures d’écran. Cette approche rend les agents plus adaptables face aux variations d’interface.

Dans les communautés de développeurs, l’accueil est enthousiaste. Les ingénieurs soulignent qu’il devient possible d’automatiser des processus sans scripts lourds ni maintenance constante. Pour les entreprises, la promesse est celle d’une réduction significative du coût et du temps nécessaires à la gestion de tâches en ligne répétitives.

Les chercheurs en IA, eux, saluent la capacité du modèle à généraliser des comportements sur des interfaces hétérogènes. Toutefois, certains rappellent la nécessité de prudence : la robustesse du système n’est pas garantie dans des environnements très dynamiques ou soumis à des règles d’authentification complexes.

Ce que cela change : des agents capables d’agir sur le web

L’un des apports majeurs de Gemini 2.5 Computer Use réside dans l’exécution d’actions directement au sein d’un navigateur. Les agents développés peuvent désormais remplir automatiquement des formulaires administratifs, tester des interfaces web, naviguer sur des sites à la recherche d’informations ou exécuter des scénarios métiers sans recourir à des API spécifiques.

Dans les entreprises en phase pilote, ces capacités ouvrent la voie à une automatisation plus souple : saisie de données, génération de rapports, gestion de workflows internes ou assistance numérique. Le modèle pourrait progressivement redéfinir les outils de test d’interfaces et les solutions de scraping traditionnellement utilisées dans le développement logiciel.

Cette évolution s’inscrit dans une tendance plus large, celle des AI agents, des assistants autonomes capables d’effectuer des tâches complexes combinant raisonnement, perception et action. Gemini 2.5 démontre que cette intégration devient progressivement une réalité pratique, au‑delà du simple dialogue textuel.

À surveiller : limites techniques et enjeux de sécurité

Malgré ses performances, le modèle n’est pas exempt de limites. Les données disponibles précisent que Gemini 2.5 Computer Use reste sensible aux éléments imprévisibles des interfaces : pop‑ups, changements de layout, CAPTCHA ou formulaires dynamiques. Ces fragilités pourraient réduire son efficacité dans des contextes réels non contrôlés.

Sur le plan de la sécurité, Google affirme avoir mis en place des garde‑fous : confirmation humaine, refus d’actions à risque, environnement d’exécution isolé (sandboxing). Plusieurs experts restent vigilants face à un possible détournement, par exemple pour automatiser des fraudes ou contourner des protections en ligne. Des tests indépendants et une gouvernance claire seront nécessaires avant un déploiement à grande échelle.

Enfin, les usages restent limités à la navigation web : aucune interaction n’est possible avec le bureau d’un ordinateur ou des logiciels locaux. L’accès en preview et la gestion des quotas indiquent une stratégie mesurée, destinée à tester la fiabilité avant ouverture plus large. L’évolution future dépendra de la capacité de Google à équilibrer performance, sécurité et transparence dans cette nouvelle génération d’agents intelligents.

Les dernière news

Étendez votre accès à vos collaborateurs
avec le Pack Entreprise