Contexte : Google dévoile Gemini 2.5 Computer Use
Début octobre 2025, Google a présenté Gemini 2.5 Computer Use, une extension de son modèle Gemini 2.5 Pro destinée à faire interagir une intelligence artificielle avec le web comme un humain. Ce modèle peut cliquer, remplir des formulaires, naviguer sur des sites et effectuer des tests d’interfaces sans passer par une API. Disponible en preview via Google AI Studio et Vertex AI, il s’adresse principalement aux développeurs cherchant à automatiser des tâches sur des interfaces graphiques complexes. Selon les premiers essais, il rivaliserait avec les agents de ChatGPT et Claude, voire les dépasserait en précision et en rapidité sur certaines tâches de navigation web.
Cette annonce s’inscrit dans un contexte de forte compétition sur le marché des agents IA, ces systèmes capables d’exécuter des actions autonomes sur le web. OpenAI a récemment présenté ses propres ChatGPT Agents, et Anthropic a lancé Claude Sonnet 4.5. Face à eux, Google avance avec un modèle misant sur la compréhension visuelle et la capacité à agir de façon contextuelle, créant un socle commun pour la prochaine génération d’outils d’automatisation intelligente.
Pourquoi c’est important : vers une automatisation plus humaine
Gemini 2.5 Computer Use représente une avancée majeure pour l’automatisation des workflows numériques. Là où les scripts traditionnels (comme Selenium ou Puppeteer) nécessitent une configuration minutieuse et une maintenance constante, ce nouveau modèle comprend directement les éléments d’une page web comme un utilisateur le ferait. Grâce à sa compréhension visuelle, il peut identifier un bouton, un champ de saisie ou une image, et interpréter la logique d’interaction sous-jacente.
Cette approche ouvre la voie à une automatisation plus intuitive des processus métiers : tests d’interfaces, assistance numérique, saisie de formulaires ou même achats en ligne. Les entreprises y voient déjà un levier de productivité et de fiabilité, tandis que les chercheurs saluent son apport au concept de perception-action – une boucle cognitive proche du raisonnement humain.
Ce que cela change : de nouveaux cas d’usage pour l’IA
Parmi les premières applications concrètes, plusieurs cas d’usage émergent. L’automatisation de formulaires en ligne permet de traiter des sites sans API, y compris ceux comportant des fenêtres contextuelles ou des consentements. En test UI automatisé, Gemini 2.5 Computer Use exécute des scénarios sur des interfaces dynamiques pour détecter des bugs et valider des parcours utilisateurs. Google l’utilise déjà en interne pour des projets comme Project Mariner (achats automatisés), Firebase Testing Agent et Search AI Mode.
Le modèle facilite aussi le développement rapide d’agents intelligents capables de naviguer sur le web via Python, JavaScript ou d’autres langages. Grâce à des SDK et à des outils de suivi intégrés, les développeurs peuvent prototyper des agents en quelques heures. Le retour des communautés techniques est largement positif : la documentation claire et la simplicité d’intégration sont souvent mises en avant, même si les débats se poursuivent sur la robustesse du modèle face aux interfaces dynamiques.
À surveiller : limites et enjeux de sécurité
Malgré son potentiel, Gemini 2.5 Computer Use n’échappe pas à certaines limites techniques. Comme ses concurrents, il demeure sensible aux évolutions d’interface, aux changements de structure DOM ou aux systèmes d’authentification complexes. Les sites web protégés par des CAPTCHAs ou soumis à des quotas d’accès (rate limits) restent un obstacle.
Google a intégré des mécanismes de sécurité à plusieurs niveaux : chaque action effectuée par le modèle peut être vérifiée avant exécution, et les opérations sensibles – comme les transactions financières – peuvent exiger une validation humaine. Toutefois, la responsabilité finale incombe aux développeurs, qui doivent tester les intégrations dans des environnements réels pour éviter toute faille ou abus.
Enfin, l’accès au modèle reste limité à une version preview, avec des quotas et des performances variables selon la charge serveur. Les experts estiment que son adoption dépendra de sa capacité à s’adapter aux contraintes du web moderne. En attendant, cette étape marque une transition stratégique : les modèles d’IA ne se contentent plus de lire le web, ils apprennent désormais à y agir – exactement comme nous.
