Contexte : Google lance Gemini 2.5 Computer Use
Début octobre 2025, Google a présenté la version preview de Gemini 2.5 Computer Use, un modèle d’IA conçu pour interagir avec des interfaces web comme le ferait un utilisateur humain. Accessible via Google AI Studio et Vertex AI, il s’inscrit dans la compétition directe avec les agents d’OpenAI et d’Anthropic.
Grâce à sa compréhension visuelle, Gemini 2.5 Computer Use peut « voir » des captures d’écran, comprendre la structure des pages et effectuer des actions — clics, saisies, défilements — dans une boucle interactive. Ce fonctionnement rapproche l’intelligence artificielle de la navigation humaine, ouvrant la voie à une nouvelle génération d’agents logiciels capables d’opérer sur des pages classiques sans adaptation spécifique du code.
Les données disponibles indiquent que ce modèle surpasse les alternatives sur plusieurs benchmarks, notamment Online‑Mind2Web, où il affiche une précision d’environ 70 %. Sa latence réduite facilite les usages nécessitant une réactivité proche du temps réel. Toutefois, la preview reste limitée au contexte navigateur : le modèle ne contrôle pas encore l’ensemble d’un poste de travail.
Pour encadrer ces capacités, Google a publié des quotas précis : de 5 à 500 prompts par jour selon le plan d’abonnement Gemini 2.5 Pro. Ces limitations traduisent la volonté de maîtriser l’usage d’un outil à fort potentiel d’automatisation.
Pourquoi c’est important : une avancée stratégique pour l’IA multimodale
Gemini 2.5 Computer Use marque une étape clé dans la convergence entre vision et raisonnement automatique. En combinant analyse d’images et génération d’actions, le modèle réalise ce que la recherche en intelligence artificielle nomme les « agents » : des systèmes capables de percevoir, décider et agir dans un environnement numérique.
Ce progrès répond à un besoin concret : les entreprises cherchent depuis des années à automatiser la navigation dans des interfaces web instables ou complexes. Au lieu d’utiliser des scripts fragiles basés sur le code HTML (DOM), l’approche de Gemini exploite la perception visuelle de la page, plus proche de la logique humaine. Elle pourrait réduire le coût de maintenance des systèmes d’automatisation ou de test d’applications web.
La communauté scientifique, elle, salue la prouesse technique tout en appelant à des évaluations indépendantes : la robustesse face aux changements d’interface, la sécurité des actions automatiques et la protection des données restent des points sensibles.
Ce que cela change : vers des usages pratiques et productifs
Les premiers cas d’usage de Gemini 2.5 Computer Use démontrent son potentiel industriel. L’automatisation du remplissage de formulaires en ligne, y compris dans des zones sécurisées derrière authentification, fait partie des applications déjà explorées. Pour les équipes de développement, le modèle permet aussi de générer automatiquement des scénarios de test d’interfaces, en adaptant les actions selon les résultats observés en temps réel.
Autre terrain d’expérimentation : la navigation et l’extraction de données structurées. L’IA peut naviguer, filtrer des résultats, puis collecter des informations sans configuration préalable spécifique. Une démonstration publique a montré l’agent visitant un site de vente d’animaux, appliquant des filtres et récupérant des détails pertinents, preuve de sa capacité à comprendre la logique visuelle d’un site.
Les développeurs profitent de ces capacités via Google AI Studio pour créer rapidement des prototypes d’agents web personnalisés. Cette flexibilité attire particulièrement le secteur du RPA (Robotic Process Automation), où la fiabilité visuelle pourrait remplacer des scripts DOM souvent instables lors des mises à jour de site.
À surveiller : sécurité, éthique et limites techniques
Gemini 2.5 Computer Use soulève plusieurs questions réglementaires et éthiques. Google a prévu des garde‑fous : confirmation obligatoire de l’utilisateur pour toute action sensible, exécution interdite d’actes comme l’acceptation de conditions légales ou la validation d’achats sans consentement explicite. Ces restrictions visent à prévenir les abus dans l’automatisation web.
La gestion des données constitue un autre enjeu. Les captures d’écran et contenus extraits sont considérés comme des données sensibles. Les développeurs doivent donc veiller au respect des règles de confidentialité et aux cadres légaux de protection des informations personnelles, en particulier lors de traitements à grande échelle.
Sur le plan technique, les limitations annoncées traduisent la complexité du contrôle d’environnements dynamiques. L’interaction reste confinée au navigateur, sans accès au bureau ni aux systèmes hors ligne. Ces contraintes rappellent que, malgré ses performances, l’IA n’est pas encore une solution universelle d’automatisation.
À mesure que la preview avancera et que les évaluations indépendantes se multiplieront, le secteur observera de près la stabilité, la sécurité et la scalabilité du modèle. Gemini 2.5 Computer Use pourrait bien redéfinir la relation entre les agents d’IA et le web — à condition que la maîtrise technique et éthique accompagne l’innovation.
