Gemini 2.5 Computer Use : Google pousse l’IA sur le web

Google dévoile Gemini 2.5 Computer Use, une IA capable d’interagir directement avec les pages web comme un humain, ouvrant une nouvelle ère d’automatisation.

octobre 21, 2025

Femme réparant interfaces web lumineuses dans un studio nocturne, tissant filaments entre panneaux flottants
XXX

Contexte : Google dévoile Gemini 2.5 Computer Use

Google a présenté au début d’octobre 2025 son nouveau modèle d’intelligence artificielle, Gemini 2.5 Computer Use. Ce système est capable de naviguer et d’interagir dans un navigateur web comme le ferait un humain : cliquer, faire défiler, remplir des formulaires ou manipuler des éléments graphiques. Disponible dès maintenant via Google AI Studio et Vertex AI, il constitue une avancée majeure dans la convergence entre IA générative et interaction visuelle.

Selon les données disponibles, l’annonce officielle a eu lieu le 7 octobre 2025 sous la bannière de Google DeepMind. Le modèle atteint plus de 70 % de précision sur des benchmarks d’interaction web tels qu’Online-Mind2Web et WebVoyager. Sa rapidité et sa fiabilité surpasseraient celles des agents concurrents, notamment ceux de ChatGPT, Claude et Sonnet.

Les développeurs peuvent déjà y accéder pour créer rapidement des prototypes et automatiser des tests d’interfaces. Côté sécurité, Google a intégré des gardes-fous à plusieurs niveaux : vérification systématique des actions et blocage automatique des opérations jugées sensibles, par exemple les transactions financières ou la manipulation de données médicales.

Pourquoi c’est important : vers une IA plus autonome sur le web

Jusqu’à présent, la majorité des agents d’IA devait se contenter d’interagir via des API préprogrammées. Gemini 2.5 Computer Use change la donne en permettant à un modèle d’IA d’interagir directement avec les interfaces conçues pour les humains. Cette capacité d’observation et d’action simultanées ouvre la voie à une automatisation beaucoup plus souple. Autrement dit, au lieu de demander à une IA d’appeler une API, on lui montre une page web, et elle comprend quoi faire.

Dans le secteur de la productivité et du développement logiciel, les premiers tests indiquent une adoption rapide par les équipes qui automatisent la vérification d’interfaces utilisateur (UI) ou la saisie de formulaires complexes. Plusieurs divisions internes de Google, notamment Firebase et Search, l’utilisent déjà pour accélérer les cycles de test et réduire la charge de maintenance sur leurs produits.

Pour les chercheurs, cette approche marque une évolution vers ce que certains appellent les « agents généralistes », des systèmes capables de transférer leurs compétences d’un environnement numérique à un autre sans entraînement spécifique. Le potentiel est considérable, bien que les experts soulignent la nécessité d’un audit continu de la sécurité et des performances.

Ce que cela change : nouveaux usages et limites à surveiller

Les cas d’usage concrets se multiplient depuis la mise en ligne de Gemini 2.5 Computer Use. Les développeurs l’emploient pour automatiser la soumission de formulaires, organiser des éléments visuels dans des tableaux interactifs ou encore valider le fonctionnement d’applications web et mobiles. Dans un contexte professionnel, ces capacités permettent de réduire drastiquement le temps de test et d’intégration des outils numériques.

Certains utilisateurs envisagent déjà des assistants personnels capables d’accomplir plusieurs actions successives sur Internet, comme réserver un billetterie ou classer des documents, sans écriture de code supplémentaire. Cependant, les discussions au sein de la communauté technique rappellent que pour des tâches simples, des outils dédiés comme Playwright ou Jest restent souvent plus rapides et adaptés.

Le modèle rencontre également des limites techniques identifiées par les expérimentations : pages web dynamiques, étapes d’authentification multiples ou bannières de consentement mal structurées peuvent perturber la détection des éléments. Par ailleurs, la version mobile n’est pas encore totalement optimisée, ce qui restreint certaines applications.

À surveiller : sécurité, scalabilité et concurrence

Les spécialistes de la sécurité mettent en garde contre un risque inhérent à la puissance de Gemini 2.5 Computer Use : une action mal configurée pourrait entraîner des erreurs coûteuses ou des comportements inappropriés sur des interfaces sensibles. Google indique avoir introduit des filtres et protocoles de vérification, mais leur efficacité dépendra des usages réels et du niveau d’autonomie accordé à ces agents.

Sur le plan industriel, la concurrence s’annonce intense. OpenAI et Anthropic développent déjà des agents similaires capables de contrôler des applications graphiques. Les performances supérieures de Gemini sur certains benchmarks devraient pousser le secteur à redoubler d’efforts pour optimiser la vitesse et la fiabilité de ces systèmes.

À moyen terme, la question centrale sera la scalabilité : comment généraliser ce type d’agent sans perte de robustesse ni augmentation excessive de la latence ? Les chercheurs invitent à poursuivre les tests, notamment dans les environnements non standardisés du web réel. Une chose est sûre : en rapprochant le mode de fonctionnement des IA de celui des utilisateurs humains, Google franchit une nouvelle étape dans l’intégration de l’intelligence artificielle au cœur du web.

Les dernière news

Tous les contenus en illimité
pour 9,99€ 1 € le premier mois

Déja abonné ?