Google Gemini 2.5 Computer Use : l’IA qui navigue comme vous

Google lance Gemini 2.5 Computer Use, un modèle d’IA capable d’utiliser un navigateur comme un humain, marquant un tournant dans l’automatisation web.

octobre 21, 2025

Jeune développeur et entité de code traversant un pont de liens flottants au crépuscule
XXX

Contexte : Google dévoile Gemini 2.5 Computer Use

Google a présenté début octobre 2025 son nouveau modèle d’intelligence artificielle, Gemini 2.5 Computer Use. Conçu par DeepMind, ce système franchit un cap important : il peut utiliser un navigateur web comme un être humain. En pratique, il est capable de cliquer, saisir du texte, manipuler des menus déroulants ou remplir des formulaires simplement à partir d’une capture d’écran et de l’historique d’actions. Disponible en preview via Google AI Studio et Vertex AI, il illustre la convergence entre vision, langage et action dans les modèles d’IA contemporains.

Le modèle fonctionne selon une boucle d’action : il analyse un état visuel, propose une action, puis reçoit en retour le nouvel état du navigateur. Ce cycle se poursuit jusqu’à la fin de la tâche ou une interruption de sécurité. Sur les benchmarks de référence comme Online‑Mind2Web, WebVoyager et AndroidWorld, il dépasse ses concurrents — Anthropic Sonnet 4.5 et OpenAI Computer Agent — avec une précision supérieure à 70 % et une latence réduite. Ce positionnement renforce la place de Google dans la course aux agents capables d’interagir avec des environnements numériques réels.

Pourquoi c’est important : un pas vers des agents autonomes

Avec Gemini 2.5 Computer Use, Google s’attaque au défi de l’automatisation universelle des interfaces graphiques. Jusqu’à présent, les systèmes d’IA dépendaient d’API dédiées pour exécuter des tâches précises. Ce modèle, lui, agit directement sur des interfaces humaines, ouvrant la voie à des agents autonomes capables de travailler dans n’importe quel navigateur, sans adaptation spécifique. Pour les entreprises et développeurs, cela représente un gain considérable : automatiser des procédures complexes, tester des produits numériques ou assister des utilisateurs sans coder d’intégrations supplémentaires.

L’accueil dans la communauté technologique est largement positif. Les experts y voient un outil de productivité et de test logiciel particulièrement puissant. Les chercheurs, eux, insistent sur la nécessité de supervision humaine, notamment dans les tâches sensibles (achats, gestion de comptes, accès à des données privées). Cette prudence reflète une tension croissante entre efficacité automatisée et sécurité opérationnelle.

Ce que cela change : de l’automatisation métier au support intelligent

Les cas d’usage recensés autour de Gemini 2.5 Computer Use montrent un large éventail d’applications. Dans les entreprises, il peut automatiser le remplissage de formulaires complexes, y compris derrière des authentifications. Dans l’ingénierie logicielle, il est utilisé pour tester automatiquement des interfaces utilisateur : cliquer, valider, vérifier le rendu d’éléments dynamiques. Cette capacité réduit le coût et le temps associés aux campagnes de tests manuels.

L’outil se montre aussi prometteur dans le support client automatisé. Un agent propulsé par Gemini 2.5 pourrait, par exemple, résoudre un problème sur un site web en effectuant lui‑même les étapes nécessaires dans l’interface. Enfin, la navigation transactionnelle — telle que les achats ou réservations en ligne — devient plus fluide : l’IA comprend la logique visuelle des pages et agit comme un utilisateur expert. Cela facilite également l’extraction de données sur des sites dépourvus d’API, ouvrant de nouvelles perspectives en veille et en recherche documentaire.

À surveiller : sécurité, robustesse et cadre éthique

Malgré ses performances, Gemini 2.5 Computer Use présente encore des limites. Le modèle peut échouer face à des interfaces très dynamiques ou à des flux de connexion atypiques. Google a intégré des garde‑fous : confirmation humaine pour certaines actions, refus d’exécuter des tâches jugées risquées, et mode preview réservé à des tests contrôlés. Ces précautions traduisent la sensibilité des usages visés, où une action mal interprétée pourrait avoir des conséquences concrètes.

Les enjeux éthiques et réglementaires restent centraux. L’automatisation d’interfaces pensées pour des humains soulève des questions de conformité au RGPD et de transparence : un agent peut‑il manipuler des données personnelles sans consentement explicite ? Les données disponibles ne précisent pas la position officielle de Google sur ces points, mais la communauté académique appelle à encadrer strictement les interactions IA‑web pour éviter tout détournement. Si l’approche atteint la robustesse nécessaire, elle pourrait redéfinir la manière dont l’IA opère sur le web quotidien.

Les dernière news

Étendez votre accès à vos collaborateurs
avec le Pack Entreprise