Google Gemini 2.5 Computer Use : l’IA qui navigue comme vous

Google lance Gemini 2.5 Computer Use, un modèle d’IA capable de naviguer et d’interagir avec le web comme un humain, ouvrant une ère d’automatisation visuelle.

octobre 20, 2025

Femme solitaire à bras robotique guidant un bateau-papier sur mer de fenêtres

Contexte : Google lance Gemini 2.5 Computer Use

Début octobre 2025, Google a présenté Gemini 2.5 Computer Use, une extension de son modèle d’intelligence artificielle Gemini 2.5 Pro. Accessible via Google AI Studio, Vertex AI et l’API Gemini, ce nouvel outil se distingue par sa capacité à naviguer sur le web comme un utilisateur humain. Grâce à une compréhension visuelle avancée, il peut observer des captures d’écran, détecter les éléments interactifs d’une page (boutons, champs, menus) et effectuer des actions : cliquer, remplir, faire défiler, répéter. Cette boucle itérative permet à l’IA d’atteindre un objectif sans intervention humaine directe.

Les premiers tests sont prometteurs : Gemini 2.5 Computer Use surpasse les alternatives comme les agents de ChatGPT ou d’Anthropic Claude sur des benchmarks tels que Online‑Mind2Web et WebVoyager, avec plus de 70 % de réussite et une latence réduite. L’innovation se concentre clairement sur le contrôle du navigateur web, et non sur l’automatisation du système dans son ensemble.

Pourquoi c’est important : vers une IA capable d’agir

Ce lancement marque un tournant dans la course à l’automatisation intelligente. Là où les modèles de langage comprenaient déjà le texte ou le code, Gemini 2.5 Computer Use introduit une dimension d’action visuelle. Il ne se contente plus de produire des réponses, mais interagit avec les interfaces numériques. Cela ouvre la voie à une génération d’agents IA capables de gérer des processus web — du test d’interface utilisateur au remplissage de formulaires complexes — sans scripts ni accès API dédiés.

Pour les entreprises, ce modèle représente une simplification majeure. L’automatisation de tâches auparavant fragiles, dépendant de sélecteurs de DOM ou de workflows codés à la main, devient plus stable et adaptable. Le modèle s’ajuste aux modifications d’interface, évitant certains écueils des outils d’automatisation classique. Les chercheurs, de leur côté, saluent la performance technique, tout en appelant à une évaluation prudente des effets de ces « agents autonomes » dans des contextes réels.

Ce que cela change : de nouveaux usages concrets

Les premiers cas d’usage démontrent la polyvalence du modèle. Pour le remplissage automatisé de formulaires, l’agent peut gérer des logins, des conditions d’étape ou des champs dépendants. En test d’interfaces utilisateur, il simule les interactions humaines pour vérifier la robustesse d’une application web ou mobile, ce qui peut accélérer les cycles de déploiement et de QA.

Autre fonction phare : la navigation et extraction d’informations. L’IA parcourt les sites, applique des filtres et collecte des données structurées ou non, tout en s’adaptant à des changements d’interface. Les entreprises y voient un atout pour automatiser la veille, gérer des workflows métiers (commandes, dossiers, saisies en ligne) ou interagir avec des plateformes SaaS dépourvues d’API. En somme, Gemini 2.5 Computer Use met à portée une automatisation souple du web, plus proche de l’utilisateur final que des robots traditionnels.

À surveiller : limites, sécurité et régulation

Malgré ses avancées, le modèle conserve des limites. Sa portée se restreint au navigateur web : il ne contrôle pas encore les applications desktop. Certains contextes, comme les flux d’authentification complexes ou les CAPTCHA, peuvent faire échouer l’automatisation. Des garde-fous techniques sont donc nécessaires, comme des timeouts ou des vérifications d’état pour éviter les boucles infinies.

Sur le plan de la sécurité, Google a intégré plusieurs niveaux de protection : confirmation humaine pour les actions sensibles, refus d’exécuter des tâches à risque (achats, interventions médicales), et arrêt automatique en cas d’anomalie détectée. Cependant, des menaces subsistent, notamment les attaques par prompt injection ou la manipulation d’actions. Enfin, des questions éthiques et réglementaires émergent autour de l’automatisation d’interfaces conçues pour des humains. La communauté de recherche appelle à définir des cadres transparents, afin de canaliser ces nouvelles capacités sans dérives.

Gemini 2.5 Computer Use illustre ainsi le glissement du modèle de langage vers l’agent capable d’agir. Si la performance technique impressionne, son intégration dans les usages quotidiens dépendra du bon équilibre entre innovation, contrôle et responsabilité.

Les dernière news

Tous les contenus en illimité
pour 9,99€ 1 € le premier mois

Déja abonné ?