Contexte et annonce
Un peu après la conférence DevDay organisée par OpenAI, Google réplique en dévoilant une IA nommée Gemini 2.5 Computer Use. Cet outil vise à permettre à des agents d’IA d’interagir avec les interfaces des pages web de manière autonome, comme le ferait un utilisateur humain.
Fonctionnalités et interactions
L’architecture autorise notamment les clics sur des éléments, la saisie de texte dans des formulaires et le défilement de pages. Le service s’appuie sur les capacités de compréhension et de raisonnement visuels associées au modèle Gemini 2.5 Pro.
Mode opératoire
Le fonctionnement repose sur une boucle d’actions : après chaque instruction reçue, l’agent analyse une capture d’écran, le contexte de navigation et l’historique des actions afin de déterminer l’étape suivante, jusqu’à l’accomplissement de la tâche.
Sécurité et consentement
Pour les requêtes jugées sensibles, comme un achat en ligne, le système demande une confirmation explicite de l’utilisateur avant de poursuivre.
État actuel et accès
Pour l’instant, Gemini 2.5 Computer Use est proposé en préversion et réservé aux développeurs, avec un accès limité au navigateur web.