Google présente Gemini 2.5 Computer Use, une IA capable de naviguer autonomement sur le Web

IA

Contexte et annonce

Un peu après la conférence DevDay organisée par OpenAI, Google réplique en dévoilant une IA nommée Gemini 2.5 Computer Use. Cet outil vise à permettre à des agents d’IA d’interagir avec les interfaces des pages web de manière autonome, comme le ferait un utilisateur humain.

Fonctionnalités et interactions

L’architecture autorise notamment les clics sur des éléments, la saisie de texte dans des formulaires et le défilement de pages. Le service s’appuie sur les capacités de compréhension et de raisonnement visuels associées au modèle Gemini 2.5 Pro.

Mode opératoire

Le fonctionnement repose sur une boucle d’actions : après chaque instruction reçue, l’agent analyse une capture d’écran, le contexte de navigation et l’historique des actions afin de déterminer l’étape suivante, jusqu’à l’accomplissement de la tâche.

Sécurité et consentement

Pour les requêtes jugées sensibles, comme un achat en ligne, le système demande une confirmation explicite de l’utilisateur avant de poursuivre.

État actuel et accès

Pour l’instant, Gemini 2.5 Computer Use est proposé en préversion et réservé aux développeurs, avec un accès limité au navigateur web.