OpenAI Présente l’Agent IA Operator

OpenAI a présenté Operator – un agent basé sur GPT-4 o capable d’effectuer des tâches en ligne dans le navigateur. L’agent fonctionne via une interface spéciale où l’utilisateur peut voir la fenêtre du navigateur et contrôler les actions de l’assistant.

Operator utilise Computer-Using Agent, combinant les capacités visuelles de GPT-4 o avec une pensée avancée par apprentissage par renforcement. Computer-Using Agent a atteint 38,1% de succès au test OSWorld et 87% sur WebVoyager, surpassant les modèles précédents.

L’agent fonctionne sur un serveur distant via une connexion cryptée. L’utilisateur peut prendre le contrôle pour saisir des CAPTCHA ou des données de paiement. Operator dispose d’un ensemble d’instructions pour stocker les préférences utilisateur. Vous pouvez entrer n’importe quelle requête, même avec des photos, et l’assistant commencera à naviguer – vous pouvez déléguer la commande de nourriture, la réservation de table, l’achat de billets, la commande de taxi et plus encore. Operator affiche également un mini-écran avec tout ce qu’il fait en temps réel.

OpenAI met fortement l’accent sur la sécurité du système et la résistance aux attaques. L’ensemble du processus est surveillé par un modèle séparé qui peut déclencher l’arrêt de l’exécution si quelque chose ne va pas. De plus, certaines situations suspectes seront envoyées pour vérification manuelle.

Le service est disponible pour les utilisateurs Pro aux États-Unis, sera ajouté à l’abonnement Plus dans quelques semaines, et API pour les développeurs. Bien qu’Anthropic et Google aient montré des démonstrations similaires plus tôt, OpenAI a lancé en premier un produit grand public, malgré la non-rentabilité de l’abonnement Pro. Espérons que lorsqu’Operator apprendra à faire des achats de manière indépendante, il ne commencera pas à commander des cadeaux pour lui-même le jour de son activation.