OpenAI har nyligen introducerat ”Operator”, en AI-agent utformad för att automatisera webbuppgifter genom att interagera med webbsidor på ett sätt som liknar mänsklig användning. Operator kan utföra uppgifter som att fylla i formulär, boka resor och till och med skapa memes genom att simulera musrörelser, rullning och tangentbordsinmatning. Läs mer hos The Verge.
Denna AI-agent använder en modell kallad ”Computer-Using Agent” (CUA), som kombinerar GPT-4o:s visuella förmågor med avancerad resonemangsförmåga. CUA tolkar skärmdumpar och navigerar genom operativsystem för att kontrollera en dator på ett sätt som liknar en mänsklig användare. Detta möjliggör för Operator att hantera komplexa uppgifter med hög grad av autonomi.
För närvarande är Operator tillgänglig som en forskningsförhandsvisning för ChatGPT Pro-användare i USA, med en månadsavgift på $200. OpenAI planerar att successivt utöka tillgängligheten till fler användare och marknader. Företaget samarbetar också med teknikföretag som Instacart, Uber, eBay och OpenTable för att göra deras webbsidor mer tillgängliga via Operator.
För att säkerställa säkerhet och användarkontroll har Operator inbyggda skyddsåtgärder. Den kräver användarens godkännande för kritiska handlingar, som att genomföra köp eller skicka känslig information. Dessutom övervakar den potentiella försök till manipulering genom ”prompt injections” och använder modereringsmodeller för att filtrera olämpliga eller skadliga handlingar.
Trots sina nuvarande begränsningar representerar Operator ett betydande steg framåt inom AI-utveckling. Genom att automatisera komplexa och tidskrävande uppgifter har den potential att öka effektiviteten och produktiviteten för både privatpersoner och företag. OpenAI:s lansering av Operator markerar företagets första officiella inträde i den växande konkurrensen inom AI-agenter, där flera teknikföretag utvecklar liknande funktioner för att automatisera uppgifter och förbättra användarupplevelsen.