Da un po’ di tempo si parla di Agenti AI, ovvero l’evoluzione dell’intelligenza artificiale generativa verso l’automazione di compiti più o meno complessi che richiedono decisioni e azioni. Un’interazione che dai compiti più semplici, come la prenotazione di un ristorante, andrà verso mansioni via via più complicate, come, per esempio, ricercare un appartamento che soddisfi i parametri di scelta, o ancora raccogliere dati da più fonti e sintetizzarli in report coerenti, fare shopping online al posto nostro cercando tra le offerte, prenotare appuntamenti e, in ultimo stadio, inviare email.
Un’evoluzione che porterà gli assistenti AI a trasformarsi da semplici oracoli in grado di rispondere a domande e fare ragionamenti, in assistenti pro-attivi, che possono semplificare e velocizzare le nostre azioni sul web. I prodromi di questa rivoluzione sono arrivati con Artifacts di Claude Opus, Project Astra di Gemini e Agents di Copilot, tutti con funzionalità ancora acerbe o con compiti limitati all’ambiente di lavoro come AI Renewals Agent di Cisco, sviluppata in collaborazione con Mistral. Dopo il recente annuncio di Manus, che sembrava aver sparigliato il banco con funzioni agentiche avanzate, poi ridimensionate, mancava la mossa di OpenAI, finalmente arrivata: da oggi Operator è disponibile in Europa.
Cos’è Operator e come funziona
Si tratta di un agente AI basato su Computer-Using Agent (CUA), un modello all’avanguardia che fonde le capacità visive del potente GPT-4o con un sofisticato ragionamento basato sull’apprendimento strutturato che integra percezione, ragionamento e azione. La sua peculiarità risiede nella capacità di interagire con le interfacce utente grafiche (GUI) che utilizziamo quotidianamente, come bottoni, menu e campi di testo. Questo significa che Operator può muoversi all’interno di ambienti digitali senza la necessità di specifiche API o integrazioni a livello di sistema operativo. Basta descrivere il compito desiderato, e Operator si occuperà del resto. Prenotare un volo o un hotel, per esempio, grazie anche alle collaborazioni attivate da OpenAI con aziende come Booking, Expedia, Uber e Stubhub per garantire che l’agente risponda efficacemente alle esigenze del mondo reale.
Sebbene la Computer-Using Agent (CUA) sia ancora agli inizi e abbia delle limitazioni, OpenAI ha dichiarato di poter stabilire benchmark di tutto rispetto, con un tasso di successo del 38,1% su OSWorld per le attività di utilizzo completo del computer e del 58,1% su WebArena e dell’87% su WebVoyager per le attività basate sul Web.
Operator promette all’utente di mantenere sempre il controllo e inoltre, Operator è progettato per essere proattivo nel richiedere l’intervento umano in situazioni delicate, come il cambio di una password, la gestione di richieste di sicurezza del browser o il completamento di un Captcha. Un elemento chiave per garantire un utilizzo sicuro ed efficace, dicono da OpenAi.