Si chiamano Sol, Terra e Luna e sono le tre versioni di GPT-5.6 rilasciate in anteprima «ad un selezionato gruppo di fidati partner e organizzazioni» da OpenAI. E, almeno il primo, riaccende la sfida con Anthropic e il suo modello di punta, anche questo non disponibile per il grande pubblico, Claude Mythos.
Luna viene descritto come un compromesso tra prestazioni e costi, Terra è paragonabile a ChatGPT-5.5 ma ha dimezzato i costi, Sol viene definito nel comunicato che ne annuncia il rilascio come un «modello di prossima generazione». Un comunicato che altro non è se non un benchmark tra gli LLM di OpenAI e quelli di Anthropic.
Intanto sul piano delle prestazioni. Il tasso di successo nella scrittura di codice di Sol, valutato con Terminal-Bench che è oggi uno degli strumenti di confronto dei modelli di AI più diffuso, raggiunge l’88,8% e si spinge fino al 91,9% se si seleziona la nuova modalità di ragionamento Ultra. In pratica, una tipologia di funzionamento che vede un agente orchestrare l’attività di diversi subagenti per arrivare all’obiettivo finale. E Claude Mythos 5? Si ferma all’88%.
Non è tutto: GPT-5.6 Terra eguaglia le prestazioni di Claude Fable 5, con un tasso di accuratezza nella scrittura di codice dell’84,3%. Mentre Luna arriva all’82,5%, superando il 78,9% di Claude Opus 4.8, il modello più potente di Anthropic al momento disponibile.
Ancora, quando si tratta di cybersecurity, Sol raggiunge gli stessi risultati di Mythos utilizzando però un terzo dei token. Un risultato, questo, misurato con ExploitGym, strumento di confronto che la stessa Open AI ha sviluppato con i ricercatori dell’Università di Berkeley.
-U60684414814Kct-1440x752@IlSole24Ore-Web.jpg?r=1170x507)