
Cosa ha funzionato (e cosa no)
L’interesse dell’esperimento sta anche nella comprensione delle capacità di un modello linguistico di fronte a un problema astratto. Nei casi più semplici, è riuscito ad applicare tecniche consolidate e a produrre risposte corrette, anche se non particolarmente originali. Ma l’aspetto più interessante è un altro. Anche se nella fase iniziale ha scartato centinaia di problemi, Aletheia ha concentrato l’attenzione dei ricercatori su un numero ristretto di casi, rendendo più semplice una verifica umana approfondita. Ha dimostrato di sapersi orientare in una letteratura vasta e frammentata, rintracciando informazioni nascoste in lavori che erano passati inosservati. Per esempio, la soluzione al quesito 1089 è stata trovata in un’osservazione a margine di un articolo pubblicato nel 1981 da due matematici giapponesi, che probabilmente non si erano nemmeno accorti di aver risolto un problema di Erdős.
Sono emersi anche diversi limiti, come la tendenza a fraintendere il reale intento delle domande, interpretandole in modo eccessivamente letterale. Inoltre, il modello è ancora lontano dall’essere del tutto autonomo e, sebbene abbia ridotto il numero di casi da esaminare direttamente, richiede ancora una supervisione umana significativa. Il rischio è di creare un collo di bottiglia nella fase di revisione: a seconda del problema e della sua difficoltà, il numero di esperti in grado di valutare l’output di un agente AI specializzato nella ricerca può essere molto ristretto, e anche per loro la verifica non è necessariamente rapida. Soprattutto perché, come osservano gli autori dell’esperimento, la parte più impegnativa è stata accertarsi che i risultati ottenuti fossero originali. Senza questo controllo, c’è il rischio di plagiare inconsapevolmente scoperte già fatte da altri e assimilate in fase di addestramento.
Quanto manca alla ricerca autonoma?
L’esperimento di Google suggerisce che l’AI, più che un “matematico artificiale”, nel prossimo futuro potrebbe diventare un assistente in grado di affiancare i ricercatori e accelerare alcune fasi del loro lavoro. Non è un caso che la matematica resti un ambito particolarmente impegnativo per l’intelligenza artificiale. A differenza di altri campi, spesso non esistono grandi dataset sperimentali su cui allenare i modelli di deep learning. Molti quesiti richiedono dimostrazioni composte da passaggi logici rigorosi, in cui anche una singola allucinazione può invalidare l’intero procedimento.
La situazione cambia se un problema può essere formulato nel linguaggio adatto a un sistema di AI. Quando esiste un insieme ben definito di possibili soluzioni da valutare, un agente addestrato per la ricerca è in grado di esplorarle e individuare quelle corrette. Terence Tao, uno dei più celebri matematici viventi, a novembre ha testato AlphaEvolve di Google su 67 problemi di questo tipo: nella maggior parte dei casi ha eguagliato i risultati già noti e in una quota significativa, circa il 20%, è riuscito a migliorarli.
Negli stessi giorni Tao ha dichiarato in un post su Mastodon di ritenere che «nel breve periodo, gli utilizzi più produttivi dell’AI in matematica non verranno tanto dall’applicazione dei modelli più potenti ai problemi più difficili (…) quanto piuttosto dall’uso di strumenti di media potenza per accelerare e scalare attività di ricerca più ordinarie e dispendiose in termini di tempo, ma comunque essenziali».







