Arriva ChatMinerva, l’AI italiana con accesso al Web in tempo reale

Un sistema in cui caricare foto di pagine in lingua straniera da tradurre, e magari anche riassumere, in italiano in tempo reale. Oppure un modello a cui chiedere di analizzare nel dettaglio articoli scientifici. Pur non trattandosi di novità assolute nel mondo dell’intelligenza artificiale, lo diventano quando facciamo riferimento al panorama italiano. La novità nel nostro Paese, in questo senso, arriva da ChatMinerva, fresco di presentazione da parte dal gruppo di ricerca Sapienza NLP dell’Università La Sapienza di Roma, guidato dal professor Roberto Navigli, in collaborazione con Babelscape, spin-off accademico fondato dieci anni fa.

Si tratta di un assistente Ai multimodale capace di leggere testi, interpretare immagini, analizzare documenti e navigare il Web in tempo reale, il tutto dialogando in italiano con un livello di affidabilità inedito per un modello sviluppato interamente nel nostro Paese. Il progetto si distingue per una caratteristica che, nel panorama attuale, è tutt’altro che scontata: trasparenza e controllo diretto sull’intero ciclo di vita del sistema, dal pre-addestramento al fine-tuning, fino ai meccanismi di moderazione dei contenuti.

Dalla voce all’OCR, fino ai 32mila token

Le novità tecniche sono diverse. Sul fronte della comprensione multimodale, il modello è ora in grado di elaborare fotografie, pagine scannerizzate, report e articoli scientifici, combinando informazioni visive e testuali ed eseguendo il riconoscimento ottico dei caratteri (OCR) su documenti digitalizzati. È anche possibile interagire vocalmente con il sistema.

Sul fronte dell’accesso alle informazioni, ChatMinerva integra un sistema di Web RAG — Retrieval-Augmented Generation — basato sul motore di ricerca aperto DuckDuckGo, che consente al modello di attingere a fonti aggiornate in tempo reale, superando i limiti tipici dei modelli addestrati su dati statici.

Rilevante anche l’estensione della finestra contestuale fino a 32.000 token, ottenuta tramite continual training: una soglia che consente di gestire documenti lunghi e conversazioni articolate senza perdita di coerenza. Il tutto è presidiato da un componente dedicato alla sicurezza, che analizza input e output per filtrare contenuti indesiderati, non affidabili o sensibili.