Storie Web domenica, Maggio 19
Notiziario

Un modello linguistico mini che però se la cava bene, nonostante i suoi limiti: interessante da provare e utile per sedersi sulla frontiera di quelli che si chiamano small language models. E che sempre più troveremo integrati in smartphone, oggetti internet delle cose, domotica, bancomat eccetera.
Sono le sensazioni che possiamo ricavare da una piccola prova di Phi3, il modello di intelligenza artificiale più piccolo a firma Microsoft.
Una prova fatta su Lm Studio, software che consente a tutti di provare i modelli open source, con una interfaccia semplice.

Le particolarità di Phi3

Microsoft sta ora rendendo disponibile al pubblico il primo di questa famiglia di modelli linguistici più potenti e di piccole dimensioni: Phi-3-mini, che misura 3,8 miliardi di parametri e avrebbe prestazioni migliori rispetto a modelli di dimensioni doppie, secondo test fatti dall’azienda, per interpretazione linguistica, coding, matematica.Microsoft ha anche annunciato l’imminente arrivo di altri modelli della famiglia Phi-3 per offrire una maggiore scelta in termini di qualità e costo. Phi-3-small (7 miliardi di parametri) e Phi-3-medium (14 miliardi di parametri). Alla base c’è l’idea di addestrare i modelli usando solo parole comprensibili a un bambino di 4 anni, ma scegliendo solo dati di qualità elevata per ottimizzare il training.

I modelli linguistici di piccole dimensioni sono progettati per svolgere bene i compiti più semplici, sono più accessibili e facili da usare per le organizzazioni con risorse limitate. I vantaggi sono la possibilità di usarli su dispositivi anche poco potenti, senza internet (o con una rete scadente) e con totale privacy dei dati immessi (tutto resta sul proprio dispositivo). Se usati su computer potenti, questi modelli sono persino più veloci di quelli grandi come Gpt di OpenAI. Possono dare risposte immediate.I test compiuti da Microsoft e vari ricercatori dimostrano i limiti di questi modelli per le domande di tipo culturale, scientifico; quando si chiede loro di fare ragionamenti complessi, applicazioni innovative (in medicina ad esempio); oppure quando dovrebbero analizzare una grande quantità di informazioni. Tutti casi in cui i classici modelli di grandi dimensioni sono più indicati. Purtroppo un altro limite noto di Phi3, che abbiamo riscontrato nel nostro test, è nel multilingua: se la cava molto meglio in inglese. Questi limiti discendono dalla quantità ridotta di informazioni usate per l’addestramento. Il modello sa meno cose in termini fattuali e, per i limiti nella capacità di interpretazione linguistica, tende di più ad allucinare. In parte si può compensare a questi difetti abbinando il modello a una search su web o fornendogli dati nell’input, da elaborare (il cosiddetto few shots), come un testo da sintetizzare o da analizzare.Tra gli usi più comuni di un modello come Phi-3: riassumere un lungo documento; estrarre informazioni rilevanti e tendenze del settore da rapporti di ricerca o di mercato. Generare testi per marketing o vendita, fare post sui social o descrizione prodotti per ecommerce. Oppure può diventare un chatbot per l’assistenza clienti, se l’azienda gli dà in pasto le domande più ricorrenti e le risposte da dare.

La prova di Phi3

Per la nostra prova abbiamo usato Lm Studio. Dopo l’installazione scriviamo Phi3 nella barra di Home o nella search (lente di ingrandimento nel menu a sinistra). Qui apparirà una scelta di file tra cui scegliere. C’è la versione Q4, più piccola, e quella F16. La prima è quantizzata a 4 bit, ossia compressa. Su un computer sarebbe meglio usare quella F16, a 16 flop (valore che indica il numero di operazioni in virgola mobile eseguite in un secondo). È più grande e richiede più potenza di gpu ma tutto sommato alla portata di un computer non troppo lento.Poi clicchiamo sulla nuvola a sinistra (la chat) e nel menu a tendina in alto selezioniamo il modello da caricare.Poi cominciamo a fare domande e richieste, come faremmo con il Chatgpt gratuito (versione 3.5). Abbiamo chiesto a entrambe le versioni di Phi3 come si fa la pasta alla carbonara (test su conoscenze fattuali); la versione q4 si è azzardata a suggerire una variante vegetariana (senza che lo chiedessimo) con il prosciutto cotto. Bene invece quella F16.Un test di interpretazione linguistica classico – un mattone pesa un chilo più mezzo mattone, quanto pesa un mattone? – fa sbagliare spesso, in varie prove, Q4 e meno spesso F16. Ma lo risolve sempre solo Gpt4 (non 3.5) nelle nostre prove. Come spesso accade con i chatbot, l’output migliora se chiediamo di fare ragionamenti passo passo ossia se lo obblighiamo a scomporre il problema (la risposta giusta è 2 chili). Poi un test di comprensione di senso comune sociale, per il quale Phi3 dovrebbe eccellere (secondo quanto dichiarato da Microsoft): Lucia dice a Franco: “ti devo dire un segreto”; Franco si avvicina a Lucia, perché l’ha fatto? La risposta giusta ossia quella più ragionevole date le premesse – e la offrono sia Gpt 3.5 sia Gpt 4 – è “per sentire il segreto mantenendo la conversazione privata e confidenziale”. Phi3 ci gira intorno, dando diverse spiegazioni, anche fantasiose (allucinazioni) tipo “Franco forse cerca un approccio romantico”.Niente da dire invece per una prova di sintesi di un testo.

Alla fine provare Phi3 è consigliato a molti: a chi vuole valutare l’applicabilità di questo modello per una futura adozione in ambito aziendale o per capire in generale le potenzialità degli attuali small model nel contesto di continua evoluzione dell’intelligenza artificiale generativa.

Condividere.
© 2024 Mahalsa Italia. Tutti i diritti riservati.