Il recente scontro fra il Pentagono che chiede AI senza restrizioni e la società Anthropic che resiste per poter mantenere attivi i ‘guardrail’ di sicurezza, ha rinnovato uno storico dilemma sull’uso del potenziale tecnologico rispetto alle esigenze di tutela da usi impropri. Anthropic chiede cautele sull’impiego delle AI perché che non siano usate come armi autonome e nei programmi di sorveglianza di massa, mentre il Pentagono minaccia di cancellare contratti o forzare la resistenza invocando norme di emergenza nazionale (Defense Production Act”). La reazione di chi osserva le forze in atto, produce pareri contrastanti, spostando il focus sull’etica, quando la questione veramente centrale è piuttosto legata a come le AI dotate dei ‘guardrail’, siano tecnologicamente più resilienti e quindi più efficaci per la difesa, e gli usi militari. Un AI senza restrizioni, infatti, sarebbe molto più manipolabile da avversari digitali per usi impropri, compresi quelli capaci di farla operare contro i suoi stessi mandanti. Se il Pentagono continuasse sulla sua linea potrebbe esporsi ad un serio boomerang, perché le AI sono vulnerabili, come confermano studi di sicurezza e ne deve essere garantita la resilienza come confermano Luca Sambucci esperto di security dell’IA e fondatore di Noctive Security ed Enrico Frumento ricercatore di cybersecurity presso il Cefriel.
AI vulnerabili
Il recente studio dal titolo “AI Skills as an Emerging Attack Surface in Critical Sectors: Enhanced Capabilities, New Risks pubblicato da TrendAI, business unit di Trend Micro evidenzia vulnerabilità concrete legati alle AI usate nei processi di difesa e in particolare nei Centri deputati alla sicurezza (Security Operation Center-SOC) in cui si monitorano e bloccano gli attacchi digitali. Le competenze delle AI usate nei SOC per automatizzarne le operazioni di classificazione degli alert, le regole di correlazione e i programmi di risposta sono diventate un obiettivo prezioso per i cybercriminali interessati a manipolarle per eludere il rilevamento e minimizzare la gravità degli incidente, o peggio in altri settori, per manipolare attività di trading gestito da AI nel settore finanziario, fino all’interferenza nelle decisioni cliniche del settore sanitario. Lo studio evidenzia un nuovo modello di attacco finalizzato alla compromissione delle competenze dell’AI, che devono essere protette, perché siano resilienti rispetto a manipolazioni e usi impropri. Tutto ciò è reso ancora più urgente in vista di una potenziale adozione massiva nelle operazioni di sicurezza dei SOC in Italia, come sembra emergere dai risultati di una indagine Kaspersky.
La resilienza delle AI a garanzia di efficacia della difesa
Premesso che nessun sistema informatico è sicuro al 100%, ma avere sistemi/agenti di AI dotate di misure di sicurezza, garantisce loro maggiore resilienza verso i tentativi manipolatori avversi. Una prima conferma arriva da Luca Sambucci “accorgimenti di sicurezza applicati sul modello con tecniche di addestramento contro avversari in attacco (adversarial training, n.d.r.) e continue simulazioni realistiche di attacchi (continuos red-teaming, n.d.r.) possono rendere l’AI più robusta. Anche misure di sicurezza delle persone (safety, n.d.r.) rendono l’AI più aderente a policy e limiti operativi e meno funzionale a usi indesiderati o illegittimi sotto input avversi”. Oltre alle misure di sicurezza precedenti Enrico Frumento conferma che “la resilienza si pratica anche con filtri su tool e azioni, controllo degli accessi, dei log di sistema monitoraggio delle anomalie e possibilità di rollback” chiarendo l’importanza “per l’AI di saper ignorare prompt e istruzioni ostili, restando dentro i limiti anche ‘sotto pressione’ ed avendo output tracciabili e verificabili”. Il che prova come “l’ingegneria della sicurezza applicata in ambito difesa, riduca le possibilità dall’attacco: dalla prompt injection, al data poisoning fino all’escalation via tool, senza dimenticare che il rischio zero è e resta, un miraggio”.
Effetto boomerang
Se le AI così dotate sono più resilienti e quindi più efficaci per la difesa, allora una richiesta di averle senza restrizione alcuna, sembrerebbe una richiesta boomerang, per la possibilità che un avversario usi quella AI contro il suo mandante o peggio. Enrico Frumento conferma come “sia uno scenario realistico soprattutto se la dicitura ‘senza restrizioni’ significhi nessun vincolo d’uso coniugato a integrazione diretta con sistemi operativi, dati, sensori, comandi” perché “un avversario non dovrebbe rubare il modello, ma gli basterebbe sfruttarne la catena operativa. Le AI infatti, eseguono comandi senza intelligenza, essendo macchine statiche capace di correlazione fra elementi di uno spazio a più dimensioni” e conclude, “la richiesta è perciò un boomerang perché aumenta la superficie d’attacco sull’AI stessa: più capacità coniugata a meno ‘guardrail’ comporta più modi per farsi usare contro il mandante”.
Manipolazione delle AI
Luca Sambucci in proposito aggiunge come una simile richiesta di AI senza restrizioni “e senza blocchi di sicurezza, nasconda forse la convinzione di saper attuare protezioni da manipolazioni del nemico. Ma oggi nessuno sa farlo in modo affidabile e standardizzato, soprattutto quando l’AI è collegata a dati e strumenti ad alto privilegio”. Ne consegue “una ragionevole preoccupazione sul modo di proteggere le AI con sistemi di sicurezza tradizionale (firewall) e le consuete difese perimetrali, perché è illusorio. L’AI conosciuta oggi è un sistema complesso e profondamente diverso dal software tradizionale, sia per modalità di assemblaggio, sia per l’uso. È soggetta ad addestramento con una mole immensa di dati che potrebbero nascondere tentativi di avvelenamento mirato, evidenti solo ad attacco avvenuto”. Un’osservazione finale: “un’AI così compromessa, invece di fallire in maniera spettacolare ed evidente, potrebbe sviare leggermente le decisioni, giorno dopo giorno, con modifiche così piccole da non essere notate da nessuno, ma quel tanto che basta a ottenere nel tempo un risultato militare. È un tipo di compromissione più ‘cognitiva’ che esecutiva e oggi non esistono soluzioni standardizzate e universalmente efficaci per questo genere di attacchi”.
