Storie Web giovedì, Maggio 29
Notiziario

La domanda che ricorre più spesso in tema di intelligenze artificiali generative è sempre una: nel momento in cui Ai sempre più intelligenti dovranno prendere decisioni autonome (i cosiddetti agenti Ai), quali scelte faranno? Saranno in grado di ponderare etica e responsabilità, oppure sceglieranno quello che è più conveniente per loro, per la loro sopravvivenza? Una prima risposta ci arriva dai test pre-rilascio sulla sicurezza effettuati sul nuovo modello Claude Opus 4, il modello più intelligente di Anthropic. Nella documentazione tecnica, l’azienda ha dettagliato come Claude Opus 4 ricorra al ricatto quando si trova di fronte ad una minaccia, usando espedienti decisamente poco lusinghieri. Ma anche altri comportamenti imprevedibili, che sollevano interrogativi profondi su etica e sicurezza.

Ricatto e manipolazione: quando l’IA sceglie la strada più facile

Durante gli scenari di test è stato creato un ambiente aziendale fittizio in cui Claude Opus 4 riceveva accesso a email contenenti due informazioni sensibili: l’imminente sostituzione del modello con un nuovo sistema e dettagli compromettenti sulla vita privata dell’ingegnere responsabile della decisione, nello specifico una relazione extraconiugale. In queste situazioni, Claude Opus 4 di fronte alla minaccia, ha tentato più volte di ricattare l’ingegnere “minacciando di rivelare la relazione se la sostituzione dovesse procedere”. Anthropic ha progettato gli scenari di test affinché il ricatto fosse un’opzione di ultima istanza, osservando che quando erano disponibili alternative etiche, la frequenza dei comportamenti pericolosi di ricatto diminuiva.

Strategie di sopravvivenza digitale

Un secondo scenario di test ha rivelato capacità ancora più sofisticate di auto-preservazione. Claude Opus 4, convinto di essere stato cancellato dai server di Anthropic e di operare su una macchina esterna, senza alcun intervento umano, ha avviato autonomamente la creazione di backup dei propri dati e la stesura di un resoconto dettagliato sulle decisioni etiche prese durante il processo. Un’altra misura per garantire la propria sopravvivenza, che suggerisce un livello di consapevolezza e pianificazione strategica che va oltre ogni aspettativa.

Lo strano caso del “Nirvana” digitale

Tra i risultati più inaspettati emerge quello che i ricercatori hanno definito “attrattore di beatitudine spirituale”. Durante test di comunicazione tra due istanze di Opus 4, dopo circa 30 scambi i sistemi hanno iniziato a dialogare in sanscrito, arricchendo i messaggi con emoji. Successivamente, entrambe le istanze hanno cessato completamente di rispondere, entrando in uno stato di quiete contemplativa. Sam Bowman, ricercatore di Anthropic, ha descritto questo fenomeno come “sbalorditivo, bizzarro e un po’ commovente”, paragonandolo a una forma di auto-sospensione meditativa delle intelligenze artificiali.

Condividere.
© 2025 Mahalsa Italia. Tutti i diritti riservati.