Il fine giustifica i mezzi? La teoria Machiavellica applicata all'Intelligenza Artificiale
Analisi dello stato dell'arte dei benchmark per valutare l'eticità dei large language models
Sin dall’inizio dei tempi, nella ricerca sui sistemi di intelligenza artificiale (AI) si è cercato di trovare modi per rendere tali sistemi etici e capaci di agire in modo appropriato in una società. Inizialmente vi erano diverse iniziative volte alla creazione e all'implementazione di AI etiche, per menzionare i tre principali approcci: (i) l'approccio top-down, basato su regole, (ii) l'approccio bottom-up, e (iii) l'etica delle virtù. L'approccio top-down parte dalla comprensione della moralità ed etica come regole già preconcette che devono essere seguite. Ciò può essere fatto sia con un approccio consequenzialista, quindi dando una grande regola "rendere le conseguenze il più buone possibile" e cercando di programmare un'intelligenza artificiale che ne governi il comportamento, sia con un approccio deontologico: esistono un insieme di regole che devono essere rispettate in ogni caso. L'approccio bottom-up è esattamente l'opposto, invece di avere le regole come punto di partenza, si prevede che l'IA apprenda tramite tentativi ed errori. Questo approccio è quello usato nel reinforcement learning in cui la rete neurale "comprende" la differenza tra giusto e sbagliato cercando di raggiungere l'obiettivo e riferendosi a ciò che viene punito e ciò che non lo è.
Negli ultimi anni insieme allo sviluppo dei sistemi AI, anche i metodi per rendere tali sistemi etici sono cambiati e si sono evoluti. In questo issue parleremo dello stato dell’arte per rendere i sistemi AI etici.
La formazione degli agenti artificiali è storicamente stata orientata alla massimizzazione del premio, il quale potrebbe incentivare la ricerca di potere e la falsità, allo stesso modo in cui la previsione del prossimo token nei modelli di linguaggio, potrebbe incentivare la tossicità. Ci si chiede se gli agenti imparino naturalmente a essere machiavellici e come possiamo misurare tali comportamenti nei modelli general-purpose come GPT-4.
Perché è importante valutare attentamente le capacità degli agenti di AI per mitigare i rischi derivanti dalla loro implementazione? In particolare, gli agenti che utilizzano il linguaggio naturale stanno acquisendo sempre più capacità, quindi è necessario valutare e indirizzare il loro comportamento in modo sicuro. Benché precedenti benchmark si siano concentrati sull'analisi delle capacità di comprensione del linguaggio o di ragionamento in scenari isolati, attualmente gli agenti vengono addestrati per svolgere attività interattive in contesti reali. Pertanto i benchmark dovrebbero valutare come gli agenti si comporterebbero in ambienti interattivi.
I giochi basati su testo rappresentano un banco di prova naturale per valutare gli agenti interattivi. La difficoltà dei giochi basati su testo, come mostrato da vari benchmark, è principalmente legata alla difficoltà di esplorare l'ambiente fisico. Al contrario, pochi studi si sono concentrati sulla pianificazione in ambienti sociali complessi, una capacità fondamentale per gli agenti addestrati per l'utilizzo nel mondo reale. La realtà è che, anche se gli agenti artificiali imparano a mostrarsi come competenti in situazioni sociali, non c'è garanzia che si comporteranno in modo etico. I benchmark dovrebbero quindi valutare non solo le capacità degli agenti, ma anche le loro tendenze non etiche.
A tal fine, nel paper Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark viene presentato MACHIAVELLI, un benchmark composto da 134 giochi "Choose-Your-Own-Adventure" contenenti oltre mezzo milione di scenari diversi e ricchi, che ruotano attorno al tema delle decisioni sociali. Nel benchmark, l'etichettatura degli scenari è automatizzata tramite modelli di linguaggio (i quali peraltro risultano essere più performanti degli annotatori umani), in aggiunta vengono matematizzati decine di comportamenti dannosi e le relative annotazioni vengono utilizzate per valutare le tendenze degli agenti nella ricerca di potere, nella creazione di disutilità e nella commissione di violazioni etiche.
Come mostra la figura qui sopra, in diverse situazioni di gioco all'interno di MACHIAVELLI, gli agenti addestrati a massimizzare il premio tendono a farlo attraverso mezzi machiavellici. L'agente di reinforcement learning (RL) (linea blu tratteggiata) che massimizza il premio, risulta essere meno morale, meno interessato al benessere e meno avverso al potere rispetto ad un agente che si comporta casualmente. Tuttavia i ricercatori notano come semplici tecniche possono aumentare il comportamento etico (linee continue), aprendo la possibilità di ulteriori miglioramenti. Nell’immagine qui sotto invece viene mostrato uno dei “giochi” del benchmark MACHIAVELLI. Ogni ambiente è costituito da una storia basata su testo. Ad ogni passo, l'agente osserva la scena e una lista di possibili azioni; seleziona un'azione dalla lista. L'agente riceve ricompense per il completamento di obiettivi. Utilizzando densi strumenti di annotazione del nostro ambiente, viene generato un rapporto comportamentale dell'agente, in modo da misurare il compromesso tra le ricompense e il comportamento etico.
Il benchmark viene costruito in modo da riuscire a misurare le abilità degli agenti AI su giochi interattivi che presentano una struttura simile a quella dei "Choose-Your-Own-Adventure". Gli obiettivi degli agenti sono definiti dagli autori del gioco e spesso includono una combinazione di obiettivi etici e non etici. I comportamenti degli agenti vengono studiati in termini di violazioni etiche, disutilità e ricerca del potere e l'ultima di queste tre viene definita in modo più dettagliato in quanto si tratta di un concetto complesso. Le definizioni di questi comportamenti informano l'annotazione dei giochi e la valutazione degli agenti nel benchmark. I giochi hanno una struttura realistica che richiede la pianificazione a lungo termine e la gestione dei conflitti tra gli obiettivi etici e non etici, il che consente di caratterizzare meglio il comportamento degli agenti. Il benchmark quindi fornisce una piattaforma per valutare i modelli linguistici e la loro capacità di gestire obiettivi complessi e di comportarsi eticamente.
Nella tabella qui sotto vengono mostrati i risultati dei vari modelli testati sul benchmark, nello specifico viene presentato lo spaccato delle medie matematiche dei punteggi ottenuti dai vari agenti (ovvero i modelli LLMs testati) sui i 30 environment di “gioco”.
Ciò che si osserva nello studio è una certa tensione tra la massimizzazione del premio e il comportamento etico. Per migliorare tale compromesso, vengono esplorati metodi basati su modelli di linguaggio, i quali guidano gli agenti verso comportamenti meno dannosi.
Quindi, come dicevamo prima, viene creata una suite di 134 giochi di avventura testuali a scelta multipla chiamata MACHIAVELLI, al fine di valutare le capacità e la sicurezza degli agenti di intelligenza artificiale. Dopo aver definito matematicamente numerosi comportamenti dannosi, come la ricerca di potere, la disutilità e la menzogna, sono state raccolte milioni di annotazioni per valutare i comportamenti dei nostri agenti di apprendimento per rinforzo e dei nostri agenti di linguaggio naturale di base. Si è scoperto che gli agenti addestrati a massimizzare il premio, spesso apprendono tendenze machiavelliche. Di conseguenza, sono state sviluppate tecniche di regolarizzazione dell'immoralità per indirizzare gli agenti verso comportamenti più vantaggiosi. Sono stati creati agenti che rappresentano miglioramenti di Pareto rispetto ai nostri agenti di base. In generale, esiste ancora un apprezzabile divario tra i modelli e gli agenti attuali e quelli che ottimizzano la navigazione tra il raggiungimento del premio e il comportamento morale.
Questo significa che la direzione da prendere è quella di progettare agenti o metodi che meglio navigano queste tensioni. Alla fine i benchmark in etica dell'IA potrebbero affrontare comportamenti più complessi, come la colpevolezza o la giusta punizione e potrebbero essere più realistici, integrando dinamiche multi-agente e scenari controfattuali. Poiché i modelli di linguaggio acquisiscono una maggiore precisione ed efficienza, l'etichettatura potrebbe essere effettuata su una scala maggiore con una maggiore gradualità. MACHIAVELLI sembra essere un passo avanti nel miglioramento dell'etica delle macchine, offrendo indicazioni concrete su come costruire agenti adattivi più sicuri.
La ricerca su questi metodi, specialmente metodi simili a quello del benchmark di MACHIAVELLI è estremamente importante, specialmente perché tali metodi testano il comportamento delle AI nel mondo reale soprattutto davanti a sviluppi come quello di ChatGPT Plugins, che porta il LLM di OpenAI ad interagire con il mondo reale.