Agentività Artificiale: Quando gli Algoritmi Vengono Combinati con The Sims
Analisi del concetto di agentività umana ed artificiale nell'esperimento condotto da Google e Stanford che combinano la potenza dell'AI generativa per creare Agenti Generativi Artificiali.
Riportati in figura trovate degli agenti artificiali: ognuno di loro ha un nome, una storia, una memoria propria di sé e degli altri agenti che agiscono e si muovono nello stesso spazio virtuale. Gli agenti di cui stiamo parlando non sono i personaggi che caratterizzano le varie scene di un videogioco, ma le individualità create da Stanford e Google in una simulazione virtuale multi-agente, dove gli agenti svolgono svariati task di pertinenza tramite generazione di linguaggio naturale.
Nella newsletter di oggi parleremo di agentività umana ed artificiale ed illustreremo Generative Agents: Interactive Simulacra of Human Behaviour, il paper dove vengono introdotti degli agenti generativi, ovvero software computazionali in grado di simulare comportamenti umani credibili.
Partiamo dalle definizioni, cercando di non addentrarci in discorsi troppo filosofici. Il dibattito sull’agentività umana ed artificiale è molto ampio ed estremamente complicato, perché si collega alla discussione sull’esistenza o meno del libero arbitrio, piuttosto che alla reputazione degli esseri umani come agenti determinati, rendendoli così non diversi dal resto delle interazioni che le leggi fisiche hanno sulla materia. Addentrarsi in queste conversazioni ci porterebbe a scrivere un trattato, a partire da Cartesio e Spinoza, quindi preferiamo soprassedere, limitandoci a sostenere che il concetto del libero arbitrio è un valido da un punto di vista culturale ed è utilizzato per intendere la libertà di un individuo i cui atti deriverebbero da azioni sue autonome. Un agente è l’individuo a cui si attribuisce tale libertà e quindi tali azioni. Per agentività, di prassi, si intende quell’esperienza di intenzionalità, cioè la sensazione di pianificare o essere sul punto di effettuare qualcosa, ossia la sensazione che una determinata azione abbia causato un particolare evento esterno. ****Quindi ora abbiamo tutti gli elementi per trovare una definizione di agentività artificiale, ovvero tutto quello spazio di azioni ed interazioni che si possono imputare ad un agente artificiale.
Nell’esperimento in questione questi agenti sono in grado di svolgere molteplici attività, come svegliarsi, prepararsi la colazione e andare al lavoro, scrivere o dipingere, formarsi opinioni, interagire e conversare con gli altri agenti presenti, ricordare e riflettere sulle esperienze passate. Per realizzare gli agenti generativi si è sviluppata un'architettura che utilizza un Large Language Model per registrare le esperienze degli agenti in linguaggio naturale, sintetizzarle nel tempo e recuperarle dinamicamente per pianificare il comportamento futuro. Tali agenti artificiali sono agenti generativi, che si basano su modelli generativi per simulare comportamenti umani credibili. Gli agenti generativi sono stati testati in un ambiente interattivo (che viene chiamato Smallville e corrisponde ad un vero e proprio sand box) ispirato al videogioco The Sims, dove gli utenti possono interagire con un piccolo villaggio di 25 agenti utilizzando il linguaggio naturale. Qui uno spaccato di tutti gli elementi menzionati fino ad ora: lo spazio in cui gli agenti si muovono, i vari ambienti (scuola, bar, parco, etc.) e i vari agenti che interagiscono tra di loro.
Quali sono nello specifico i tasks che gli agenti generativi possono performare? Ogni agente è descritto da un paragrafo di lingua naturale che ne rappresenta l'identità, la professione e le relazioni con gli altri agenti. Questa descrizione viene usata come memoria di partenza all'inizio della simulazione. Gli agenti interagiscono tra di loro utilizzando il linguaggio naturale e sono in grado di comunicare in modo completo. Sono consapevoli degli altri agenti presenti nelle loro vicinanze e l'architettura generativa degli agenti determina le loro attività, per esempio se debbano camminare o impegnarsi in una conversazione. Inoltre, è possibile che l'utente intervenga nella simulazione attraverso la conversazione con gli agenti o con un comando diretto, utilizzando la voce interiore dell'agente. Smallville comprende i luoghi comuni di un piccolo villaggio, come un bar, un parco, una scuola, dormitori, case e negozi, ognuno con le relative funzionalità. Inoltre, sono presenti oggetti e sottolivelli che consentono il corretto funzionamento di questi spazi. Gli agenti si muovono intorno alla città come in un semplice videogioco, entrando e uscendo dagli edifici, navigando sulla mappa e avvicinandosi ad altri agenti.
Tutto questo viene reso possibile da un’architettura specifica che combina la potenza di Large Language Models (LLMs), con meccanismi per la sintesi e il recupero di informazioni rilevanti, al fine di produrre comportamenti coerenti e basati sull'esperienza passata. L'architettura centrale di questi agenti è costituita dal flusso di memoria, un database che registra l'esperienza dell'agente. L'attuale implementazione utilizza la versione gpt3.5-turbo di ChatGPT. Con l'avanzamento dei modelli di linguaggio, come GPT-4, si prevede che l'espressività e le prestazioni degli agenti generativi miglioreranno ulteriormente.
La sfida più grande che i ricercatori stanno incontrando è quella che riguarda la memoria. La sfida nell'implementare agenti generativi che possano simulare il comportamento umano, è quella di riuscire a ragionare su un insieme di esperienze molto più ampio di quello che può essere descritto in un prompt, poiché la memoria completa potrebbe distrarre il modello e non potrebbe nemmeno essere inserita nell'attuale finestra di contesto limitata. Un'alternativa valida può essere quella di utilizzare la memoria del modello per ricavare i ricordi più rilevanti, anziché cercare di riassumere tutto. Ad esempio:
l'agente Isabella risponde alla domanda "Di cosa sei appassionata in questi giorni?" menzionando la sua passione per creare un'atmosfera accogliente, organizzare eventi, come il party di San Valentino, e far sentire inclusi i clienti, grazie ai ricordi della sua esperienza lavorativa nel caffè bar.
La memoria dell'agente Isabella è costituita da una lista di oggetti memoria, dove ogni oggetto contiene una descrizione in linguaggio naturale, un timestamp di creazione e un timestamp di ultimo accesso. Gli elementi fondamentali della memoria sono le osservazioni, ovvero eventi direttamente percepiti dall'agente, come il fatto che Isabella stia mettendo a disposizione i dolci, o che il frigorifero sia vuoto. La funzione di recupero del modello attinge a sottoinsieme della memoria in base alla situazione corrente dell'agente, prendendo in considerazione tre componenti principali: la time line (è recente?), l'importanza e la rilevanza, i cui punteggi vengono normalizzati e combinati per restituire i ricordi più rilevanti e coerenti con la situazione. I ricercatori intuiscono però che, quando dotati solo di memoria osservativa grezza, gli agenti generativi, hanno difficoltà a generalizzare o a creare inferenze. Introducono quindi un secondo tipo di memoria: “reflection” che consiste in pensieri di livello superiore generati dall'agente e aggiunti alla memoria e che viene utilizzata per generare domande e ottenere informazioni più astratte e generali rispetto alle osservazioni dirette. Gli agenti periodicamente generano riflessioni e possono riflettere anche su altri concetti, generando così una gerarchia di pensieri sempre più astratti e complessi.
L’ultima sfida relativa alla memoria riguarda le reazioni e il planning di azioni; infatti sebbene un LLM possa generare un comportamento plausibile in risposta alle informazioni situazionali, gli agenti generativi hanno bisogno di pianificare in un orizzonte temporale più lungo per garantire che la loro sequenza di azioni sia coerente e credibile. L’approccio che viene proposto include una generazione di piani d'azione dettagliati per ogni agente generativo, partendo da una descrizione iniziale del soggetto e delle sue azioni del giorno precedente. I piani includono una posizione, un tempo di inizio e una durata e sono scomposti in azioni più dettagliate. Gli agenti possono modificare i loro piani in base alle osservazioni ricevute.
Concludendo l’overview di questo paper , possiamo osservare che questo esperimento è stato implementato utilizzando due simulazioni, entrambe in sand box, ovvero in un ambiente chiuso. Nel momento in cui tali agenti generativi venissero inseriti nel mondo reale, si potrebbero fare molte osservazioni in merito alla loro agentività. Occorre chiedersi, per esempio: tali agenti generativi artificiali che hanno appunto un’agentività e producono quindi delle azioni che hanno effetti e conseguenza sul mondo, sono responsabili di tali azioni? Domande come queste sono essenziali, soprattutto perché abbiamo già iniziato ad intravedere come LLMs, per esempio ChatGPT Plugins, sono progettati per essere appunto fuori dal sandbox ed interagire nel mondo. Oppure pensiamo ad AutoGPT, un esperimento pubblicato un paio di giorni fa, dove sembra che GPT con accesso ad internet possa svolgere task autonomamente.