Riconoscimento facciale e generazione artificiale di immagini: come impattano sulla società?
Prodromi per un'etica della Computer Vision
Benvenuti alla newsletter di oggi! Prima di immergerci in nei temi di quest’oggi, vorrei dedicare qualche istante a parlare di noi e del nostro percorso insieme. Sono Sofia, AI Researcher ad indigo.ai e da qualche tempo ho preso il timone della newsletter di GEN AI. Durante questi mesi abbiamo sperimentato formati e stili comunicativi diversi e ora siamo pronti per offrirvi un appuntamento settimanale che vi permetterà di rimanere aggiornati sul mondo dell’intelligenza artificiale, con un focus particolare sui modelli generativi. Oltre alle review di paper e ai tutorial che vi consentiranno di approfondire tecniche e metodologie, desidero che la nostra newsletter diventi anche uno spazio per riflessioni e dibattiti sul ruolo che l'intelligenza artificiale sta assumendo nella nostra società. Siamo qui per imparare insieme e per creare una community che abbia il coraggio di esplorare le tematiche più attuali e controverse legate all'AI. Ecco perché ho deciso di inserire la sezione dei commenti: perché voglio sentirvi protagonisti di questa avventura con noi. Siete pronti a partire?
Allora partiamo. In queste ultime settimane, tra le altre cose, sono stata impegnata nella programmazione della masterclass di genai sulla generazione artificiale di immagini e questo mi ha portato a dovermi informare in modo approfondito sull’argomento. Nello specifico ho fatto ricerca sulla relazione tra Computer Vision e società ed in che modo la prima impatta la seconda.
Nell’ultimo numero della newsletter, Come funziona la generazione artificiale di immagini? abbiamo parlato di Computer Vision e di generazione di immagine, cercando di capire a livello intuitivo, come funzionassero gli algoritmi di base, per parlare poi dello stato dell’arte. Quindi vi rimando a quel numero per quanto riguarda la parte tecnica. Invece nel numero attuale tratteremo della parte etica.
Per Computer Vision (CV) si intendono tutte quelle tecniche che consistono nell'utilizzare metodi di intelligenza artificiale (AI) per automatizzare l'analisi di immagini e video. La CV comprende diverse attività, tra cui il tracciamento, l'identificazione, la rilevazione, la classificazione, la localizzazione, la segmentazione, il riconoscimento facciale, il riconoscimento delle emozioni e il riconoscimento dei comportamenti. Queste attività possono servire a una vasta gamma di scopi, dalla lettura di testi scritti a mano, al riconoscimento dei segnali stradali, dall'interpretazione di scansioni MRI alla sentiment analysis di un’audience. Negli ultimi mesi abbiamo assistito all’enorme diffusione di quella che viene chiamata AI generativa che produce dati sintetici a supporto delle capacità e delle attività creative dell’essere umano. Tra le tecnologie che abilitano la Generative AI, quelle che consentono ad algoritmi di machine learning – allenati per mezzo di dataset a tema – la creazione di immagini di varia natura, tra cui anche quelle generate a partire da una serie di descrizioni scritte elaborate da un sistema di Natural Language Processing (NLP).
Sin dall’inizio la mia attenzione è stata catturata dalla mancanza di ricerca ed informazioni sull’impatto che la CV e la generazione di immagini stanno avendo sulla società. In The ethics of computer vision: an overview in terms of power, l'autore evidenzia infatti come esista poco lavoro sull’etica della CV, nonostante sia di fondamentale importanza per la ricerca sull'AI. Infatti, anche in opere generali sull'etica dell'AI, la CV viene menzionata solo marginalmente; mi riferisco a manuali come The Oxford Handbook of Ethics of AI o all’entry dedicata all’ Ethics of Artificial Intelligence and Robotics della Stanford Encyclopedia of Philosophy.
Nel famoso libro AI Ethics di Coeckelbergh vengono menzionati alcuni dei primi problemi emersi con la CV; per esempio gli errori applicativi, il problema della privacy, i bias discriminativi e la social security, insomma tutte questioni topiche e relative all'utilizzo della CV. Sopratutto per quanto riguarda il riconoscimento facciale ho trovato paper molto interessanti che analizzano i bias derivanti da ImageNet e l’incredibile sbilanciamento di potere sociale che deriva dall’utilizzo di sistemi di riconoscimento facciale.
La mia sorpresa nel trovare così poche informazioni nelle pubblicazioni accademiche, soprattutto per quanto riguarda la parte generativa della CV, mi ha spinto a continuare a cercare nei blogpost e nei commenti di opinione riguardo alla questione, così da poter creare una mia opinione e tracciare le linee guida di quello che dovrebbe essere un ambito sicuramente più studiato: l’etica della Computer Vision.
Le mie ricerche sono iniziate dai classici temi dell’etica dell’intelligenza artificiale; infatti con prodotti come Dalle2 e Midjourney, anche nell’ambito della CV, i modelli sono stati aperti ad un pubblico, ad una demografia estremamente vasta e questo ha fatto sì che temi di importanza etica emergessero. Si evidenziano dunque i quattro temi principali: 1) bias e discriminazione; 2) disinformazione e propaganda; 3) privacy ed 4) impatto sul mondo artistico.
Per quanto riguarda il bias e le discriminazioni non mi dilungherò molto perché ne abbiamo parlato in modo esteso in Bias algoritmici e oggettificazione dei corpi femminili. Vorrei solo portare un esempio molto intuitivo: quest’immagine generata con Dalle-2 è l’esempio di un chiaro bias sociale che si riflette nella generazione di immagini.
Il prompt che ho utilizzato è “paura” e l’immagine generata è quella di una donna terrorizzata. Sappiamo tutti che a livello sociale vi sia un bias di questo tipo, che genderizza l’emozione della paura, ovvero che ingiustamente collega quell’emozione specifica ad un genere specifico. Probabilmente nel dataset vi sono più immagini di donne impaurite che di uomini e questo disequilibrio nel dataset (che risulta essere un disequilibrio sia dal punto di vista quantitativo che quantitativo) genera un rischio concreto di stereotipizzazione e pregiudizi di genere. Da aggiungere a questo tema vi è poi tutta la discussione inerente alla discriminazione e riconoscimento facciale, alla quale però dedicheremo un paragrafo più avanti.
L’argomento è noto a tutti, perché le immagini generate che raffigurano falsi avvenimenti sono diventate meme, eppure per giorni immagini generate da AI che raffigurano eventi improbabili sono circolate in rete, diventando virali: le cosiddette bugie sintetiche. Queste immagini mostrano Papa Francesco con un enorme piumino bianco, Elon Musk che cammina mano nella mano con la CEO rivale di GM, Mary Barra e l'ex presidente Donald Trump arrestato in modo spettacolare dalla polizia. Alcune di queste immagini sembrano realistiche, tanto da ingannare alcuni utenti dei social media, alcune hanno contribuito a generare numerosi titoli di notizie e gli organi di stampa si sono affrettati a smentire le immagini false, soprattutto quelle di Trump, che è stato alla fine incriminato da una giuria popolare a Manhattan, ma non è stato arrestato.
Questi sono solo esempi di come l’AI possa essere utilizzata per fomentare fake news, propaganda e disinformazione, con un conseguente impatto sulla società negativo e pericoloso. Ma se una foto di Papa Francesco avvolto da un enorme piumino bianco potrebbe forse anche risultare divertente, le generazioni di immagini o video fasulli possono essere molto dannosi; si pensi per esempio al caso estremo dei deep fake porn.
Per quanto riguarda la data privacy e i diritti di proprietà intellettuale e quindi tutto il dibattito che riguarda il modo in cui l’AI impatta sul mondo del lavoro (in questo caso il mondo artistico), vorrei portare ad esempio la ricerca presentata nel paper Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models. Nello studio viene mostrato come i dati in uscita (le immagini generate) fossero estremamente simili alle immagini utilizzate nel data set di training.
La generazione di immagini tramite IA solleva preoccupazioni di proprietà intellettuale in quanto, come dimostrato nello studio, modelli come Stable Diffusion replicano dati di immagini e possono copiare dati dalla rete Internet su cui sono stati addestrati e anche immagini protette da copyright. Inoltre, non è facile verificare se un'immagine generata da Stable Diffusion sia originale o derivi dal set di addestramento. La tecnologia utilizzata dai modelli di diffusione, come Stable Diffusion, è in grado di creare immagini partendo da prompt di testo e migliorarle nel tempo, fino a renderle simili al prompt. La ricerca ha dimostrato che Stable Diffusion ha copiato parti dell'immagine dal set di addestramento per il 1,88% dei casi testati. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion’s Image Generator propone uno spaccato interessante riguardo al dataset utilizzato.
Oltre che dal punto di vista della proprietà intellettuale, la generazione di immagini troppo simili (se non identiche) rispetto alle immagini utilizzate nel dataset di training, è un problema dal punto di vista di data privacy e di utilizzo di dati personali. In modo provocatorio si potrebbe chiamare questo tema “la guerra dei dati” ovvero il fatto che oltre a non esservi abbastanza leggi e guidelines per quanto riguarda alla raccolta dei dati, non vi è un sistema internazionale (penso per esempio al GDPR che è valido solamente in Europa); questa mancanza di leggi e regolazioni crea situazioni come quella del mese scorso, per cui il Garante della Privacy italiano richiede il blocco dei dati italiani che vengono utilizzati da OpenAI: la modalità di data scraping che utilizza OpenAI è legale in USA, ma non è legale nell’Unione Europea. Anche questo tema è estremamente ampio e vi si dovrebbe dedicare un numero apposta.
Tuttavia non tutti i modelli testati sono altrettanto inclini a copiare e dipende da diversi fattori, come per esempio dalle dimensioni del set di addestramento. I ricercatori per il momento consigliano alle aziende che utilizzano questi sistemi, di riconsiderare il processo di assemblaggio dei dati di addestramento e di essere consapevoli dei rischi legati alla proprietà intellettuale e alla condivisione di opere derivanti.
Da ultimo è doveroso menzionare il riconoscimento facciale, dato che proprio recentemente il Ministro dell’Interno Italiano Piantedosi si è dichiarato a favore del riconoscimento facciale in luoghi pubblici. Quando si parla di riconoscimento facciale, non bisogna limitarsi a discutere dei rischi per la privacy e la protezione dei dati come diritto individuale.
Il riconoscimento biometrico, in particolare quando viene utilizzato da autorità pubbliche, presenta rischi e minacce che vanno oltre la privacy e riguardano la libertà e la democrazia stesse. Come ricorda Huyskes, quando si pensa al riconoscimento facciale in quanto strumento per aumentare la sicurezza pubblica, bisogna anche ricordare dell’impatto che questo ha sui diritti sociali e della comunità che ne subisce l’impatto.
L'uso di questi strumenti nei luoghi pubblici sottopone tutti a una sorveglianza costante, raccogliendo dati su determinate persone, solo perché si trovano in un determinato luogo. Ciò sovverte il principio della presunzione di innocenza e potrebbe rendere le persone colpevoli fino a prova contraria. Questo tipo di sorveglianza mina la libertà di movimento, di espressione e di partecipazione.
Un ulteriore aspetto da considerare è che non ci sono dati sull'efficacia di queste tecnologie e gli unici dati disponibili riguardano il loro cattivo funzionamento. Questo può essere particolarmente problematico per alcune persone, come quelle appartenenti a gruppi sociali soggetti a razzismo o iper-criminalizzati. Si pensi per esempio al caso ImageNet il dataset che viene utilizzato in USA. ImageNet è un dataset che ha sicuramente cambiato la storia e la direzione dell’intelligenza artificiale, ma che al contempo ha mostrato sottendere innumerevoli bias di tipo razziale. Questo ci porta a fare una riflessione in termini di potere e da un punto di vista filosofico: la domanda è: come il riconoscimento facciale cambia i ruoli di potere all’interno di una società democratica?
Da ultimo lascio quest’immagine per concludere questo episodio della newsletter sull’etica della computer vision in bellezza, ma soprattutto in stile.
Vediamo che la persona che indossa la felpa super colorata viene riconosciuta come persona con una confidence del 55% e come zebra con una confidence del 49%. Questi vestiti colorati sono una creazione di Rachele Didero, CEO di CAP_able. Nello specifico la collezione Manifesto è un esempio del modus operandi e del progetto più ampio di Cap_able, in modo che la popolazione venga educata sull'importanza della privacy e dei diritti umani affrontando il problema dell'abuso della tecnologia di riconoscimento facciale.