Su StartupItalia il guest post di Nello Cristianini, professore di intelligenza artificiale all’Università di Bath, nel Regno Unito. La sua ricerca riguarda l’apprendimento nelle macchine e l’impatto etico e sociale delle tecnologie intelligenti. È in libreria con “La scorciatoia”
Quando usiamo YouTube o TikTok potremmo essere alla presenza di una forma di intelligenza ancora sconosciuta: e se l’idea di un agente senziente, e magari anche linguistico, ci avesse finora fuorviato, impedendoci di riconoscere gli agenti intelligenti che si stavano evolvendo davanti ai nostri occhi? Riconoscere gli agenti intelligenti per quello che sono può aiutarci a trovare modi migliori di interagire con loro. Di seguito, in esclusiva per i lettori di StartupItalia, pubblichiamo un riadattamento del capitolo 9 del libro “La scorciatoia. Come le macchine sono diventate intelligenti senza pensare in modo umano” di Nello Cristianini, edito da Il Mulino.
***
Un gioco
Due estranei fissano uno schermo allo stesso momento, uno sta rientrando a casa sull’ultimo autobus della sera, l’altro si sta preparando per andare a scuola. Sono stati scelti a caso da una app, tra i tanti giocatori disponibili online in quel momento, e abbinati per giocare assieme a un gioco che durerà solamente 2,5 minuti. Sono distanti migliaia di chilometri ma non lo possono sapere: non hanno alcuna informazione l’uno sull’altro, né alcun modo di comunicare. Eppure, quello che viene chiesto loro di fare è nientemeno che leggersi il pensiero a vicenda: l’unico modo di fare punti in questo gioco è di rispondere correttamente alla domanda: “Quale parola pensi che il tuo compagno di gioco stia scrivendo in questo momento?” Lo schermo non mostra al giocatore tutto quello che il compagno sta scrivendo, ma solo le parole scritte da entrambi. Con 273,000 parole nel dizionario di Oxford, quale è la probabilità che facciano anche un solo punto nel breve tempo che e’ loro concesso?
Questo gioco sarebbe senza speranza se non fosse per un dettaglio importante: assieme al consiglio di “pensare come l’altro” (“think like each other”), i due giocatori ricevono anche un aiuto: entrambi vedono la stessa immagine, e lo sanno. Quando il cronometro inizia i due cominciano a scrivere freneticamente quello che pensano che l’altro stia scrivendo in quel momento, sulla base di quell’immagine. Il miglior modo di indovinare, scoprono subito, e’ di scrivere qualsiasi cosa venga in mente guardando l’immagine, presumendo che l’altro stia facendo esattamente lo stesso. Le parole più ovvie, naturalmente, sono quelle che direttamente descrivono l’immagine stessa, o almeno queste sono le parole che vediamo apparire su entrambe le liste generate dai giocatori.
Il gioco ESP (abbreviato per Percezione Extra Sensoriale) è stato creato nel 2004 da Luis von Ahn, e ha un importante ‘effetto collaterale’: produce descrizioni verbali delle immagini, etichette o “tag” di alta qualità che ne descrivono i contenuti. E questa è una risorsa preziosa per gli algoritmi di apprendimento che dipendono da dati annotati. In ultima analisi, sono questi dati che controllano il comportamento degli algoritmi intelligenti con cui interagiamo ogni giorno, e per questo motivo nel 2005 il gioco è stato acquistato da Google.
Una caratteristica importante di ESP è che nessuno dei partecipanti può influenzare il risultato finale, ovvero una annotazione accurata del dataset di immagini, verso cui il meccanismo procede implacabilmente, fintanto che qualcuno si diverte a giocare. Non c’è modo di imbrogliare, e non c’è bisogno che i giocatori comprendano di essere parte di un meccanismo più ampio.
Macchine sociali e mani invisibili
La dinamica del gioco spinge spontaneamente e irreversibilmente i dati verso uno stato di annotazione sempre più completa ed accurata. Stafford Beer, il cibernetico inglese che applicò le idee della teoria dei controlli alle organizzazioni umane, amava ripetere la sua memorabile descrizione dei sistemi teleologici come quello che abbiamo descritto: “lo scopo di un sistema è quello che fa”. Con questo, Beer intendeva separare le intenzioni di quelli che hanno creato, operano e usano un dato sistema, da quelle del sistema stesso. Nel caso dei sistemi intelligenti, questa distinzione diventa essenziale.
I mercati sono molto simili al gioco ESP: in questo caso, il prezzo di un bene riflette quello che ogni partecipante pensa che gli altri partecipanti siano disposti a pagare per esso. Oltre a essere un gioco di lettura del pensiero, i mercati possono anche elaborare informazioni, riflettendo nei prezzi le aspettative e le previsioni di migliaia di giocatori, ognuno dei quali può sfruttare diverse fonti di informazioni e assunzioni. Come risultato, il sistema mantiene una stima aggiornata del valore e delle prospettive di diversi settori economici, almeno quando non ci sono patologie come le bolle speculative.
La prossima volta che usate eBay, pensate che state partecipando a un gioco più grande, in cui gli altri partecipanti possono vedere gli stessi beni e fare delle offerte per essi. Mentre il loro scopo individuale è quello di spendere il minimo possibile, nascondendo il proprio limite di spesa, lo scopo del sistema complessivo è l’esatto opposto: quello di identificare quegli utenti disposti a spendere di più. Tutti i partecipanti fanno parte di una macchina, non fatta di metallo o elettroni o cellule, ma fatta di persone. La mano invisibile di Adam Smith guida la macchina verso il suo scopo ultimo, e voi siete una sua componente.
Ma eBay è solo uno dei molti esempi di questa categoria di agenti: i sistemi di raccomandazione dei video, o quelli per gestire la reputazione di ristoranti o tassisti, seguono simili dinamiche. Tim Berners-Lee, l’inventore del World Wide Web, definì “macchina sociale” ogni sistema che include esseri umani e in cui ciascuno esegue compiti ristretti e ben definiti, con un’interazione mediata e vincolata da un’infrastruttura rigida. Oggi tale infrastruttura è tipicamente digitale, ma non è necessario che sia sempre così: una burocrazia fisica che comunica mediante moduli standardizzati, o una catena di montaggio mobile, possono essere entrambe considerate macchine sociali. Notate che a un livello (chiamato ‘micro’) lo scopo dei partecipanti può essere di risparmiare soldi o nascondere delle informazioni, ma a un altro livello (chiamato ‘macro’) lo scopo della macchina può essere l’opposto: estrarre il massimo profitto dai partecipanti oppure delle informazioni utili da questi.
YouTube e formiche: due intelligenze
L’intelligenza non è una qualità esclusivamente umana, la troviamo a ogni livello dell’evoluzione, e anche in alcuni artefatti: è l’abilità di un agente di prendere decisioni efficaci in situazioni mai incontrate prima, ed è questo che eBay, YouTube e TikTok fanno continuamente, con l’aiuto essenziale dei loro partecipanti. Le macchine sociali che abbiamo usato come esempio hanno la proprietà di non essere controllate da un agente esterno: il loro comportamento emerge spontaneamente dalle interazioni tra i partecipanti e da quelle con l’ambiente. E le guida verso i propri obiettivi anche in situazioni mai incontrate prima.
Quelle che incontriamo ogni giorno sul web sono macchine sociali autonome che incorporano milioni o miliardi di partecipanti. Se tracciamo i confini del sistema in modo da includere anche i partecipanti umani, possiamo considerare l’intera macchina come un agente intelligente, con conoscenze e capacità sovrumane, anche se estremamente specializzato.
Un’intelligenza collettiva e distribuita non è esclusiva delle macchine sociali che sono emerse sul web: la troviamo anche nelle colonie di formiche, capaci di prendere decisioni sulla base di informazioni che non sono disponibili ad alcun individuo, ma sono note solo al sistema intero. È così che la decisione di traslocare un formicaio viene presa: non c’è un comandante centrale, ne’ un piano prestabilito, eppure ciascuna formica sa che cosa fare, in un modo tale che la colonia risponde in modo appropriato a cambiamenti nell’ambiente. Talvolta questo viene chiamato “comportamento emergente” e perfino “intelligenza collettiva”, e ricorda molto la “mano invisibile” di Adam Smith.
Riconoscere l’intelligenza
In questi giorni siamo ipnotizzati da GPT, soprattutto perché ci sembra che parli, ma da anni abbiamo in tasca dei dispositivi capaci di apprendere e decidere e anche manipolarci. E questa intelligenza non è del dispositivo ne’ dell’algoritmo: è dell’intera macchina sociale formata dal meccanismo che apprende e da miliardi di utenti.
Noi tutti diventiamo parte di una macchina sociale non appena usiamo un sistema di raccomandazione, il che vuol dire molte volte al giorno. Quando apriamo YouTube siamo accolti da un elenco di raccomandazioni personalizzate, e appena ne scegliamo una contribuiamo all’annotazione del suo enorme catalogo di video e di utenti. Non è mai facile tracciare i confini di un sistema, ma potremmo dire che il comportamento di YouTube è determinato dall’intelligenza collettiva dei suoi miliardi di utenti.
L’obiettivo di molte piattaforme social è di incrementare il tempo totale che trascorriamo usandole, e quindi nutrendole di informazioni, quasi un istinto di autopreservazione. Lo scopo di un sistema è quello che fa, non l’intento di quelli che lo operano o di quelli che lo usano. Che cosa sappiamo delle intenzioni emergenti di queste piattaforme, come possiamo assicurarci che siano allineati con i nostri valori, o controllarle in caso contrario, e come possiamo progettare nuove macchine dello stesso tipo che siano allineate con i nostri obiettivi? Queste sono tutte questioni completamente aperte, a cavallo tra scienza, filosofia ed economia: l’evoluzione delle macchine intelligenti è appena incominciata, e la nostra prima sfida è riuscire a riconoscerle quando le incontriamo.