La trasformazione nella percezione dell’intelligenza artificiale, specialmente tra coloro che non fanno parte degli ambienti scientifici e accademici, può essere in gran parte, se non esclusivamente, attribuita a OpenAI. Fondata nel 2015 da un gruppo di visionari (tra cui Sam Altman ed Elon Musk), il nome raggruppa sia l’entità no-profit99, sia la sua filiale a scopo di lucro100.
Nel 2018, Musk lascia il consiglio di amministrazione continuando, tuttavia, a offrire supporto finanziario, cessando però il suo coinvolgimento diretto e diventando negli anni sempre più critico nei confronti di OpenAI. Nel 2019, OpenAI passa da un modello totalmente no-profit a un modello capped-profit. Questo cambio strategico ha permesso a OpenAI di attrarre investimenti ingenti, soprattutto da parte di Microsoft, la quale, mentre scrivo questo paragrafo, ha investito oltre dieci miliardi103.
Il 2020 è stato un anno memorabile, poiché OpenAI ha introdotto il modello GPT-3 e lanciato un’API per le applicazioni commerciali. Nel 2021, OpenAI ha presentato DALL ·E, modello di deep learning capace di generare immagini digitali basate su descrizioni testuali, oggi completamente integrato nella versione a pagamento di ChatGPT. Tuttavia, il culmine del suo percorso fino a ora è stato il 30 novembre 2022, quando ha rilasciato al grande pubblico un’anteprima gratuita di ChatGPT, il famoso chatbot AI basato su GPT-3.5, che ha registrato oltre un milione di iscrizioni in soli cinque giorni. Nonostante la crescita vertiginosa (o proprio a causa di essa), ChatGPT ha suscitato varie reazioni e preoccupazioni.
Resta il fatto che l’impatto culturale di ChatGPT è ormai evidente, al punto che è stato parodiato in un episodio105 di South Park, con Trey Parker accreditato insieme a ChatGPT per la scrittura dello stesso. Così come web è diventato sinonimo di internet, ChatGPT è, almeno per ora, sinonimo e placeholder linguistico di intelligenza artificiale generativa. Tornando alla storia di OpenAI, spazio a parte merita di essere riservato a quella che ho definito in più occasioni come la “soap opera” di Altman, un tumultuoso capitolo che ha visto il CEO di OpenAI prima essere poi sostituito per due volte, e infine reintegrato, il tutto in meno di una settimana. Il racconto inizia il 17 novembre 2023, quando, inaspettatamente, il consiglio di amministrazione di OpenAI ha deciso di licenziare Altman, uno dei fondatori originali e volto pubblico dell’azienda. Il consiglio ha motivato questa decisione con l’accusa di mancata sincerità nelle comunicazioni dello stesso, sebbene non abbia fornito dettagli concreti a supporto di questa affermazione. La decisione è stata presa con tale urgenza che non si è nemmeno attesa la chiusura dei mercati finanziari, una pratica comune per mitigare l’impatto negativo di notizie simili sulle azioni aziendali. Successivamente, è stato annunciato che Mira Murati, il CTO di OpenAI, avrebbe temporaneamente assunto il ruolo di CEO, portando altre figure di rilievo, come il cofondatore Greg Brockman, ad annunciare le loro dimissioni. Di fronte all’insoddisfazione degli investitori e a una pressione crescente, meno di 24 ore dopo il licenziamento, OpenAI ha ricontattato Altman per discutere un possibile ritorno, nel pieno di una protesta di circa 700 dipendenti, pronti anch’essi a lasciare l’azienda in segno di disaccordo. Tuttavia, nella stessa giornata, è stato annunciato Emmett Shear, ex dirigente di Twitch, come nuovo CEO ad interim di OpenAI. Il colpo di scena è arrivato il lunedì, con l’annuncio (mai confermato) che Altman e Brockman avrebbero iniziato una collaborazione con Microsoft106, per guidare un nuovo team di ricerca. Il mercoledì successivo ha segnato la fine, almeno per ora, del dramma: OpenAI ha ufficializzato il ritorno di Altman come CEO, insieme al licenziamento della maggior parte del consiglio di amministrazione e al rientro di Brockman.
Riflettendo sulle motivazioni originarie del licenziamento di Altman, appare evidente che ci sia qualcosa di più profondo dietro a questa vicenda. Sorge il sospetto che la decisione del consiglio fosse radicata non solo in una divergenza filosofica riguardo l’approccio commerciale, ma anche in preoccupazioni legate a un progetto interno, denominato Q, focalizzato sulla creazione di un’intelligenza artificiale generale. Q107, che rappresenta un’evoluzione del Q-learning108, sembra essere una tecnologia le cui capacità principali riguardano lo sviluppo di ragionamento logico e matematico avanzato, pilastro e sacro graal dell’AGI. Ci sono voci (mentre scrivo, ancora anonime e non confermate109) che suggeriscono come Q* abbia dimostrato la capacità di svolgere calcoli matematici elementari in modo deterministico, superando così i limiti delle attuali AI, che operano in base a metodi probabilistici.
Una AJI che, come un bambino (umano, questa volta), potrebbe essere il primo, sebbene timido e traballante, passo verso una vera intelligenza generale. In questo contesto, il licenziamento e il successivo reintegro di Altman dovrebbero, a mio avviso, essere visti come sintomi di un dibattito più ampio e profondo riguardo alla direzione che l’intelligenza artificiale dovrebbe prendere, una discussione che va ben oltre la semplice contrapposizione tra modelli profit e no-profit. La storia di Altman e OpenAI, con tutte le sue svolte e cambiamenti, è esempio lampante di come la tecnologia e l’etica siano inestricabilmente intrecciate. Il rischio è che potremmo trovarci nelle mani di persone più interessate al profitto che all’etica e Q* potrebbe essere, per dirla con Barrat, la nostra “ultima invenzione”112. E, se questa mia (personalissima) interpretazione degli eventi dovesse rivelarsi corretta (e spero sinceramente che non lo sia), il fatto che Altman sia stato reintegrato come CEO di OpenAI a seguito delle pressioni degli investitori, con il conseguente cambiamento del consiglio di amministrazione, renderebbe tutta la vicenda ancora più inquietante.
Il “Rinascimento” dell’Intelligenza artificiale
Mettendo da parte per un momento questi scenari distopici, un significativo contributo di OpenAI è stato quello di innescare una sorta di “Rinascimento” dell’intelligenza artificiale, con l’emergere di numerosi concorrenti in gara per il primato AI. Vediamo alcuni dei più rilevanti.
Deepmind e la shitstorm per alcune scene ritoccate
L’azienda britannica di intelligenza artificiale sotto l’egida di Alphabet/Google è stata fondata nel 2010 e acquisita nel 2014 per 500 milioni di dollari. Ha ottenuto una grande visibilità mediatica nel 2016, battendo uno dei più forti giocatori di Go al mondo, Lee Se-dol. Mentre scrivo questo paragrafo, DeepMind si trova al centro di una vera e propria shitstorm mediatica a causa del suo modello linguistico, Gemini. Il 6 dicembre 2023, Google ha rilasciato un video che mostrava il modello riconoscere il materiale di una paperella giocattolo attraverso il suono prodotto dalla sua compressione, deducendo che fosse di gomma. Inoltre, osservando disegni di pianeti, Gemini ha identificato la Terra, Saturno e il Sole, suggerendo la sequenza corretta per rappresentarne la distanza reale dal nostro pianeta. Tuttavia, si è poi scoperto che il video di Gemini altro non era che il risultato di una meticolosa post-produzione: le scene erano state pre-registrate e analizzate dal modello, che aveva avuto il tempo di elaborare le risposte. In altre parole, un falso113. Una possibile spiegazione dietro questo faux pas di Google potrebbe essere individuata nel tentativo dell’azienda di mantenere la propria competitività di fronte ai progressi di ChatGPT, suggerendo (a prima vista) un potenziale ritardo rispetto a OpenAI nel campo dell’intelligenza artificiale. Tuttavia, tendo a interpretare tale incidente mediatico non come indicatore di una carenza strutturale persistente, ma piuttosto come una falla momentanea. Considerando l’ampio ecosistema a disposizione di Google, non è arduo ipotizzare che, in breve tempo, Gemini troverà un’applicazione ubiquitaria. In altre parole: l’AI di Google sarà ovunque: dalla ricerca all’advertising, da Gmail a Google Docs. Avendo, di default, accesso a exabyte di informazioni, Gemini detiene un vantaggio significativo, soprattutto se si tiene in considerazione il fatto che abbiamo ormai raggiunto un punto in cui la maggior parte degli LLM sono indistinguibili gli uni dagli altri se valutati esclusivamente su metriche quantitative. Sappiamo, per esempio, che le reti di GPT-4 contengono circa un trilione di parametri, ma non sono noti dati certi riguardo al numero di quelli utilizzati da Gemini. Ciò potrebbe generare l’errata percezione che GPT-4 sia più potente di Gemini (e, se ci basassimo esclusivamente su questa metrica, potrebbe anche essere il caso), ma non è tanto la dimensione tecnica e la potenza dei modelli a essere determinanti, quanto i dati sui quali questi vengono addestrati. E Google ha accesso a una miniera d’oro ineguagliabile in termini di training data. Detto questo, mentre la bozza finale del libro che stai leggendo sta andando in stampa, Gemini si trova (di nuovo!) nel mezzo di un caso mediatico a causa del suo generatore di immagini. In un post del 23 febbraio 2024114, Google afferma: «Tre settimane fa, abbiamo lanciato una nuova funzionalità di generazione di immagini per l’app di messaggistica Gemini, che includeva la capacità di creare immagini di persone. È evidente che questa funzione non ha centrato l’obiettivo. Alcune delle immagini generate sono inaccurate o addirittura offensive. […] Abbiamo riconosciuto l’errore e temporaneamente messo in pausa la generazione di immagini di persone in Gemini mentre lavoriamo a una versione migliorata. […] Quando abbiamo sviluppato questa funzione, l’abbiamo tarata per assicurarci che non cadesse in alcune trappole che abbiamo visto in passato […], come la creazione di immagini violente o sessualmente esplicite, o rappresentazioni di persone reali. E poiché i nostri utenti provengono da tutto il mondo, vogliamo che funzioni bene per tutti. Se chiedi una foto di giocatori di calcio, o di qualcuno che porta a passeggio un cane, probabilmente vuoi ricevere una varietà di persone. Probabilmente non vuoi solo ricevere immagini di persone di un solo tipo di etnia (o di qualsiasi altra caratteristica). Tuttavia, se chiedi a Gemini immagini di un tipo specifico di persona, come “un insegnante nero in una classe” o “un veterinario bianco con un cane”, o persone in particolari contesti culturali o storici, dovresti assolutamente ottenere una risposta che rifletta accuratamente ciò che chiedi. Quindi cosa è andato storto? In breve, due cose. Primo, la nostra taratura per garantire che Gemini mostri una varietà di persone non ha tenuto conto dei casi che chiaramente non dovrebbero mostrare una varietà. E secondo, col tempo, il modello è diventato molto più cauto di quanto intendessimo e ha rifiutato di rispondere a certi input del tutto, interpretando erroneamente alcuni input molto innocui come sensibili. Queste due cose hanno portato il modello a sovracompensare in alcuni casi e a essere eccessivamente conservativo in altri, portando a immagini imbarazzanti e sbagliate». Per quando questo libro sarà disponibile, il servizio potrebbe essere stato reintegrato, ma, mentre scrivo questo addendum, Gemini non genera ancora immagini che ritraggono persone. Nonostante l’intenso scrutinio mediatico, Google ha proseguito nel suo impegno verso l’innovazione nel campo dell’intelligenza artificiale, lanciando anche un nuovo modello, denominato Gemma, il 21 febbraio 2024. Gemma rappresenta una serie di modelli aperti e avanzati, frutto della medesima ricerca e tecnologia impiegata per lo sviluppo di Gemini. Questa iniziativa, portata avanti da DeepMind e da vari team all’interno di Goo gle, condivide con Gemini diversi componenti tecnologici e infrastrutturali. Tale sinergia consente a Gemma, nelle sue configurazioni da 2B e 7B, di eccellere in termini di prestazioni rispetto ad altri modelli open di dimensioni analoghe, garantendo l’operatività diretta su dispositivi quali laptop e computer desktop. Secondo quanto riferito da Google115, Gemma avrebbe già dimostrato di superare modelli di dimensioni maggiori in benchmark chiave. Il modello è disponibile all’indirizzo ai.google.dev/gemma.
Da Bard a Gemini
Modello originalmente noto come Bard, sviluppato e annunciato già nel 2021, ma rilasciato al pubblico all’inizio del 2023. Il lancio di ChatGPT a novembre 2022 e la sua rapida ascesa di popolarità hanno probabilmente sorpreso Google, spingendolo a rilasciare Bard/Gemini prima della data prevista116. A seguito di una deludente diretta streaming in cui è stato mostrato il modello, le azioni di Google sono calate dell’8%, e i commenti sul video YouTube117 della diretta disabilitati. A ottobre del 2023, durante l’evento annuale Made by Google, l’azienda ha presentato “Assistant with Bard”, una versione aggiornata dell’assistente Google profondamente integrata con il modello, seguendo l’approccio di Amazon con Alexa. A febbraio 2024, il nome Bard è stato dismesso e oggi il modello si chiama, semplicemente, Gemini.
Anthropic, la startup italo-americana che sfida OpenAI
Forse la mia azienda preferita è una startup statunitense fondata nel 2021 da due fratelli italo-americani di San Francisco118, entrambi ex-membri di OpenAI. Caratterizzata da un forte impegno etico, Anthropic emerge come entità distintiva nel contesto dell’altruismo efficace, un movimento dedicato all’ottimizzazione dell’impatto sociale delle azioni umane. Dal suo lancio, ha accumulato diversi miliardi di dollari in finanziamenti. Tra i suoi sostenitori più significativi, Amazon si distingue con un imponente investimento di quattro miliardi di dollari e una partnership che prevede l’utilizzo di AWS come principale fornitore di servizi cloud. Tuttavia, l’azienda ha attirato anche l’attenzione di figure controverse, come Bankman-Fried, tristemente noto per il “crypto-scandalo” FTX119 e, anch’esso, legato al movimento dell’altruismo efficace. Nel suo portfolio di prodotti, Anthropic include Claude, un chatbot non molto dissimile, almeno in termini di interfaccia utente, da Chat- GPT. Originariamente disponibile in beta su Slack, Claude è ora accessibile attraverso un sito web dedicato, claude.ai. Questo chatbot si distingue per l’applicazione del “Constitutional AI” (CAI), un quadro innovativo concepito per allineare i sistemi di intelligenza artificiale ai valori e agli ideali umani, riflettendo un approccio olistico e umanocentrico allo sviluppo tecnologico. L’approccio etico di Anthropic al campo dell’intelligenza artificiale riflette, a mio parere, una visione più responsabile, mirata a plasmare il futuro dell’AI in maniera eticamente fondata, socialmente beneficiaria e tecnologicamente avanzata.
Musk irrompe nel mondo AI con Grok
Nel mio Olimpo personale figura anche Grok, chatbot conversazionale anti-woke sviluppato da Musk in risposta diretta all’ascesa di ChatGPT. Pubblicizzato come «dotato di senso dell’umorismo», Grok è accessibile direttamente da X per gli abbonati Premium+. Il termine Grok, coniato da Robert Heinlein nel suo romanzo Stranger in a Strange Land123, descrive un tipo di comprensione profonda. Musk ha caratterizzato il chatbot come in grado di rispondere a domande scomode generalmente rifiutate dalla maggior parte degli altri sistemi AI. Lo stesso Musk ha condiviso uno screenshot in cui Grok fornisce istruzioni dettagliate su come produrre cocaina125. Di default, Grok è impostato sulla “modalità divertimento” (fun mode), che presenta una voce più “tagliente”, ma può essere configurato anche in “modalità normale” (regular mode). Per esperienza personale, posso affermare che, quando Grok è in “modalità divertimento” le risposte sono simili a quelle generate da giochi come Cards Against Humanity e CoCoRido.
Meta affila la LLaMA
Famiglia di LLM lanciata da Meta nel febbraio 2023. La prima versione include modelli di 7, 13, 33 e 65 miliardi di parametri. Il modello da 13 miliardi ha superato GPT-3 nei benchmark NLP, mentre il più grande è competitivo con modelli avanzati come PaLM. Nel luglio dell’anno scorso, Meta ha lanciato, in collaborazione con Microsoft, LLaMA-2, che mantiene l’architettura di base ma utilizza il 40% in più di dati. LLaMA usa l’architettura transformer, sebbene con alcune differenze rispetto a GPT-3, e i suoi modelli sono stati addestrati su un dataset di 2 trilioni di token.
Cupertino insegue con Ferret
Mentre sto scrivendo questo paragrafo, Apple ha presentato un modello linguistico multimodale e open-source chiamato Ferret. Questa iniziativa, che comporta la pubblicazione del codice e dei pesi del modello con limitazioni all’utilizzo esclusivamente per scopi accademici, rappresenta una significativa deviazione dalla tradizionale politica di riservatezza di Apple. Sviluppato sotto la guida di Zhe Gan, rinomato ricercatore di intelligenza artificiale di Apple, e in collaborazione con esperti dell’Università della Columbia, Ferret si distingue particolarmente nell’analisi visiva, mostrando capacità superiori rispetto a GPT-4 nell’analizzare e interpretare specifiche aree delle immagini. A quanto pare, Apple punterebbe a rendere, in futuro, Ferret compatibile con l’i- Phone, rendendo quest’ultimo – de facto – non più (solo) un semplice smartphone, ma un vero e proprio AI device. Nonostante le sfide siano notevoli, in particolare a causa della complessità dei modelli linguistici, i recenti progressi indicano che l’utilizzo combinato di RAM e memoria flash integrata potrebbe facilitare la strada verso l’implementazione di assistenti AI avanzati sui dispositivi mobili126. Stilare una lista delle aziende di GenAI senza rischiare l’obsolescenza appena il volume arriva in libreria è impresa ardua, in quanto queste aziende nascono, muoiono e si fondono alla velocità della luce. Oltre a quelle citate, quindi, riporto, in nota a piè di pagina, quelle che ritengano abbiano un forte potenziale, ma ti invito a verificare il loro stato di attività prima di prendere qualsiasi decisione.
***
Quali sfide attendono la società di domani? Quali sono i rischi e quali le possibilità offerte dallo sviluppo tecnologico? Per la rubrica “Futuro da sfogliare” Simone Puorto, docente MBA, ripercorre non solo le vicissitudini in casa di ChatGPT ma aiuta a destreggiarsi tra tutti i rivali di Sam Altman con un estratto del suo libro We are the Glitch, Dario Flaccovio Editore.