La presentazione di GPT-4o è riuscita a sorprendere gli addetti ai lavori. In un primo momento le agenzie di stampa avevano ipotizzato il lancio di un motore di ricerca basato sull’AI, ma è saltato fuori che il team di Sam Altman era al lavoro su un nuovo prodotto presto disponibile sull’app. La “o”, come evidenzia TechCrunch, sta per “omni”, vale a dire che il software (in arrivo nelle prossime settimane) è in grado non soltanto di gestire testo ma anche parlato e video. Per presentare la novità è stato organizzato uno show, con tanto di pubblico e claque, presentato dalla Cto di OpenAI Mira Murati in compagnia di Mark Chen e Barret Zoph (entrambi dipendenti della società).
GPT-4o, di cosa è capace?
Sono anni che le persone chiedono informazioni ad assistenti vocali sviluppati tramite intelligenza artificiale. Con GPT-4o l’azienda sembra suggerire l’idea che in futuro gli utenti terranno vere e proprie conversazioni con il proprio smartphone. Le chiacchierate mostrate nella demo avvengono (quasi) in real time, con la possibilità di interrompere l’AI in qualsiasi momento e ottenere da parte sua un’immediata interruzione del parlato.
Leggi anche: Sorpresa. L’AI ha già mezzo secolo (e pochi lo sanno). Tutto su ChatGPT, i rivali e i suoi antenati
In una demo viene chiesto a GPT-4o di descrivere che tipo di emozione sta provando Barret Zoph, mentre quest’ultimo mostra alla telecamera dello smartphone un sorriso stampato in volto. L’intelligenza artificiale la azzecca: è felice. In un’altra situazione la tecnologia funge da traduttore istantaneo in una brevissima conversazione tra Mira Murati e Mark Chen: la prima parla in italiano («Mark, se le balene potessero parlare che cosa ci direbbero?») e il software traduce in pochi istanti.
Nel mercato dei prodotti di intelligenza artificiale si stanno facendo strada gli agenti di AI (prodotti ad esempio da aziende come Rabbit e Humane). Si tratta di device che svolgono tutta una serie di compiti per l’utente (prenotare un volo o un ristorante, ad esempio). Nel caso specifico il software di OpenAI ha affiancato Mark che chiedeva consigli per la demo in corso, dicendosi un po’ nervoso. Ha poi esagerato un respiro affannoso, ottenendo come reazione dall’AI un repentino “slow down” con il consiglio di prendere bei respiri prima di salire sul palco. Sorprendente? Il suggerimento non proprio, ma senz’altro l’assistente si è mostrato molto umano nella conversazione.
Quanto arriva l’agente vocale GPT-4o
Come si legge sul sito di OpenAI le funzionalità di testo e immagine di GPT-4o sono in fase di implementazione su ChatGPT. Si dovrà invece attendere per il servizio di assistente vocale. «Lanceremo una nuova versione della modalità vocale con GPT-4o all’interno di ChatGPT Plus nelle prossime settimane». Si tratta dunque di un rilascio graduale, che potrebbe peraltro intrecciarsi con un altro importante annuncio: come comunicato pochi mesi fa è in arrivo anche Sora, il software che produce clip video partendo da prompt testuali.