OpenAI sfida DeepSeek con il rilascio, a livello globale, di ChatGPT o3-mini, un nuovo modello già svellato lo scorso 20 dicembre che con uno sforzo ragionamento medio è in grado di raggiungere le performance del predecessore o1 in ambito STEM, ma con un notevole risparmio di costi e tempi.
Come funziona ChatGPT o3-mini?
o3-mini, disponibile per tutti gli utenti tramite ChatGPT, a differenza dei tradizionali modelli linguistici di grandi dimensioni, adotta un approccio più rigoroso nel verificare i fatti prima di fornire una risposta. Questo consente loro di evitare molte delle problematiche che affliggono i modelli standard. Sebbene richiedano tempi di elaborazione leggermente più lunghi, il risultato è una maggiore affidabilità, pur rimanendo comunque non esenti da errori.
O3-mini è disponibile per tutti gli utenti tramite ChatGPT, ma gli utenti ChatGPT Plus e Team hanno un limite più alto: 150 query al giorno. Gli abbonati a ChatGPT Pro avranno accesso illimitato, mentre o3-mini sarà disponibile per i clienti di ChatGPT Enterprise e ChatGPT Edu solo tra una settimana.
Tutti gli utenti paganti hanno anche la possibilità di selezionare ‘o3-mini-high’ nel selettore del modello per una versione che impiega un po’ più tempo a generare risposte, mentre quello per gli utenti gratuiti è o3-mini-medium, che dedica al ragionamento solo un paio di secondi. Esiste anche un profilo o3-mini-low che può essere scelto dagli sviluppatori, i quali hanno a disposizione tutti e tre i livelli: o3-mini-high, o3-mini-medium e o3-mini-low.
Per attivare il “pensiero” di o3-mini è sufficiente cliccare sul tasto “Avvia il Ragionamento”, per il momento attivo solo nella web app di ChatGPT. È abbinabile anche alla ricerca web, ma sembra non “vedere” gli allegati caricati, mentre R1 di DeepSeek, sì.
o3-mini ha un costo di 0,55 dollari per ogni milione di token in input in cache (Prompt Caching) e di 4,40 dollari per milione di token in output (1 milione di token corrisponde a circa 750.000 parole).
È un risparmio del 63% rispetto al prezzo di o1-mini e si avvicina alle tariffe applicate da DeepSeek per il modello di ragionamento R1. DeepSeek, infatti, addebita 0,14 dollari per milione di token in input in cache e 2,19 dollari per milione di token in output quando si accede a R1 tramite API.
Quanto è capace o3-mini?
Così come o1, o3-mini è stato ottimizzato per il ragionamento su materie STEM. Dal punto di vista delle prestazioni, OpenAI spiega che «mentre o1 rimane il nostro modello di ragionamento di conoscenza generale più ampio, o3-mini fornisce un’alternativa specializzata per i domini tecnici che richiedono precisione e velocità».
Tuttavia, nelle valutazioni di matematica avanzata, o3-mini supera i modelli precedenti con un netto balzo nelle prestazioni: su FrontierMath raggiunge il 9,2% di successo al primo tentativo (Pass@1) al livello high, quasi doppiando o1-mini (5,8%) e o1 (5,5%).
In ambito coding, incrementa progressivamente il punteggio Elo su Codeforces in base al livello di ragionamento scelto, mentre in LiveBench Coding supera o1 con uno punteggio di 0,723 per il livello medium contro 0,674.
Nello SWE-bench Verified per il bug fixing software, si conferma come il miglior modello OpenAI attualmente disponibile.
La latenza, inoltre, si riduce del 24% rispetto a o1-mini, con 7,7 secondi medi per risposta.