Vitruvian-1, creato da ASC27 s.r.l., è un modello linguistico da 14 miliardi di parametri progettato principalmente per soddisfare le esigenze di aziende e istituzioni in conformità alle normative europee, tra cui il GDPR e l’AI Act. Il CEO di ASC27, Nicola Grandis, ha affermato che il modello è già disponibile via API per le imprese, consentendogli un’integrazione diretta e permettendogli di sfruttarlo all’interno di software esistenti senza necessità di sviluppi complessi. Questa caratteristica lo rende utilizzabile in scenari operativi che richiedono automazione, analisi avanzata e gestione efficiente delle informazioni, ma che cosa è in grado di fare?
Vitruvian-1, il modello italiano di AI
Vitruvian-1 è stato addestrato su un corpus multilingua, ma con una forte predominanza di testi in italiano (70%), caratteristica che lo rende particolarmente efficace nella comprensione del linguaggio tecnico e giuridico in questa lingua. Il modello è stato progettato per offrire risposte più precise e contestualizzate nei settori in cui l’italiano è la lingua principale di riferimento, come la pubblica amministrazione, la sanità e il settore legale.
Vitruvian-1 si distingue per un’architettura di addestramento avanzata, progettata per garantire un’elevata qualità dei dati e un’ottimizzazione mirata delle capacità di ragionamento. Il Technical Report pubblicato da ASC27 descrive nel dettaglio il processo di sviluppo del modello, evidenziando una pipeline articolata in più fasi, ciascuna finalizzata a migliorare l’affidabilità e la precisione delle risposte generate.
La base di conoscenza del modello si fonda su un dataset di 120 miliardi di token, costruito con un approccio data-centric. La selezione dei testi è stata effettuata attraverso un classificatore basato su Llama-3.2-1B, che ha permesso di eliminare contenuti di bassa qualità e garantire l’inclusione solo di fonti affidabili. Questo processo di filtraggio è stato cruciale per evitare che il modello apprenda da dati incoerenti o imprecisi, un problema spesso riscontrato nei LLM di larga scala.
Specifiche tecniche di Vitruvian-1
Una delle peculiarità di Vitruvian-1 è l’ottimizzazione del pre-addestramento, ottenuta tramite una serie di passaggi che riducono rumore e ridondanze nei dati. L’azienda ha comunicato di avere implementato un meccanismo di filtraggio automatico, basato su modelli di valutazione che identificano testi poco informativi o incoerenti, migliorando così la stabilità dell’addestramento. Questo approccio riduce il rischio di output errati e rende il modello più affidabile in contesti professionali.
Il ragionamento step-by-step è stato potenziato attraverso l’uso della distillazione delle catene di ragionamento (CoT, Chain-of-Thought): una tecnica che consente al modello di apprendere strategie di risoluzione dei problemi più strutturate, migliorando le prestazioni in compiti complessi, come il ragionamento logico e matematico. Il processo prevede la generazione di più risposte candidate per ogni domanda, che vengono poi validate da un modello esterno di riferimento. Solo le risposte che superano il controllo vengono integrate nel dataset di addestramento, garantendo una qualità superiore rispetto ai tradizionali modelli generativi.
Uno degli aspetti chiave è la trasparenza algoritmica, che consente di tracciare e documentare le decisioni del modello. Questo approccio riduce il rischio di generare risposte opache o influenzate da bias non monitorati. Per garantire un controllo efficace, ASC27 ha implementato meccanismi di auditing interni, che consentono di verificare il comportamento del modello su diversi tipi di input, individuando eventuali anomalie nel trattamento dei dati o nella generazione delle risposte.