In collaborazione con |
Insegnare a un computer a “vedere” non è un’impresa da poco, ma grazie all’AI si può ottenere una categorizzazione automatica anche di questi contenuti. A tutto vantaggio del business
Insegnare a un computer a “vedere” non è un’impresa da poco, lo sa bene Fei-Fei Li, ingegnere a capo del laboratorio AI dell’Università di Stanford e Chief Scientist di Google Cloud.
Sono diverse le tecnologie che ci permettono di catturare la realtà. Pensiamo a una semplice fotocamera che trasforma le luci in una matrice bidimensionale di numeri (pixels). Ma queste macchine capiscono quello che vedono? Saprebbero riconoscere e contestualizzare queste immagini così come lo farebbe il cervello umano?
I computer hanno cominciato a farlo con il supporto dell’Intelligenza Artificiale. Ma siamo ancora in uno stadio iniziale, il prossimo step sarà quello di riuscire a insegnare loro a esprimere quello che vedono con frasi in linguaggio naturale.
Torniamo un po’ indietro nel tempo
Siamo nel 2007 e quindi ancora in alto mare nell’ambito del riconoscimento immagini. La ricerca scientifica si sta concentrando sulla creazione di algoritmi sempre migliori: si cerca di dar vita, con grandissime difficoltà, a modelli matematici che esprimano tutte le variazioni del reale.
Pensiamo a un gatto come a un insieme di forme e colori e a tutte le possibili pose che può assumere e alla complessità di esprimerle con un linguaggio matematico che insegni alle macchine come riconoscerlo. Impossibile, e stiamo parlando di un semplice animale domestico!
È in questo contesto che si inserisce la geniale intuizione di Fei-Fei Li e del suo team: nessuno insegna a un bambino come vedere, soprattutto nei primi anni. Lo impara da solo: con esperienze ed esempi del mondo reale. I suoi occhi sono come una fotocamera biologica che scatta una foto ogni 200 millisecondi.
Allo stesso modo bisogna dare agli algoritmi dati di insegnamento tratti dal reale nella stessa quantità e qualità. A partire da questa idea, ovvero addestrare gli algoritmi informatici utilizzando un enorme set di dati, è nato, grazie al crowsourcing di Amazon Mechanical Turk, il database ImageNet, con milioni di immagini prese dalla Rete, che sono state “pulite”, etichettate e catalogate negli anni da più di 50mila persone in diverse categorie e sottocategorie.
C’è un particolare algoritmo di apprendimento automatico che ben si presta a questi processi: parliamo della rete neurale convoluzionale. La sua organizzazione in strati gerarchici di nodi, che ricevono input e trasmettono output ad altrettanti nodi, l’ha resa l’architettura vincente per costruire modelli che, alimentati dai set di dati di ImageNet, riescono a insegnare ai computer a riconoscere le immagini.
Il DAM Intelligente: gestire contenuti multimediali a partire dalla rete neurale convoluzionale
Noi sappiamo che un DAM, acronimo di Digital Asset Management, è un archivio centralizzato che le aziende sfruttano per archiviare e gestire i propri contenuti.
Disporre di un unico hub di riferimento con cui tenere traccia del proprio patrimonio digitale ha l’indubbio vantaggio di riuscire a recuperarlo al bisogno tramite stringhe di ricerca e trasferirlo all’occorrenza con workflow condivisi a clienti, collaboratori, partner e altri soggetti esterni all’azienda. Ma questo presuppone una razionalizzazione preventiva degli asset con un’operazione manuale di tagging svolta dai dipendenti con grande dispendio di tempo.
Ma per fortuna ci siamo evoluti: il DAM Intelligente integra algoritmi AI, tra cui anche la rete neurale convoluzionale, per classificare automaticamente i contenuti, di qualsiasi tipo (file, multimedia, pagine html etc.)
Appena un’immagine o un video, che altro non è che un insieme di immagini in movimento, vengono caricati sulla piattaforma, la rete neurale estrae gli elementi visuali chiave che vengono associati a modelli che il sistema ha già acquisito in memoria dopo un periodo di training. Il risultato è la produzione automatica della tag che rappresenta il contenuto dell’immagine o del video.
L’auto-tagging di THRON
Come dicevamo prima, appena caricata sulla piattaforma, ogni risorsa digitale viene automaticamente popolata di tag e questo vale anche per le immagini e i video. Il guadagno è in risparmio di tempo ma anche nel miglioramento della tracciabilità della risorsa. Ma non è finita qui.
Un DAM Intelligente come THRON riesce ad addestrare i suoi modelli AI di riconoscimento visivo in modo che riescano a comprendere i concetti rilevanti per l’azienda e questo processo, che si basa sulla tassonomia (dizionario di tag) specifica del brand cliente, sta per essere sempre più perfezionato.
Sappiamo che il training dei motori AI è un processo lungo e dispendioso perché bisogna fornire milioni e milioni di dati di addestramento prima che siano in grado procedere in autonomia. I team di THRON sono all’opera per dar vita a un processo inverso: gli algoritmi, tra cui anche la rete neurale, impareranno strada facendo (learning by doing) in parallelo con i dipendenti che usano il DAM.
Basterà che le risorse umane tagghino contenuti utilizzando già la tassonomia specifica del brand e i motori AI, come dei bambini intelligenti e curiosi, guarderanno e impareranno a farlo a loro volta nel modo corretto.
Ecco quindi che, fornendo al sistema pochi contenuti visuali con identificati i tuoi loghi, i tuoi prodotti e le persone rilevanti, esso sarà in grado di riconoscerli (e quindi taggarle) ovunque. E questo è importantissimo soprattutto ai fini della loro gestione e valorizzazione.