Solo in Cina sono stimate 170 milioni di telecamere di sorveglianza (una ogni 12 abitanti circa) e non è un caso che la startup più finanziata nel mondo, relativamente all’AI sia cinese e si occupi prevalentemente, appunto di visione artificiale.
Spesso non si comprende quanto sia già qui e ora, utilizzata in maniera diffusa, con strumenti potenti, accessibili (e spesso anche gratuiti!), così come non si comprende quanto sia in realtà basata su una matematica che si può (naturalmente) ingannare.
Per contribuire a demistificare questo mondo emergente prenderò spunto da un paio di temi e parlerò di un ambito dell’AI che a Genova si è sviluppato molto negli anni, grazie soprattutto all’automazione postale ed alla competenza di parecchie persone di un’università che fatica sempre a raccontarsi: La visione artificiale.
La Computer Vision, o visione artificiale è ormai diffusa, distribuita e potente. Ce ne rendiamo conto quando sblocchiamo il telefono o il computer con il nostro volto.
Spesso non ci rendiamo invece conto che è grazie a questo ambito di sviluppo che avremo auto a guida autonoma, UAV (Droni autonomi), supermercati che non avranno bisogno di casse, e che, grazie alla stessa tecnologia, si stanno facendo progressi enormi in medicina (nella diagnostica per immagini), nell’analisi di immagini satellitari, o nella rilevazione di cosa accade nel mondo tramite le telecamere di sorveglianza.
Solo in Cina, ad esempio, sono stimate 170 milioni di telecamere di sorveglianza (una ogni 12 abitanti circa) e non è un caso che la startup più finanziata nel mondo, relativamente all’AI sia cinese e si occupi prevalentemente, appunto di visione artificiale.
Per sollevare più di un pensiero, in merito, riporto un articolo del NYTimes di aprile dove si racconta di come il governo cinese abbia utilizzato telecamere di sorveglianza e AI per tracciare una minoranza etnica, gli Uighur.
Ma a che livello siamo con la visione artificiale comparata a quella dell’uomo e che strumenti ci sono?
Prendiamo l’esempio di YOLO un sistema di riconoscimento delle immagini Open Source e quindi gratuitamente utilizzabile, e basato su darknet un framework sempre Open Source e gratuito per le reti neurali artificiali.
Il video di esempio riportato sul sito fornisce un’idea di un sistema, già addestrato, con un pezzo di video di un film:
Questo da l’idea di come uno strumento completamente gratuito e disponibile, su sistemi che hanno potenza di calcolo ormai molto elevata (e ormai economica), possa rilevare abbastanza precisamente (con una confidenza del 78.6%) 40-90 immagini al secondo.
Per chi fosse curioso dei dettagli, il paper di YOLO su Arxiv è disponibile qui.
Oltre a questi sistemi, che hanno comunque delle complessità nell’installazione, configurazione ed addestramento (laddove non si scelga un sistema pre-addestrato), esistono una serie di servizi, che consentono di partire sfruttando la Computer Vision rapidamente ed efficacemente: Tra questi molto interesanti quelli della Vision AI di Google o i servizi cognitivi di Microsoft.
Questi sistemi, fantastici e potenti, si basano comunque su sistemi matematici, sono ispirati alla visione biologica, ma trasformano quello che noi vediamo e percepiamo in vettori, numeri, e su quello basano la loro capacità di riconoscere cosa c’è in una determinata immagine o in un video.
In un lavoro recente di un’università fiamminga si mostra come sfruttando una stampa a colori costruita appositamente, si diventa invisibili a questi sistemi di riconoscimento.
Queste tecniche, utilizzate non solo per confondere sistemi di computer vision, sono state definite come Adversarial Machine Learning e si basano sul fatto che la maggioranza dei sistemi di Machine Learning (alla base della AI moderna) si addestra su dati reali “puliti” (nessuno è mai andato in giro con un cartello del genere appeso al collo!).
Ora vi lascio, scusatemi, devo andare a finire di dipingere il mio cartello…
Stay Tuned