I dati, ce lo ripetiamo da giorni parlando delle fantomatiche 3-T, sono indispensabili per governare la fase 2. Ma cosa serve, davvero, per costruire un piano nazionale affidabile per tracciare e contenere il Covid19?
Per diversi motivi, sto seguendo la pandemia in corso praticamente da quando, a Codogno, si presentò il primo focolaio italiano. Era il 21 febbraio 2020. L’attenzione nacque principalmente dalla curiosità di capire cosa stesse succedendo e, grazie al prezioso lavoro della Protezione Civile, potendo disporre di dati giornalieri con diversi attributi d’interesse ho sviluppato un modello di analisi che mi permettesse da un lato di osservare il fenomeno, dall’altro di poter rispondere ad alcune domande che avevo in testa.
Occupandomi, da sempre, di dati ho avuto modo di ricordarmi e ripassarmi – in questi mesi – diverse lezioni che ho provato a raccogliere e condividere di seguito:
- Cultura del dato
- Responsabilità dell’informazione
- Analisti non ci si improvvisa
- Fuffa-in, Fuffa-out
- Correlazioni spurie, stare al proprio posto
Cultura del dato
C’è un filo conduttore, un comune denominatore, che lega il settore pubblico e il privato, la grande e la piccola azienda, pubblica amministrazione, grande distribuzione, sport, sanità: non c’è un solo ambito che non produca delle informazioni. Sono convinto (da sempre) che non esista un solo motivo per cui non sia utile saper raccogliere e osservare i dati per poter prendere decisioni rapide e corrette minimizzando i rischi derivanti dalle scelte fatte in seguito all’analisi delle informazioni in possesso.
Mi trovo molto d’accordo, ad esempio, con Jennifer Pahlka, fondatrice e CEO di Code for America, quando dice: “La nostra capacità di fare grandi cose con i dati farà davvero la differenza in ogni aspetto della nostra vita”. Oppure con Chris Anderson, quando scriveva nel 2012 “With enough data, the numbers speak for themselves”: con dati sufficienti, i numeri parlano da soli.
L’obiettivo fondamentale della raccolta, dell’analisi e della distribuzione dei dati è esclusivamente quello di poter prendere decisioni migliori. Non è, e non può essere, una mera collezione fine a sé stessa. Mi rendo conto che, nel tempo, è diventato sempre più chiaro che avere una solida cultura del dato è sempre più importante: per qualsiasi organizzazione, di qualsiasi dimensione, in qualsiasi mercato.
Seppure non sia disponibile una definizione precisa, sono in molti a dichiarare di aver adottato una “data culture” o un approccio “data-driven” (che, a mio avviso, è una quota parte di una cultura basata sui dati). Si è imparato che la cultura basata sui dati non può arrivare dall’oggi al domani, non è un interruttore che può essere acceso con un click, ma fa parte di un processo in più fasi, di un percorso che riguarda tanto le persone quanto la tecnologia. L’uso di strumenti di reportistica, di “data analytics”, la presenza di data scientist esperti non basta: serve anche una cultura organizzativa, che unisca competenza, talento, strumenti e processi.
Il dato, utilizzato in modo opportuno, diventa un potente abilitatore che permette di prendere decisioni basate su informazioni certe, tralasciando il più possibile quelle che sono scelte dettate da sensazioni, senza valutare numeri e indicatori: non si costruisce un futuro solido tirando dadi e facendo scommesse. Un vantaggio non trascurabile, a mio avviso, è l’avere a che fare con matematica e statistica che, pur con tutti i limiti che potrebbero avere alcuni dati con cui potremmo avere a che fare (in termini di attendibilità e precisione), restano il modo più intelligente di guardare a un fenomeno, limitandone la soggettività interpretativa individuale ed emotiva. Cosa molto facile, ad esempio, in uno scenario di pandemia: dove ogni singolo “numero gestito” è, in realtà, una persona che sta lottando su un letto d’ospedale, oppure è deceduta o, certamente meglio, guarita.
Si può (e si deve) coltivare la fiducia nei dati garantendone l’accuratezza, la sicurezza e l’affidabilità della sua provenienza:
- le organizzazioni devono fare in modo che i dati siano corretti, precisi e accessibili a tutti coloro che hanno il diritto di utilizzarli;
- ne va garantita la trasparenza;
- vanno raccolti nel modo più granulare possibile, dotandoli di relazioni con il contesto di riferimento.
La presenza di silos, ovverosia “contenitori” distinti, che rendono difficile una comunicazione e condivisione del patrimonio informativo, ha l’effetto collaterale di rendere molto difficile la correlazione tra le informazioni (anche perché i dati devono poter essere messi in relazione tra loro anche se appartenenti a domini diversi e, in apparenza, scollegati tra loro). La disponibilità dei dati può contribuire ad avere nuove idee grazie alla diversa prospettiva con la quale vengono visti, capiti, sperimentati, interpretati: immagino sia capitato a molti di vedere alcune correlazioni intuite da persone che, all’interno dell’organizzazione, si occupano di tutt’altro rispetto all’ambito in oggetto nelle analisi.
Come mi piace ricordare spesso, anche Cristoforo Colombo scoprì l’America volendo andare in India. Non tutto si basa sulla tecnologia: è la cultura, non sono gli strumenti, a portarci verso un’organizzazione davvero guidata dai dati. Come dice la famosa citazione dell’economista Peter Drucker: “Culture eats strategy and technology for breakfast”.
Responsabilità dell’informazione
In queste settimane, i dati – ancora una volta – hanno dimostrato di essere una risorsa per affrontare anche le criticità della società (globale). Tre sono i temi che credo sia utile ricordare e sottolineare:
- Data Governance: il processo di gestione di disponibilità, usabilità, integrità e sicurezza dei dati nei sistemi, basato su standard e politiche che ne controllino anche l’utilizzo. Una governance efficace garantisce che i dati siano coerenti e affidabili (nel tempo) e non vengano utilizzati in modo improprio.
- Data Quality: una misura della condizione dei dati basata su fattori come accuratezza, completezza, coerenza, affidabilità. La misurazione dei livelli di qualità può aiutare le organizzazioni a identificare gli errori (dei dati) che devono essere risolti e valutare se quanto raccolto e gestito risulta idoneo a soddisfare gli scopi previsti.
- Data Science: un campo interdisciplinare che utilizza processi, algoritmi, metodi e sistemi scientifici per estrarre conoscenze. La scienza dei dati è correlata alla statistica, al data-mining, ai big data, all’intelligenza artificiale. Fondandosi in maniera molto forte su integrazione dei dati, algoritmi e capacità tecnologiche, concentra i suoi sforzi nel risolvere analiticamente dei problemi complessi.
La “data governance”, la “data quality”, la “data science” possono aiutarci a ridurre i rischi e anche a elaborare strumenti per la loro previsione, per una corretta pianificazione, per permetterci di adottare misure di prevenzione, invece di ritrovarci a “spegnere incendi” e a dover gestire emergenze e criticità. Va sviluppata una cultura e un’educazione critica che possa riconoscere il valore dei dati e, perché no, studiare protocolli e metodologie condivise (anche, e soprattutto, a livello internazionale) per raccogliere i dati in maniera utile all’organizzazione (e la società è, di fatto, l’organizzazione più importante di tutte).
Se è vero che esiste una responsabilità dei dati, questa è strettamente correlata a tre ambiti fondamentali:
- Condividere: riconoscere il potenziale valore dei dati al fine di aiutare a migliorare la vita delle persone.
- Proteggere: se non vengono prese precauzioni, la condivisione dei dati può essere dannosa. Il problema è molto più ampio della privacy in senso stretto, dovendo analizzare e mitigare i rischi lungo tutto il ciclo di vita dell’informazione (raccolta, memorizzazione, elaborazione, condivisione, analisi, utilizzo).
- Agire: molti progetti permettono l’evidenza di nuove intuizioni che restano fini a sé stesse. Ridurre al minimo questo valore non sfruttato, da aggiungersi anche alla conseguente perdita di tempo e di risorse, diventa un obbligo.
In un’epoca in cui praticamente ogni azione viene mediata dal computer o dai nostri smartphone, lasciando di fatto continue tracce digitali, diventano fondamentali diritti (la privacy) e doveri (la trasparenza e la responsabilità).
Analisti non ci si improvvisa
La disponibilità dei dati non è certamente la panacea di tutti i mali: a volte piace seguire le mode o parlare tramite buzzword che riempiono presentazioni e discorsi. È certamente un bene quando le informazioni sono disponibili, ma è utile ricordare che il dato, di per sé, non ha alcun valore se non se ne estrae la sua “intelligenza” cioè il valore che l’informazione può generare attraverso la sua analisi e da cui si possono poi impostare ragionamenti, attività, iniziative, scelte.
La “data monetization” non va vista solo come una fonte di ricavi in senso stretto, quanto piuttosto come il riuscire a trarre un vantaggio dal patrimonio informativo al di là degli economics: il dato è una risorsa centrale nella corretta gestione di qualsiasi realtà anche se non utilizzato per aumentare direttamente i ricavi. Ovviamente, i dati non devono essere solo raccolti, ma anche compresi, correlati, arricchiti e analizzati, anche attraverso diverse prospettive e, per poterlo fare, c’è bisogno di professionisti con una formazione e un’esperienza adeguata.
Il film Moneyball (per la regia di Bennett Miller, 2011), che consiglio sempre a chi volesse comprendere meglio l’ambito della data analysis, racconta molto bene una vera storia di trasformazione del dato da mera informazione a pregiato valore. Si basa sul libro The Art of Winning an Unfair Game di Michael Lewis e racconta una storia vera: siamo nel 2002 e, usando l’analisi dei dati e la teoria espressa nel film, il general manager Billy Beane assume i migliori giocatori che poteva permettersi con un budget estremamente limitato. Non farò spoiler del finale, ma basti sapere – al momento – che, con circa 41 milioni di dollari di stipendi, gli Oakland hanno gareggiato (e vinto) con squadre più prestigiose, come gli Yankees che spesero più del triplo (oltre 125 milioni di dollari).
I dati, nel tempo, sono diventati sempre più numerosi: per via della facilità di trattarli, per la disponibilità di volumi di immagazzinamento sempre più grandi, per la possibilità di memorizzazione a basso costo e alla portata di tutti, per la semplificazione di infrastrutture e strumenti, per la rapidità di “copia” che permette oggi la rete internet. E sempre più complessi: dati storici e real-time, dati strutturati e non strutturati, dati sotto forma testuale e dati multimediali, e così via. Il rischio di lasciarsi sfuggire informazioni importanti e utili, o perdere qualità, diventa quindi sempre più serio: proprio la complessità descritta sopra potrebbe ridurre la capacità di esplorare tutte le possibili opportunità offerte da quanto si ha a disposizione.
Allo stesso modo, però, aumenta anche la possibilità di arrivare rapidamente a risultati come quello che “stavamo cercando” e non quello che “potremmo trovare”.
Fuffa-in = Fuffa-out
Questa è, di fatto, una delle equazioni più chiare e – credo anche – più note. In un certo senso uno dei principi cardine dell’informatica: se l’input è inaffidabile lo è anche il risultato della sua elaborazione (output). Per i miracoli non siamo ancora pronti e certe mirabolanti risoluzioni si possono vedere solo al cinema.Se abbiamo delle porcherie in ingresso nei sistemi, avremo delle porcherie in uscita: le magie non esistono e non è possibile trasformare la lana in seta.
Volendo, su questo tema, si può tornare a ragionare di data quality ma, in realtà, credo sia utile allargare i confini del ragionamento non solo all’aspetto della veridicità delle informazioni stesse. Come scrive Wikipedia: la qualità dei dati, in statistica, è la aderenza dei dati rilevati alla realtà concreta che si vuole misurare. Essa è definita da caratteristiche di validità e di conformità al tipo di analisi che viene effettuata.
La qualità, però, deve essere definita anche in relazione al modello dati, agli attributi presi in esame e alla loro definizione. Facciamo tre esempi pratici restando in tema di pandemia:
- Un attributo definito come “dimessi / guariti” ha senso? Ovverosia, un paziente dimesso potrebbe non essere guarito? Sì. E, allora, la sua definizione di partenza diventa errata perché, semplicemente, mi permette di associare al valore memorizzato più di un significato. Questa scelta implica che il dato gestito diventi oggetto di discussione, meno chiaro e meno preciso.
- Se gestisco un flusso giornaliero in cui raccolgo delle misure (ad esempio il numero di contagiati odierno) e, per qualsivoglia ragione, una parte di questi dati non riesce ad arrivare in tempo utile per il caricamento: il dato mancante riferito a oggi ha senso aggiungerlo (sommarlo) al dato del giorno successivo? Non sarebbe più corretto inviare con il successivo flusso i dati ma sempre con il riferimento temporale corretto? Se opto per la scelta di sommare quanto mancante ai dati del giorno successivo non sarò mai in grado di conoscere il vero numero di contagiati di entrambi i giorni: oggi e domani.
- Se ogni regione italiana adotta, potenzialmente, un protocollo differente in merito alla gestione dei tamponi (può esserci chi ne effettua due, chi tre, per poter definire un paziente come “guarito”), come posso capire con precisione il numero di persone che sono state oggetto di esame se ogni tampone effettuato viene memorizzato a sistema? Se poi il protocollo di alcune regioni cambia nel tempo, non potrò nemmeno trovare un’espressione che mi dica che il numero delle persone che hanno effettuato l’esame sono una percentuale precisa del totale.
Provando a semplificare: avere un errore nella definizione di una data di nascita potrebbe impedirmi di fare gli auguri di buon compleanno a una persona. Ma un’analisi sui dimessi / guariti, ritenendo di aver a che fare con un numero che rappresenta delle persone fuori pericolo mentre non lo sono ancora, potrebbe portarmi a delle scelte disastrose.
La qualità è, in senso generale, una misura per l’usabilità dei dati e, per averla, diventa indispensabile che un set di dati sia:
- Accurato: dal latino “fare con cura”. Ho valori precisi e rappresentativi?
- Tempestivo: al tempo o al momento giusto (quindi utile). I tempi di messa in disponibilità sono coerenti rispetto agli scopi per cui li fornisco?
- Completo: che ha tutte le sue parti. Ho tutto quello che mi serve, tutto quello che è necessario?
- Coerente: dal latino “essere strettamente unito”. Ho dati contraddittori tra loro?
- Conforme: di forma uguale. Sto rispettando gli standard definiti?
- Integro: intatto. Ho dati che corrispondono a quanto immesso nel sistema?
- Univoco: con un significato solo e ben determinato. Se ho la stessa informazione in più punti (se proprio non posso farne a meno), ha lo stesso valore?
Se – con i dati – decidiamo una parte del nostro futuro, aumentare la consapevolezza circa il peso che dati di alta qualità hanno nel supportare le decisioni, diventa sempre più importante.
Correlazioni spurie: ovvero stare al proprio posto
La correlazione spuria venne descritta per la prima volta dallo statistico britannico George Udny Yule, nel 1926, all’interno del volume Why Do We Get Some Nonsense Correlations Between Time Series? A Study in Sampling and the Nature of Time Series, dopo aver osservato e analizzato in uno studio una correlazione tra percentuale di matrimoni con rito religioso e tasso di mortalità. Come ha fatto lo studioso, potrebbe essere (abbastanza) facile per ciascuno di noi rilevare come il numero di matrimoni e il numero di rondini in cielo abbiano una forte correlazione tra loro.
Ma la relazione tra i due fenomeni non dipende dal fatto che uno dei due influenzi l’altro, quanto semplicemente perché in alcuni paesi le rondini compaiono durante le loro migrazioni in primavera e autunno che sono gli stessi periodi preferiti per convolare a nozze. Si tratta di apparenti collegamenti fra fenomeni che non hanno alcun nesso causale.
Tre esempi che sono diventati famosi nel tempo:
- Tra il 2000 e il 2009, la quantità di formaggio consumata pro-capite negli Stati Uniti ha la stessa tendenza del numero di persone morte asfissiate nelle loro stesse lenzuola.
- Tra il 1999 e il 2009, la spesa degli Stati Uniti nella tecnologia spaziale ha la stessa tendenza dei suicidi avvenuti per strangolamento e impiccagione.
- Tra il 2008 e il 2010, il numero di morti per aggressione da parte di un cane ha la stessa tendenza del fatturato delle vendite online del Black Friday
Nella sostanza, se due fenomeni risultano statisticamente correlati tra loro, non significa necessariamente che tra essi esista un diretto legame di causa-effetto (relazione del tutto casuale, ovverosia spuria). In inglese, come scrivevo sopra, il termine utilizzato è nonsense correlation: a mio avviso, rende ancora più chiaro e comprensibile il problema.
Una correlazione se presa da sola (anche se molto evidente) non può evidenziare nulla sui rapporti causali che legano le variabili in esame, in quanto potrebbe esistere una terza variabile che lega le due in esame (la relazione tra rondini e matrimoni, molto probabilmente, sono le favorevoli condizioni meteo e la temperatura mite). In ambito di analisi dei dati, diventa molto serio il pericolo di trovare correlazioni spurie proprio mentre si analizzano dati sperimentali, magari di fenomeni poco conosciuti, tentando di comprendere il fatto che descrivono. In sostanza, non basta osservare due tendenze simili, o “sovrapponibili”, per dimostrare una relazione tra gli attributi in esame.
Non essendo uno scienziato o un virologo, nell’analisi dei dati della pandemia, mi sono ben guardato dal fare congetture o trarre conclusioni tramite possibili similitudini di curve di contagio e altre possibili evidenze non direttamente correlate (ad esempio le polveri sottili): non ho alcuna comprensione dei fenomeni per farlo, non basta l’aderenza di due curve a dimostrarlo. Il mio suggerimento, quindi, è sempre quello di muoversi con attenzione e restare nel proprio ambito di competenza e arricchire le analisi e gli studi con le professionalità che potrebbero aumentarne la comprensione e, quindi, la ricchezza e il valore.
I dati sono affascinanti, ci permettono di leggere il passato, il presente e provare a ragionare (e predire) il futuro. Ma, averli, non significa necessariamente sapere prendere delle decisioni. Non basta la padronanza di tecniche e strumenti, né avere chiaro sia il valore della consistenza, sia l’importanza della gestione dell’informazione. È soprattutto importante la cultura (dal latino “coltura”, coltivare) che va acquisita tramite studio ed esperienza, tenendo bene a mente che i dati non sono solo strettamente legati al business e al fatturato.