Hillary Clinton contro Donald Trump. I sociologi della Cornell University, con il Levich Institute and Physics Department del City College of New York, hanno riportato una ricerca che verte sull’analisi dei big data di Twitter, al fine di prevedere le tendenze elettorali alle prossime presidenziali USA. Ecco i risultati
La consuetudine di oggi nello studio dei comportamenti sociali sulle piattaforme del web 2.0 è quella dell’osservazione delle tendenze di opinione attraverso l’analisi dei big data, ancor meglio se in real-time. Nonostante l’importanza che le piattaforme social-mediali oggi ricoprono nella vita di (quasi) ognuno di noi, non si è riusciti ancora a ottenere una prova scientifica che l’attività social sia in grado di fotografare perfettamente il parere generale della popolazione.
Sono stati sviluppati strumenti analitici, che conciliano la statistica, con la fisica delle reti complesse, la teoria di percolazione (che ha a che fare con la formazione di “oggetti” correlati in mezzi disordinati), l’elaborazione del linguaggio naturale e il machine learning. Grazie a software che sfruttano tali intelligenze, è possibile dedurre l’opinione degli utenti di Twitter a proposito dei candidati alle elezioni presidenziali USA 2016.
Utilizzando un insieme di dati su larga scala, contemplando circa 73 milioni di tweet raccolti, dal 1 giugno al 1 settembre 2016, sono state analizzate le reti sociali costruite dagli utenti di Twitter. Si è potuto da subito constatare come la tendenza del supporto ai candidati da parte degli utenti seguisse con notevole precisione (circa il 90%) il sondaggio nazionale svolto dal “The New York Times” (costantemente aggiornato), che rappresenta un aggregato di centinaia di sondaggi indipendenti.
Ancora più eclatante il fatto che Twitter, secondo l’analisi della Cornell University, pare prevedere l’aggregato del NYT di molti giorni, da 6 a 15 in media, dimostrandosi come una piattaforma in grado di lanciare un segnale precoce della tendenza di voto a livello nazionale.
Campione d’analisi su Twitter e metodi
Diverse ricerche scientifiche hanno dimostrato il potenziale della piattaforma di microblogging Twitter come indicatore per analizzare il sentiment dell’audience online, delle performance di vendita nel web marketing o addirittura dell’andamento dei mercati azionari generali. Benché in Italia, secondo gli ultimi dati Audiweb (by Nielsen), gli utenti attivi di Twitter siano diminuiti, negli Stati Uniti crescono (secondo il Pew Research Center), anche se ad una velocità irrisoria a confronto di altre piattaforme social in continua ascesa come Snapchat e Instagram.
Twitter, negli USA, resta così il principale ambiente digitale per le discussioni politiche, e una serie di studi hanno sondato le possibilità di previsione dell’esito di elezioni politiche dai dati aggregati del social, con risultati a volte contrastanti a confronto con il reale.
Effettuare una content analysis su Twitter non è così immediato: infatti sappiamo che spesso, su questo social, dovendo fare i conti con i famigerati 140 caratteri, ci scontriamo con “licenze poetiche” tra le più strampalate: abbreviazioni, errori ortografici (fatti apposta!), hashtag, menzioni, emoji, link. Risulta meno complesso effettuare una sentiment analysis, ossia l’estrazione del senso dai dati aggregati, attraverso, ad esempio, parole ricorrenti (buzzwords) ed emoji. Questo approccio permette di suddividere in diverse categorie (partendo da quella più generale, positivi VS negativi) gli utenti di Twitter.
Come si diceva in apertura, il campione preso in esame riguarda la bellezza di 73 milioni di tweet, in una finestra temporale compresa tra il primo giugno e il primo settembre 2016, attraverso la piattaforma open Twitter Search API. I tweet avrebbero dovuto citare i due candidati alla Casa Bianca, Donald Trump e Hillary Clinton, attraverso menzioni (@realDondaldTrump o @HillaryClinton), oppure contenere semplicemente i cognomi Trump e Clinton (con o senza hashtag).
Risultati
Nella figura “a”, la zona verde (SCGC – strongly connected giant component) rappresentati i collegamenti diretti di tweet con la query (ossia quali tweet contengono il nome o la citazione dei candidati), quella rossa (WCGC – weakly
connected giant component) le interazioni coi precedenti, ossia i tweet di risposta, i retweet e i like. I punti in grigio all’esterno sono tweet poco rilevanti ai fini della statistica. La figura “b” rappresenta la visualizzazione di una rete di nodi su un dataset giornaliero preso in esame dal team di ricerca.
Si parte dal nucleo verde con tweet altamente attinenti, alla corona esterna grigia, con i tweet meno attinenti. Cosa differenzia i tweet molto attinenti da quelli poco attinenti? I primi, come detto, rispondono direttamente alla query, i secondi contengono elementi che rimandano alle elezioni (ad esempio contenenti l’hashtag #debate). La dimensione del SCGC varia tra circa 15 mila e 35 mila utenti, ed è approssimativamente 10 volte più piccola della WCGC (come si può notare dalla figura “a”). La WCGC è l’area più soggetta a modificazioni di grandezza: ad esempio il 6 giugno l’Associated Press ha annunciato che Hillary Clinton affermava di avere dalla sua abbastanza delegati per essere il candidato del Democratic Party. Bernie Sanders ha poi ufficialmente lasciato campo libero alla “compagna” di partito il 12 luglio. I picchi di attività legati a questi due eventi si sono riscontrati maggiormente nella WCGC piuttosto che nella SCGC.
È stato così possibile dedurre l’opinione degli utenti di Twitter. La figura seguente mostra gli hashtag con un sentiment pro-Trump (rosso), anti-Clinton (arancione), pro-Clinton (blu) e anti-Trump (viola). Due gruppi principali, costituiti dall’area pro-Trump e quella anti-Hillary sulla parte superiore, e quella pro-Clinton e anti-Trump sul fondo, indicando una forte relazione tra l’uso di hashtag in queste due coppie di categorie. Si identificano più hashtag nella parte pro-Trump (57) rispetto a quella pro-Hillary (24), mentre sono circa lo stesso numero nelle sezioni anti-Trump (36) e anti-Hillary (38).
Dai dati emerge che la maggioranza degli utenti nella SCGC è generalmente a favore di Donald Trump, ovviamente per quanto riguarda la maggior parte del tempo di osservazione della ricerca. Tuttavia, la situazione è invertita, con un maggior favore verso Clinton, quando si prende in considerazione l’intero dataset, quindi anche la sezione WCGC. In poche parole ciò significa che Clinton ha più sostenitori nell’audience generalista di Twitter, quella non fortemente schierata per un candidato piuttosto che l’altro. Inoltre i sostenitori di Clinton non sono così attivi come i sostenitori di Trump, tranne quando c’è un grande evento (come i #debate).
Come già accennato all’inizio dell’articolo, i risultati ottenuti dalla ricerca sono in linea con la media dei sondaggi effettuati dal NYT in quell’arco di tempo, dando la Clinton in vantaggio sul concorrente (ad oggi, 19 ottobre, di 6 punti percentuali).
I risultati ottenuti hanno comunque un margine di incertezza assoluta di ± 3%. Questo significa che, ad oggi, Hillary Clinton parrebbe comunque avanti rispetto a Donald Trump: il prossimo 8 novembre scopriremo se la ricerca della Cornell University ha azzeccato il pronostico indagando i big data di Twitter.