Un sistema messo a punto dalla Northwestern University garantisce valutazioni simili sui paper analizzati rispetto ai processi di revisione umana. Un modo per velocizzare la sfida al Sars-Cov-2
Uno strumento di intelligenza artificiale che ci consenta di revisionare l’enorme mole di studi scientifici, volendo anche quelli usciti in questi mesi sul nuovo coronavirus. Dando la precedenza a quelli più promettenti e che meritano ulteriori sperimentazioni. A metterlo a punto sono stati i ricercatori della Northwestern University coordinati da Brian Uzzi, fra le altre cose condirettore dell’Istituto sui sistemi complessi dell’ateneo dell’Illinois, che ne hanno descritto il funzionamento e le prestazioni su Pnas, la rivista specializzata dell’Accademia americana delle Scienze.
Un’alternativa alla revisione umana
Il sistema fornisce un’alternativa alla revisione umana, molto più lunga e dispendiosa in termini di tempo. Un approccio certosino che tuttavia viene spesso saltato o accorciato, in questo periodo, sacrificando così la sicurezza sull’altare della rapidità che una pandemia come quella da coronavirus pretende. E che spesso rischia di traghettare al grande pubblico notizie poco accurate o speranze mal riposte. Insomma, ci sono troppi paper sul tema da rivedere e analizzare, anche perché la ricerca a cui stiamo assistendo in queste settimane – lo dice anche la rapidità di sviluppo dei vaccini – è probabilmente fra le più spedite mai avvenute nella storia della medicina.
La soluzione messa a punto dalla Northwestern sfrutta dunque un algoritmo per stimare quali studi abbiano prodotto risultati che hanno buone probabilità di essere replicati in altri test in laboratorio e non solo. Esistono ovviamente modelli di assessment per valutare la replicabilità degli esperimenti basati sulle valutazioni degli scienziati: un processo completo ed esaustivo ma, appunto, spesso molto lungo. Ci sottrae del tempo di cui, in questa fase, non disponiamo. La replicabilità, vale la pena ricordarlo, è la capacità di effettuare ulteriori studi con popolazioni differenti che producano evidenze uguali o comunque paragonabili.
Il processo Score, troppo lungo in certe fasi
Basti pensare al Systematizing Confidence in Open Research and Evidence (Score), un processo creato dall’agenzia militare di ricerca Darpa che in media impiega 314 giorni per emettere un giudizio. Secondo Uzzi, quel processo ha due problemi di fondo. Il primo è che ci mette appunto troppo per muovere verso la seconda fase del test e il secondo è che quando gli esperti sono occupati a rivedere i lavori di altri, be’, non sono impegnati a svolgere le proprie ricerche. O sono comunque costretti a rallentarle.
Così il team dello scienziato ha addestrato un modello su testi e statistiche di oltre due milioni di abstract di studi, fornendo poi come verifica un altro set di indagini da valutare, in precedenza già valutate da esperti umani. Non sono solo i dati a essere finiti sotto la lente ma anche l’approccio “narrativo” che gli autori dei paper hanno usato per illustrare i loro risultati. La convinzione è infatti che alcuni pattern di spiegazione rivelino meglio di altri la fiducia degli scienziati nelle loro scoperte. Una sfumatura che non sempre i revisori in carne e ossa sono in grado di individuare.
I risultati: accuratezza paragonabile
I risultati? Comparati alle valutazioni dello Score della Darpa i giudizi sono apparsi ugualmente accurati e precisi. Solo che l’algoritmo ci ha messo pochi minuti e gli esperti che hanno seguito il protocollo alcuni mesi. La soluzione ideale, anche secondo gli autori, sarebbe una giusta via di mezzo in cui alla revisione umana venga affiancato il supporto dell’intelligenza artificiale. Velocizzare la valutazione significa anche prendere decisioni più rapide su come assegnare i finanziamenti e dedicare tempo alle ricerche col maggior tasso di successo stimato. Tutto questo potrebbe ovviamente già essere messo alla prova anche con i paper relativi a Sars-Cov-2.