Big Data o Smart Data? L’empowerment del clinico nell’era della sanità digitale

Ormai sempre più dati vengono raccolti ogni giorno. E il campo della salute non fa eccezione. Anzi, già nel 2012 il Ponemon Institute stimava che ben il 30% dei dati mondiali fossero prodotti in campo sanitario

Big data

Ormai sempre più dati vengono raccolti ogni giorno. E il campo della salute non fa eccezione. Anzi, già nel 2012 il Ponemon Institute stimava che ben il 30% dei dati mondiali fossero prodotti in campo sanitario. Le fonti sono molteplici: cartelle cliniche elettroniche, analisi di laboratorio, dati generati da dispositivi medici, così come la quantità di nuovi studi scientifici pubblicati di continuo. A questi dati poi si aggiungono quelli generati dai wearable devices e da apposite app (siano esse app “comuni” di salute/benessere, in cui il paziente ha dei dati che vuole mostrare al medico, o veri e propri digital therapeutics, basati su evidenze scientifiche e approvati dagli enti regolatori). Diventa quindi sempre più difficile gestire tutte queste informazioni e stare al passo con le nuove scoperte in campo biomedico.

Digitalizzazione dei dati clinici: sfide e opportunità

Da un lato, la digitalizzazione dei dati clinici può migliorarne l’accuratezza e la velocità con cui vengono raccolti, condivisi e impiegati effettivamente nel prendere decisioni. Dall’altro, la crescente mole di dati a cui ricercatori e clinici sono esposti può sfociare nel rischio di information overload. I medici, infatti, hanno bisogno non di avere più dati, ma di disporre di dati affidabili e rilevanti.

Per muoversi più agevolmente fra tutte queste informazioni diventano evidenti le potenzialità insite nello sviluppo di appositi algoritmi, specialmente per sostituire e automatizzare le operazioni più standardizzate e ripetitive. L’obiettivo è quello di supportare i clinici su più fronti, dal facilitare la diagnosi alla gestione del paziente e scelta del trattamento.

Una difficoltà tipica del mondo sanitario è insita nella tipologia dei dati. Infatti circa l’80% dei dati in campo medico è di tipo non-strutturato (ad esempio le note testuali inserite dal medico dopo una visita o immagini diagnostiche). Questi dati difficilmente possono essere utilizzati direttamente da sistemi di reporting o altri strumenti. Si cerca quindi di ricorrere alla cosiddetta intelligenza artificiale, con sistemi di Natural language processing (NLP), per convertire alcuni dati da non strutturati a strutturati, o applicando algoritmi di machine learning/deep learning dopo aver “etichettato” il dataset su cui allenare il sistema (ad esempio indicando “tessuto sano” vs “lesione tumorale” in immagini radiografiche).

L’obiettivo ovviamente non è quello di sostituire medici e operatori sanitari, ma di supportarne il loro lavoro, lasciando il “tocco umano” e permettendo una miglior e sempre più personalizzata gestione del paziente.

 

 

Sfide da risolvere Opportunità
  • Impatto sui flussi di lavoro dei clinici
  • Rischio di sovraccarico da troppi dati (information overload)
  • Interoperabilità fra sistemi diversi
  • Garantire la qualità dei dati raccolti
  • Interpretare i dati non strutturati
  • Privacy e sicurezza informatica
  • Adeguata facilità d’uso dei nuovi strumenti o training del personale sanitario
  • Raccolta dei dati più veloce e affidabile
  • Sviluppo di soluzioni per gestire meglio la crescente mole di dati
  • Facilità di condivisione
  • Automatizzare operazioni ripetitive
  • Gestione proattiva e personalizzata, con analisi predittive e sistemi di supporto alle decisioni cliniche (Clinical decision support systems)
  • Ottimizzazione della gestione delle risorse

Tabella 1. Sfide e opportunità derivanti dalla digitalizzazione dei dati clinici

 

Rimossa una barriera se ne crea un’altra?

Innanzitutto, per supportare realmente la pratica clinica in questo processo di digitalizzazione, bisogna evitare di creare nuove barriere. Di seguito troviamo 4 aspetti chiave da tenere a mente.

Impatto sui flussi di lavoro

Spesso, purtroppo, progetti nati con le migliori intenzioni falliscono perché non tengono conto dei flussi di lavoro esistenti. Questo finisce con l’aggravare il carico di lavoro di chi è coinvolto, anziché alleggerirlo. Per superare questo nodo, è fondamentale coinvolgere i principali stakeholders fin dalle prime fasi di sviluppo di queste nuove soluzioni tecnologiche. È impensabile ad esempio non coinvolgere chi dovrà effettivamente utilizzare il sistema o fruire degli output, per assicurarsi che la soluzione proposta risponda effettivamente ad un loro bisogno e sia compatibile con l’organizzazione e i carichi di lavoro presenti in quel contesto.

Interoperabilità

Un problema ricorrente in quest’ambito è poi la mancanza di interoperabilità fra diversi sistemi. Questo mina la facilità di condivisione che dovrebbe essere tipica del digitale. Quando va bene, la conseguenza è quella di dover introdurre più volte gli stessi dati su sistemi diversi (facendo perdere tempo a medici e pazienti, ad esempio nel recuperare analisi/referti fatti in altre strutture). In altri casi, invece, dati potenzialmente rilevanti sulla condizione clinica potrebbero proprio non essere considerati. In quest’ottica, l’auspicio è che l’adozione di standard condivisi e qualche spinta regolatoria/legislativa permettano di risolvere una volta per tutte questo annoso problema.

Facilità d’uso

Un altro ostacolo lo si incontra nel caso in cui l’utilizzo di questi nuovi strumenti richieda competenze digitali non presenti fra gli utilizzatori previsti (o non facilmente acquisibili). Il rischio è quello di far perdere più tempo nell’utilizzo in sé di questi strumenti digitali, rispetto al risparmio di tempo derivante dall’automatizzazione di alcuni processi. La naturale conseguenza sarebbe una scarsa adozione della “soluzione” proposta. Maggiore sarà la facilità di utilizzo e la user experience (UX) in generale, maggiore sarà l’adozione e soddisfazione degli operatori sanitari. Anche in questo caso, il coinvolgimento dell’utente finale fin dalle fasi iniziali di sviluppo è cruciale. Anche l’industria healthcare dovrà abituarsi a pratiche già ben consolidate nel mondo consumer, quali il beta testing prima del rilascio ufficiale e la necessità di continuare a migliorare il prodotto nel tempo.

Fiducia

Di non minor importanza è la fiducia di cui deve godere qualunque strumento, digitale e non, per entrare a far parte della pratica clinica. Vari sono gli aspetti che possono influenzare la fiducia di medici e pazienti verso nuovi strumenti digitali e meritano un approfondimento a parte. Fra i vari aspetti, vi sono però certamente sicurezza ed efficacia. Aspetti che sono influenzati dalla quantità e qualità dei dati a disposizione.

Quantità o qualità?

Le esigenze dei medici…

Per il medico la risposta è facilmente intuibile. È preferibile una discreta quantità di dati, affidabili e rilevanti a quella che è la pratica clinica, piuttosto che essere sommersi da una quantità eccessiva di dati e non sapere come interpretarli. Ed è qui che gli algoritmi devono correre in nostro aiuto. Servono i dati giusti al momento giusto.

… e degli algoritmi

Ma anche gli algoritmi potrebbero aver bisogno di dati per poter imparare a fornire le corrette raccomandazioni. Nel caso in cui siano basati su precise regole predeterminate (ad es. il calcolo di uno score clinico) ovviamente non ce n’è bisogno. Per compiti più complessi, però, è sempre più spesso il machine learning a spuntarla. Anziché dover trovare noi le regole da seguire, si lascia alle macchine stesse il compito di imparare. Per farlo, ovviamente, è necessario fornire ad appositi algoritmi qualcosa da cui imparare: i dati.

In questo caso, più dati vi sono a disposizione e più è facile che l’algoritmo impari correttamente. Ed è qui che solitamente entrano in gioco i famosi Big Data. Se è vero che è fondamentale disporre di un elevato numero di “esempi” con cui allenare un’intelligenza artificiale, è altrettanto vero che esempi sbagliati possono falsare il tutto. In maniera simile, anche parametri “non rilevanti” potrebbero, per caso, far credere che vi siano associazioni in realtà inesistenti.

Attenzione ai bias

Idem per quanto riguarda bias presenti nei dati utilizzati per il training. Emblematico è un caso che non viene dal settore sanitario, riportato da Zhao e colleghi nel 2017. Un modello di deep learning utilizzato per riconoscere e classificare ciò che stava accadendo in alcune immagini ha dimostrato di aver incorporato i bias di genere presenti nel dataset iniziale. Ad esempio, tendendo a considerare donne le immagini di persone che stavano cucinando. Tutto ciò perché, negli esempi da cui aveva imparato, solo il 33% di chi cucinava era uomo. Per migliorare l’accuratezza nel classificare i dati iniziali, il modello ha addirittura amplificato il bias iniziale. Consci del problema, i ricercatori hanno sviluppato metodi per limitare questo specifico errore, ma non sempre è così semplice accorgersi dell’introduzione di bias.

La “pulizia dei dati” (data cleaning) e la selezione delle dimensioni/caratteristiche da considerare in un modello predittivo/decisionale sono una parte essenziale del lavoro dei data scientist. Non a caso, nel settore, è famoso il detto “garbage in, garbage out”: anche il miglior modello del mondo, se opera con dati di scarsa qualità, non produrrà nulla di buono.

È fondamentale ovviamente non solo la qualità dei training data, ma anche quella dei dati successivamente raccolti, su cui si vogliono prendere decisioni. Altrimenti, l’output può essere anche formalmente corretto, ma non sarà riferito al paziente che ci si trova davanti. Basti pensare banalmente al caso di un paziente diabetico che deve calcolare il dosaggio di insulina per il bolo prandiale. Possiamo avere un calcolatore perfetto, contare tutti i carboidrati che verranno assunti e i vari parametri del caso, ma se il dato della glicemia inserito è errato, la risposta del calcolatore non sarà quella corretta per quel paziente.

Dalla digitalizzazione dei dati alla sanità digitale

Più che big data in sé, c’è quindi bisogno di smart data, che siano affidabili e rilevanti per la pratica clinica.

L’accesso a questi dati, con quantità e qualità sufficienti, è infatti una condizione di fondamentale importanza per lo sviluppo di strumenti diagnostici, terapeutici e di monitoraggio innovativi.

In questo modo, non solo sarà possibile sviluppare soluzioni che aiutino il medico a districarsi nell’enorme quantità di dati prodotti oggigiorno in sanità, ma si potrà permettere un’evoluzione della stessa pratica clinica.

 

Bibliografia essenziale

  • National Academies of Sciences, Engineering, and Medicine; Health and Medicine Division; Board on Global Health; Forum on Public-Private Partnerships for Global Health and Safety. Using Technology to Advance Global Health: Proceedings of a Workshop. Washington (DC): National Academies Press (US); 2017. 5, Push Versus Pull at the Community Level. https://www.ncbi.nlm.nih.gov/books/NBK538084/
  • Kong HJ. Managing Unstructured Big Data in Healthcare System. Healthc Inform Res. 2019;25(1):1-2. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6372467/
  • Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Or-donez, and Kai-Wei Chang. 2017. Men also like shopping: Reducing gender bias amplification usingcorpus-level constraints. InEMNLP. https://arxiv.org/abs/1707.09457

 

Homepage rubrica “Digital Insight Blog”