Intelligenza artificiale in medicina: tra hype, incertezza e scatole nere

Raffaele RasoiniRAFFAELE RASOINI, Laureato in Medicina nel 2002 e specializzato in Cardiologia nel 2006, lavora presso l’Istituto Fiorentino di Cura e Assistenza e presso centri medici dell’area fiorentina. Membro del gruppo Florence EBM Renaissance e del gruppo ISO-Spread, è interessato ai temi dell’evidence based-decision making nella multimorbidità, dell’overdiagnosis e delle applicazioni dell’intelligenza artificiale in medicina.

FADERICO CABITZA, Università degli Studi di Milano-Bicocca, Milano. Gruppo Florence EBM-Renaissance.

CAMILLA ALDERIGHI, CESMAV - Centro Studi Medicina Avanzata, Firenze. Gruppo Florence EBM-Renaissance.

GIAN FRANCO GENSINI, CESMAV - Centro Studi Medicina Avanzata, Firenze. Gruppo Florence EBM-Renaissance.

L’ultima decade ha testimoniato un netto incremento dell’interesse verso le applicazioni dell’intelligenza artificiale in medicina. Sebbene questi strumenti di supporto alle decisioni abbiano notevoli potenzialità, è necessario analizzare criticamente le possibili conseguenze inattese derivanti da un loro impiego capillare in medicina.


Parole chiave: intelligenza artificiale, machine learning, deep learning, incertezza, deskilling.

Titoli che si riferiscono alla “intelligenza artificiale” si impongono ormai quasi quotidianamente alla nostra attenzione su giornali, riviste, siti a tema tecnologico e blog. Tuttavia, le radici di questa impresa intellettuale sono state poste molto prima, tra gli anni ’40 e ’50 del secolo scorso, quando McCulloch e Pitts, nel 1943, elaborarono un modello di neuroni artificiali che agivano secondo schemi influenzati dai neuroni circostanti, generando così un primo esempio di queste tecnologie. Dopo alcuni decenni di investimenti e di interesse crescente, emersero tuttavia alcune difficoltà nell’ottimizzazione di questi sistemi, che condussero ad una disillusione riguardo alle attese capacità dell’automazione di supportare in modo vantaggioso le attività degli esseri umani nei diversi campi.
A seguito di ciò, a partire dagli anni ’70 del secolo scorso, ebbe inizio una significativa riduzione degli investimenti e dell’attenzione verso i sistemi di intelligenza artificiale, fino a quel lungo periodo di relativo disinteresse per queste tecnologie, talora denominato “l’inverno dell’intelligenza artificiale”.
Negli ultimi dieci anni questa tendenza si è invertita. La disponibilità di vastissimi insiemi di dati raccolti attraverso sistemi informatici e il progressivo miglioramento di questi stessi sistemi in termini di velocità e capacità di elaborazione hanno portato alla rinascita sia della ricerca che degli investimenti e ad un interesse crescente verso lo sviluppo delle applicazioni di intelligenza artificiale in molteplici discipline.
Quando evochiamo il tema dell’intelligenza artificiale, infatti, vengono facilmente alla mente alcuni casi che in questi ultimi anni hanno raccolto l’attenzione mediatica e nutrito l’immaginario collettivo, come le auto con guida automatica che secondo molti rivoluzioneranno le modalità di trasporto e addirittura di viaggio; oppure, prima ancora, la vittoria di Watson, la nota piattaforma di IBM, al gioco a quiz “Jeopardy!” e quella di AlphaGo, sviluppato da Google, all’antica dama cinese denominata “Go”, in entrambi i casi contro i campioni storici dei rispettivi giochi.
Tuttavia, anche senza bisogno di ricorrere ad argomenti di interesse giornalistico, i sistemi di intelligenza artificiale si sono già inseriti in molti settori della nostra vita e ci supportano quotidianamente in numerose attività. È il caso, per citare alcuni esempi:

• delle “assistenti vocali” Siri, Cortana o Alexa, che amplificano le capacità dei nostri smartphone e dei nostri computer avvalendosi di algoritmi di “elaborazione del linguaggio naturale”;
• dei motori di ricerca e dei social network, che personalizzano i risultati delle nostre ricerche o le notifiche che ci vengono presentate, fornendo priorità ad alcuni risultati rispetto ad altri e indirizzandoci messaggi pubblicitari personalizzati;
• dei filtri anti-spam costruiti per proteggere le nostre caselle di posta da messaggi indesiderati e potenzialmente pericolosi;
• dei sistemi che ci raccomandano nuovi film da noleggiare o nuovi libri da leggere sulla base delle nostre scelte precedenti o di quelle prese da altri consumatori dai nostri stessi gusti.  
• dei videogame, in cui possiamo fronteggiare avversari virtuali che simulano il comportamento di esseri umani;
• delle molteplici applicazioni sui nostri smartphone che riescono a “riconoscere” luoghi, volti o oggetti.

Anche in medicina, l’esplosione dell’interesse e quindi della ricerca sull’intelligenza artificiale hanno permesso notevoli progressi negli ultimi anni. In particolare, la ricerca in campo medico si è prevalentemente focalizzata su quella applicazione dell’intelligenza artificiale denominata machine learning, espressione traducibile come “apprendimento automatico”.
I sistemi basati sul machine learning permettono l’automazione dei processi attraverso cui i modelli informatici in grado di classificare “casi” possono migliorare progressivamente la loro capacità discriminativa.
Questi modelli, nella loro versione più classica, rappresentano il legame tra un input, che usualmente è un’immagine diagnostica (come ad esempio una radiografia) oppure la descrizione di un caso clinico, e un output, cioè una risposta, una predizione corrispondente. Quest’ultima è spesso espressa come categoria (ad esempio normale/anormale) oppure come un punteggio o un valore percentuale.
Nella maggior parte dei casi un modello di machine learning viene “addestrato” attraverso la presentazione di un ampio numero di casi già classificati sulla base di un gold standard (spesso una diagnosi definita a maggioranza da parte di un numero variabile di specialisti). Successivamente a questo periodo di “apprendimento supervisionato”, segue una fase di test, in cui al modello vengono presentate immagini nuove, sempre classificate da parte di esperti, ma senza che al modello sia mostrata la classificazione “corretta”. Viene pertanto osservata la sua capacità predittiva e l’accuratezza diagnostica rispetto ai casi già classificati correttamente. Questo processo può essere ripetuto fino a che esso non raggiunge livelli di accuratezza molto elevati nelle proprie predizioni.
Nell’ultimo anno sono stati pubblicati su riviste scientifiche di elevato impatto diversi studi sui risultati ottenuti attraverso l’applicazione di alcuni algoritmi di machine learning in vari settori della medicina. In particolare, sono stati evidenziati elevati livelli di accuratezza diagnostica (almeno pari a quelli ottenuti dai medici coinvolti) da parte di questi sistemi nella diagnosi di tumori dermatologici – effettuata a partire da fotografie di lesioni cutanee –, di retinopatia diabetica – grazie all’analisi di immagini del fondo oculare – e di tubercolosi polmonare – mediante l’esame di radiografie del torace –. È stata inoltre valutata la capacità di modelli di machine learning di predire eventi cardiovascolari futuri, capacità predittiva risultata superiore ai modelli tradizionali come il Framingham Risk Score. Infine, è di quest’anno l’approvazione da parte della Food and Drug Administration di un software basato sul machine learning denominato “Cardio-DL”, prodotto dall’azienda Arterys, in grado di stimare in tempi molto rapidi i volumi cardiaci a partire dalle immagini di risonanza magnetica del cuore.
Quello che tutti gli studi appena citati hanno in comune è l’avere impiegato una specifica metodica di machine learning denominata “deep learning” traducibile come “apprendimento profondo” (basata su reti neurali artificiali multistrato), che negli ultimi anni si è dimostrata la tecnica in grado di ottenere i migliori risultati in termini di accuratezza diagnostica e di stima prognostica, con risultati spesso almeno equivalenti a quelli ottenuti dagli specialisti umani. I modelli di deep learning, a differenza di altre applicazioni più tradizionali di machine learning, non generano predizioni sulla base di regole esplicite, bensì rilevano schemi (pattern) “nascosti” tra i dati che né i medici né gli ingegneri che hanno sviluppato questi algoritmi sono in grado di rendere espliciti e quindi giustificabili. In altre parole, nel momento in cui un modello di deep learning predice che l’immagine di una lesione cutanea merita una indagine bioptica, poiché con elevata probabilità si tratta di un melanoma, nessuno può essere in grado di stabilire sulla base di quali caratteristiche della lesione cutanea stessa la macchina abbia elaborato questa predizione. Noi medici sappiamo, dallo studio dei testi di dermatologia, che il rischio di un nevo cutaneo di essere una lesione melanocitaria maligna può essere analizzato con alcune regole, come ad esempio i criteri A-B-C-D-E: tuttavia, ignoriamo completamente sulla base di quali elementi un sistema deep learning classifichi come rischiosa una lesione dermatologica, tanto che la modalità operativa di questi sistemi è emblematizzata nell’espressione black box, ovvero scatola nera.
Ed è proprio alla luce dell’elevata accuratezza predittiva degli attuali modelli di deep learning, associata alla loro assenza di trasparenza, e alla loro iperscrutabilità che possiamo ipotizzare come questi dispositivi, qualora divenissero di uso comune, potrebbero influenzare in maniera rilevante numerosi aspetti della decisione medica, andando persino a generare, nel lungo periodo, una sorta di “affidamento oracolare”, ovvero di eccessiva fiducia e quindi di potenziale dipendenza da questi sistemi. Ciò potrebbe modificare il modo in cui i medici apprendono, pensano, agiscono e interagiscono con colleghi e pazienti.
Il nostro gruppo di ricerca si inserisce in un filone aperto ma necessariamente critico nei confronti di questi sistemi di intelligenza artificiale intesi come supporto delle decisioni mediche. Un recente Viewpoint pubblicato sul “Journal of the American Medical Association” (JAMA) sintetizza la nostra visione su alcuni rischi che potrebbe comportare in medicina l’introduzione di questi strumenti se non sufficientemente supportata da evidenze.
Uno dei rischi maggiori di tale evenienza sarebbe senz’altro la possibilità di una progressiva dequalificazione delle capacità diagnostiche e di stima prognostica dei medici (deskilling). Il fenomeno del deskilling, che ha origine da un’eccessiva fiducia nei sistemi di automazione, è stato già ampiamente descritto in vari settori diversi da quello medico. In aviazione, dove l’impiego di piloti automatici nella guida degli aerei è diventato una prassi di uso regolare da anni, è stata considerata l’ipotesi che alcuni incidenti aerei, come ad esempio quello del volo Colgan Air da Newark a Buffalo precipitato nello stato di New York nel 2009 e attribuito ad un errore umano avvenuto dopo la disconnessione del pilota automatico, siano correlabili con una carenza di esperienza diretta di volo da parte dei piloti, sostituiti sempre più dall’automazione. Tali deficit diventano ovviamente più evidenti nel momento in cui il sistema automatico fallisce o viene meno. La Federal Aviation Administration americana, a seguito del rilievo di un decremento diffuso delle abilità manuali, sta incoraggiando i piloti a spegnere periodicamente il pilota automatico durante i voli, così da mantenere aggiornate le proprie abilità pratiche e soprattutto la capacità di fronteggiare gli imprevisti.
In medicina, il fenomeno del deskilling è stato descritto in vari contesti, in relazione alla presenza di supporti automatici in affiancamento ai medici nelle loro attività e decisioni quotidiane.
Un esempio è quello delle diagnosi elettrocardiografiche supportate dal computer. In uno studio randomizzato è stata evidenziata una riduzione dell’accuratezza diagnostica da parte di medici specializzandi nella lettura di elettrocardiogrammi nel momento in cui i medici ricevevano una diagnosi sbagliata da parte del computer. Questo significa che, in alcuni casi, gli specializzandi non correggevano la diagnosi errata del computer, ma la confermavano passivamente. Questo atteggiamento, se esteso su larga scala, potrebbe comportare significative conseguenze sfavorevoli sul piano clinico: in un altro studio in cui la diagnosi elettrocardiografica di fibrillazione atriale era mediata dal computer, ad esempio, è stato messo in evidenza che circa un quarto delle diagnosi errate di fibrillazione atriale effettuate da parte del computer venivano confermate anziché corrette da parte dei medici e che, in alcuni di questi casi, i pazienti a cui era stata assegnata e poi confermata una diagnosi (errata) di fibrillazione atriale, venivano ricoverati in ospedale e/o sottoposti alla somministrazione inappropriata di farmaci antiaritmici o anticoagulanti.
Altro rischio, correlato con un’eccessiva fiducia e dipendenza da sistemi di supporto alle decisioni mediche basati su algoritmi di intelligenza artificiale, consiste nella possibilità che i medici ripongano troppa attenzione, e quindi fiducia, nei dati, in particolare quantitativi, necessari per alimentare qualsiasi modello di machine learning, a scapito di aspetti contestuali altrettanto importanti nel processo di diagnosi e cura, ma difficilmente “datificabili”, che sono tuttavia parte integrante e fondamentale della valutazione dei nostri pazienti. I dati di contesto possono includere, ad esempio, aspetti sociali, culturali, ambientali, abitativi, psicologici, narrativi, della vita del paziente, oppure aspetti organizzativi specifici di un contesto ospedaliero. Ignorare tali elementi può far correre il rischio di sovra o sottostimare i dati ottenuti dall’anamnesi e dall’esame obiettivo, generando potenzialmente in tal modo i così definiti “errori contestuali”.
Un esempio di fattore contestuale, ben noto a tutti coloro che praticano la medicina quotidianamente, è il caso di quei pazienti che decidono di effettuare una visita medica dopo che un loro conoscente o parente è andato incontro ad una malattia o morte. In questi casi, accade naturalmente che molte persone risultino turbate e rese consapevoli che un evento improvviso potrebbe capitare anche a loro, segnando potenzialmente un punto di non ritorno della loro vita. Molti, colti dalla preoccupazione, si informano, talvolta su Internet, sui possibili sintomi della malattia di cui sono stati testimoni, e, in alcuni casi, avvertendo su di sé gli stessi sintomi descritti oppure sintomi simili, decidono di programmare una visita medica così da scongiurare la possibilità di essere a rischio per la patologia cui hanno assistito. Il medico e si trovasse di fronte ad un corteo di sintomi specifici – ovvero di dati – potenzialmente necessari per alimentare un modello di machine learning, se concentrato solo su tali dati, rischierebbe di porre in secondo piano o addirittura di trascurare altri aspetti narrativi del paziente, come la storia personale del recente evento testimoniato. Peraltro, i sintomi descritti dal paziente potrebbero risultare suggestivi di un quadro clinico coerente e imporre quindi l’esecuzione di ulteriori esami di approfondimento, con le conseguenze che ciò potrebbe comportare sia in termini di carico psicologico per il paziente che di possibili risultati falsamente positivi o ambigui.
Il medico che invece ascolta e raccoglie gli aspetti narrativi del paziente, venendo a conoscenza della reale motivazione che ha innescato la necessità della visita medica, sa bene che, nella maggior parte dei casi, le persone in queste circostanze non sono affette dalla patologia che temono e che la terapia più efficace risulta spesso la rassicurazione. Al tempo stesso, il medico accorto sa anche utilizzare favorevolmente queste circostanze, in cui si generano spesso finestre di opportunità da "sfruttare" per indirizzare il paziente verso futuri comportamenti virtuosi riguardo alla propria salute.
Questo sottolinea la necessità che i medici, quando affiancati da supporti decisionali di intelligenza artificiale, rimangano consapevoli della natura umana, complessa, e mai totalmente traducibile in “dati”, dell’interazione medico paziente nel percorso di cura.
L’incertezza, elemento intrinseco ed endemico in medicina, rappresenta un altro elemento fondamentale e nondimeno sistematicamente ignorato da parte di coloro che progettano e realizzano modelli di machine learning. L’inevitabile presenza dell’incertezza può essere causa della relativa inaccuratezza delle predizioni di tali modelli.
Gli algoritmi di machine learning “apprendono” la struttura che correla i dati empirici con la loro interpretazione categorica: come noto, tuttavia, in molti casi i medici non sono d’accordo tra loro nell’interpretazione degli stessi dati empirici, e spesso non lo sono nemmeno con sé stessi in momenti diversi. Pertanto, uno dei rischi tangibili dei sistemi di machine learning è che in un algoritmo possa essere “sclerotizzata” la relazione tra i dati di input e la loro interpretazione categorica, relazione nella realtà molto variabile, arbitraria, e in molti casi “contaminata” dall’incertezza.
L’incertezza in medicina esiste a qualsiasi livello e, per quanto spesso la si ritenga una variabile da minimizzare più possibile, poiché attribuita semplicisticamente ad una fallacia nell’interpretazione e nella percezione dei dati clinici da parte dei medici, essa in realtà deriva spesso da un’ambiguità intrinseca, cioè connaturata in molti fenomeni osservati in medicina. Per fare un esempio emblematico della pratica ospedaliera, possiamo citare uno studio recentemente pubblicato da Dharmarajan et al. focalizzato su pazienti anziani ospedalizzati per patologie cardiopolmonari acute a cui, al momento dell’accesso in ospedale, è stata effettuata una diagnosi di scompenso cardiaco, di broncopneumopatia cronica ostruttiva oppure di polmonite. Lo studio ha osservato che durante la degenza ospedaliera i pazienti ricevevano regolarmente trattamenti medici per due o più delle suddette condizioni morbose in contemporanea, e dunque non solo per la diagnosi principale effettuata al momento dell’ammissione. Questo studio esemplifica come nella pratica clinica reale i quadri clinici si collochino spesso in “aree grigie” e non siano facilmente associabili a criteri diagnostici “aurei” come riportato nei testi di medicina o nelle linee guida. Infatti, sindromi cliniche molto comuni, come quelle analizzate nello studio appena citato, hanno presentazioni cliniche che spesso richiedono definizioni non corrispondenti alle tradizionali categorie diagnostiche. La sovrapposizione dei trattamenti medici osservata nello studio sottolinea proprio come l’ambiguità dei fenomeni clinici e l’incertezza con cui i medici si interfacciano quotidianamente nel prendere le decisioni costituiscono regole piuttosto che eccezioni.
Il livello di incertezza può essere molto elevato anche in situazioni meno intricate delle sindromi cliniche, ovvero nei casi focalizzati sulla valutazione di un singolo elemento dell’esame obiettivo: ad esempio, è stato evidenziato come esista una elevata variabilità tra osservatori nel rilievo ascoltatorio del ritmo di galoppo cardiaco, un segno clinico noto da quasi 200 anni, associato allo scompenso cardiaco. Nonostante la lunga conoscenza e la diffusa familiarità dei medici con questo rilievo obiettivo, è stato rilevato che il livello di accordo tra osservatori, sia esperti che inesperti, nel rilievo di questo segno e il gold-standard fonocardiografico è molto basso, essendo risultato di poco superiore al caso.
Questa elevata variabilità tra gli osservatori di un fenomeno, se riportata al contesto degli algoritmi su cui si basano i modelli di machine learning, rappresenta un indicatore della possibile variabilità dei dati inseriti (input) nei sistemi di intelligenza artificiale, sia per quanto riguarda la fase di apprendimento e validazione che quella successiva di applicazione nella pratica medica: questo potrebbe condurre in molti casi a risultati o predizioni (output) inaffidabili e addirittura potenzialmente fuorvianti. Ma l’incertezza in medicina non si limita all’interpretazione di un segno clinico o di un insieme di segni e sintomi. Uno scarso accordo tra valutatori può, infatti, essere evidenziato anche nella interpretazione delle evidenze ottenute dalla letteratura scientifica, sulla base di opinioni clinico-scientifiche che valutano diversamente i dati di beneficio e di rischio, in particolare in sottogruppi di pazienti. Un esempio paradigmatico è rappresentato dalle raccomandazioni fornite da diverse linee guida internazionali sulla somministrazione di aspirina per la prevenzione primaria degli eventi cardiovascolari. Sebbene basate sullo stesso background in termini di letteratura scientifica, ossia avendo attinto agli stessi studi clinici di riferimento, gruppi internazionali diversi che hanno prodotto linee guida nello stesso periodo hanno fornito sullo stesso tema raccomandazioni molto discordanti, che vanno dall’indicazione di somministrare l’aspirina indiscriminatamente a tutte le persone sopra i 50 anni, alla somministrazione solo ad alcune categorie di persone più a rischio, alla non somministrazione tout court.
Uno degli argomenti più diffusi e persuasivi attraverso cui vengono pubblicizzati alcuni sistemi di intelligenza artificiale risulta proprio la loro presunta capacità di incorporare e analizzare in pochi minuti migliaia di pagine di articoli scientifici e linee guida, così da poter supportare il medico – di certo non in grado di effettuare da solo e in poco tempo una così ampia analisi della letteratura – e potergli di conseguenza fornire le migliori e più recenti evidenze relative al caso clinico su cui sta lavorando: a fronte di questo è lecito domandarsi quali interpretazioni delle evidenze fornirebbe un sistema di intelligenza artificiale, oppure quali deciderebbe di privilegiare e quali di scartare e su quali basi.
Ma l’incertezza in medicina non fa eccezione nemmeno per quanto riguarda i cosiddetti gold standard, ovvero quei test diagnostici ritenuti necessari per definire “correttamente” i casi con cui istruire un modello di machine learning. Qualsiasi gold standard, infatti, e più in generale, qualsiasi test che includa interventi da parte dell’essere umano, è sottoposto al rischio di incertezza nell’interpretazione e può quindi mostrare notevoli variabilità nei risultati. Non fanno eccezione i gold standard ritenuti come i più affidabili in medicina, quali ad esempio gli esami istologici, l’esame autoptico e i test genetici.
Di nuovo, riteniamo che la possibilità che all’interno di un algoritmo si “sclerotizzi” una “verità” tanto statica e rigida quanto arbitraria (fenomeno/bias che abbiamo denominato “sclerosi epistemica”), va a nostro avviso considerato uno dei maggiori rischi cui potremmo andare incontro nel caso di una adozione indiscriminata di sistemi di intelligenza artificiale che non siano stati elaborati tenendo conto dell’incertezza che caratterizza la materia prima di cui si “nutrono” e da cui apprendono, ovvero i dati.
Un’altra criticità macroscopica riguarda le predizioni generate dai sistemi di machine learning orientati, per esempio, alla stima della prognosi: la natura fondamentalmente osservazionale dei dati alla base delle stime predittive potrebbe far sì che venissero raccolte e “trapiantate” negli algoritmi le stesse distorsioni interpretative (o bias) che sono proprie della ricerca osservazionale, in primis il confondimento, nel quale possono essere osservate e valorizzate associazioni esistenti che tuttavia non presentano in alcun modo un rapporto di causalità tra loro. Ad esempio, un sistema di predizione del rischio di mortalità utilizzato in terapia intensiva a fini decisionali potrebbe stabilire che alcuni supporti assistenziali impiegati nei pazienti critici, come l’impiego della ventilazione assistita, predicono un aumento del rischio di mortalità e dunque non andrebbero utilizzati, mentre evidentemente sia l’impiego dei supporti terapeutici impiegati che la mortalità dei pazienti sono attribuibili all’elevata gravità clinica dei pazienti, e non certo ad un nesso di causalità a seguito del quale la ventilazione assistita causerebbe di per sé l’aumento di mortalità dei pazienti, anche se, sempre in termini di incertezza, sono da considerare i rischi di complicanze infettive collegate con una ventilazione assistita prolungata. Si tratta, cioè, di una correlazione tra due variabili che non implica in alcun modo una causalità, anche se situazioni simili potrebbero non essere rappresentate in alcun modo da modelli basati sul machine learning.
Vi sono, inoltre, numerosi altri aspetti correlati al futuro impiego dei sistemi di machine learning in medicina che meriterebbero più di una menzione, come gli ipotetici cambiamenti di cui potrebbe risentire il lavoro dei medici nel contesto di un utilizzo sempre più esteso dell’intelligenza artificiale, fino alla ipotizzata formazione di specialisti a cavallo tra più settori (i cosiddetti “specialisti dell’informazione”, a cavallo tra radiologi e anatomo-patologi), le difficili attribuzioni delle responsabilità medico-legali nel caso in cui il medico decidesse di avvalersi del supporto decisionale da parte di sistemi altamente accurati, che nondimeno potrebbero condurlo a errori; oppure l’attribuzione delle stesse responsabilità nel caso in cui il medico decidesse di non applicare le raccomandazioni degli stessi sistemi; e naturalmente i rischi legati alla cristallizzazione negli algoritmi di tutti quelli che sono i limiti della medicina contemporanea.
Gli algoritmi, infatti, per quanto accurati, non rendono le cose migliori di quanto lo siano, ma ribadiscono lo status quo attuale, che è ben lungi dall’essere perfetto: essi finiscono quindi per essere la rappresentazione di opinioni (ed errori) umani che vengono inseriti (e spesso celati) in un codice.
Una iniziale risposta ad alcune delle criticità sollevate in questo articolo sarebbe, a nostro avviso, che le autorità cui compete il ruolo di approvare modelli di machine learning per l’uso in medicina non si limitassero alla valutazione dell’accuratezza diagnostica o di predizione prognostica di questi sistemi, bensì ne valutassero l’approvazione sulla base della loro dimostrata capacità di modificare esiti clinici importanti, in particolare mediante studi clinici randomizzati di fase III: in altre parole, valutare se questi sistemi di supporto al medico sono in grado, se confrontati con il non impiego, di ridurre quelli che riteniamo degli obiettivi importanti per il paziente che abbiamo di fronte. Questi obiettivi clinici dovrebbero anche includere il grado di soddisfazione di medici e pazienti nel nuovo sistema socio-tecnico, che contempli la complessa relazione tra componenti umane e componenti tecnologiche che si realizzerà con l’inclusione dell’intelligenza artificiale.
Inoltre, per quanto riguarda il confronto tra medicina “supportata” e “non supportata” dall’intelligenza artificiale, la ricerca scientifica non dovrebbe contrapporre (come è tendenza attuale fare) medici e sistemi di intelligenza artificiale, sottintendendo così un’ipotetica sostituibilità dell’uomo con la macchina qualora questa presentasse una efficacia e una efficienza superiori, cosa che in campo medico è al momento impossibile, bensì tra équipe di medici supportati da questi sistemi ed équipe di medici che non si avvalgono di tali sistemi. Creare infatti un’antitesi tra medico e intelligenza artificiale non è solo controproducente, ma anche profondamente sbagliato nel momento in cui questi sistemi sono solamente in grado di fornire al medico un supporto predittivo, che è solo uno tra i molteplici elementi a disposizione del medico nel momento in cui  esercita il proprio giudizio clinico con lo scopo di prendere (o meglio condividere) decisioni talvolta fondamentali sulla vita di un altro essere umano.
Infine, sarà indispensabile che coloro che realizzano sistemi di machine learning sviluppino, in stretta collaborazione con i medici, algoritmi che considerino estensivamente l’incertezza in medicina, e le possibili molteplici sfumature interpretative di ogni fenomeno osservato, fino anche a rappresentare l’incertezza stessa nei propri risultati di predizione. Naturalmente, la trasparenza del modello soggiacente all’elaborazione ed esecuzione di una predizione dovrà essere elemento necessario di ogni sistema decisionale basato sul machine learning, o, qualora questo requisito fosse impossibile per la natura stessa dei modelli (come nel caso delle reti neurali artificiali profonde) quanto meno sia possibile la esplicabilità di tale processo.
Così come in altre discipline, l’introduzione di nuove tecnologie in medicina non è sempre stata agevole. Ad esempio, la diffusione ampia delle cartelle cliniche informatizzate, per quanto inizialmente motivata dalle promesse di miglioramento degli esiti clinici e di riduzione dei costi, manca ancora di prove di efficacia formali che supportino queste affermazioni. Al contrario, si sono levate in questi anni diverse voci critiche riguardo ad un carico di lavoro maggiore per i medici e ad un contemporaneo indebolimento della relazione con i pazienti  che hanno contribuito a a frenare la diffusione ubiquitaria delle cartelle cliniche informatizzate.
Senza eccedere in pessimismo, è il caso di ricordare che la storia della medicina, anche molto recente, ci insegna come l’introduzione di nuovi strumenti diagnostici o terapeutici non sufficientemente supportata da evidenze scientifiche solide abbia condotto, in più occasioni, al successivo ritiro di questi stessi strumenti a causa della loro inefficacia, o persino della loro dannosità, evidenziate dall’esecuzione purtroppo tardiva di studi clinici ben condotti, secondo quel fenomeno che è stato definito “Medical Reversal”.
Ci auguriamo quindi che la ricerca sui sistemi di intelligenza artificiale si sviluppi nell’ottica di rispondere ad esigenze reali: solo alimentando un pensiero critico e costruttivo verso questo fenomeno, di facili iperboli, ma anche al di là di un altrettanto facile negativismo, potremo sapere se l’intelligenza artificiale in medicina potrà portare valore nelle complesse interazioni quotidiane tra medici e pazienti.

Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo.

Il nostro sito utilizza i cookies per offrirti un servizio migliore.

Se vuoi saperne di più o avere istruzioni dettagliate su come disabilitare l'uso dei cookies puoi leggere l'informativa estesa

Cliccando in un punto qualsiasi dello schermo, effettuando un’azione di scroll o cliccando su Accetto, presti il consenso all’uso di tutti i cookies.