Sembra esserci la tendenza a utilizzare in fretta i dati imperfetti e discutibili per addestrare una soluzione di intelligenza artificiale per COVID-19, una tendenza pericolosa che non solo non aiuta alcun paziente o medico, ma danneggia anche la reputazione della comunità dell’Intelligenza artificiale. Affrontare una pandemia – per quanto significativa sia – non sospende i principi scientifici di base.
I dati devono essere curati da esperti medici e devono essere eseguite validazioni complete e rigorose e i risultati devono essere rivisti dai colleghi prima di implementare qualsiasi soluzione o proposta nel mondo, in particolare quando la società sta affrontando molte incertezze.
È sicuro dire che siamo tutti profondamente preoccupati per la pandemia di COVID-19. Questo coronavirus ha drasticamente cambiato la nostra realtà: stress, restrizioni, quarantene, sacrifici eroici di caregiver tra cui personale, infermieri e medici, perdita di persone care, difficoltà economiche e enormi incertezze su ciò che è in serbo nei prossimi mesi. In tali circostanze, è naturale che molti di noi stiano pensando a come aiutare, nel modo più rapido possibile. La comunità AI non fa eccezione.
I metodi di apprendimento automatico si basano sui dati. Le intelligenze artificiali imparano dai dati etichettati per classificare, prevedere e stimare. La qualità e l’affidabilità di qualsiasi metodo di iA dipendono direttamente dalla qualità e dall’affidabilità dei dati etichettati. In informatica, parliamo di “immondizia” (GIGO) che sintetizza l’esperienza che i dati di input di bassa qualità generano output inaffidabili o “immondizia”. Ciò diventa ancora più critico quando abbiamo a che fare con modalità dati molto complesse, come immagini mediche – dati che generalmente richiedono conoscenze altamente specializzate per interpretazioni corrette.
All’interno della comunità IA, siamo completamente dipendenti dai dati. Finché il dominio non è sensibile (finanza, assistenza sanitaria, sorveglianza, ecc.), di solito assembliamo i nostri set di dati utilizzando metodi diversi; dalla raccolta manuale di campioni fino a crawler altamente sofisticati per analizzare Internet e altri repository disponibili pubblicamente. Nell’imaging medico, abbiamo a che fare con un dominio altamente sensibile in cui è generalmente richiesto un lungo processo per curare e accedere a una serie di immagini etichettate. Inutile dire che la cura deve avvenire all’interno delle mura di un Ospedale non solo perché ci sono gli esperti, ma anche a causa della necessaria disidentificazione delle immagini per rispettare le normative sulla privacy.
Vedi anche: L’intelligenza artificiale prevede l’efficacia dei trattamenti
Per essere chiari, un “set di dati giocattolo” nel dominio dell’imaging medico non è un giocattolo solo perché è generalmente molto piccolo, ma soprattutto perché è stato creato da ingegneri e scienziati informatici e non da medici ed esperti clinici. E nessuno si lamenterebbe se giochiamo con i nostri giocattoli all’interno dei nostri laboratori di intelligenza artificiale per prepararci a gestire i dati reali dell’Ospedale.
I radiologi di tutto il mondo sono comprensibilmente molto impegnati, per dirla in parole povere; non è il momento migliore per stringere collaborazioni con i radiologi se sei un ricercatore di intelligenza artificiale troppo ambizioso che vuole aiutare. Quindi, alcuni di noi hanno iniziato a mettere insieme il proprio set di dati per prepararsi a compiti futuri.
Collezioni di radiografie e in parte di immagini CT – scaricate da Internet – sembrano emergere qua e là e sembrano evolversi mentre i creatori continuano ad aggiungere immagini. A causa della disponibilità di tali set di dati da un lato e dell’ubiquità delle conoscenze e degli strumenti di intelligenza artificiale di base dall’altro lato, molti appassionati e start-up di IA hanno iniziato impulsivamente a sviluppare soluzioni per COVID-19 nelle immagini a raggi X. Si trovano siti Web e blog che consigliano come rilevare COVID-19 dalle scansioni a raggi X con elevata precisione. Altri forniscono una sorta di tutorial sul rilevamento di COVID-19 nelle immagini a raggi X. Stiamo persino iniziando a vedere articoli non sottoposti a peer review che vanno oltre e battezzano la loro soluzione con nomi in crescita come “COVID-Net”. Questo tipo di lavori generalmente manca di molti dettagli sperimentali per spiegare come si è trattato di alcune immagini di un numero molto piccolo di pazienti per alimentare la rete profonda. Tali documenti non riportano alcuna convalida e nessun radiologo ha guidato gli esperimenti. Molte di queste opere sono state rese pubbliche in fretta prima che i creatori di set di dati potessero persino fornire spiegazioni sufficienti sul loro processo di raccolta. Nel tentativo di superare le dimensioni ridotte dei dati, gli appassionati di intelligenza artificiale e le start-up mescolano le poche immagini COVID-19 con altri set di dati pubblici, ovvero set di dati di polmonite. Questo è generalmente abbastanza intelligente, ma ho osservato più da vicino un caso e il problema è che i casi di polmonite erano immagini pediatriche; quindi le reti COVID stanno confrontando la polmonite pediatrica (bambini da uno a cinque anni) con pazienti adulti COVID-19. Bene, questo accade quando escludiamo i radiologi dalla ricerca che richiede supervisione di esperti.
Perché ci stiamo affrettando a pubblicare risultati di intelligenza artificiale difettosi su minuscoli set di dati mescolati con anatomie errate, senza supporto radiologico e senza convalida? Vogliamo aiutare i pazienti COVID-19?
Forse l’abbondanza di annunci di opportunità di finanziamento nei giorni scorsi e la possibilità di ottenere visibilità per la nostra ricerca ci stanno fuorviando in comportamenti di ricerca errati; non possiamo abbandonare i principi scientifici fondamentali a causa di blocchi e quarantene. L’intelligenza artificiale non è né un ventilatore né un vaccino né una pillola; è estremamente improbabile che i radiologi esausti di Wuhan, Qom o Bergamo scarichino il codice Python della nostra rete scarsamente addestrata (utilizzando dati insufficienti e impropri e descritti in articoli e blog rapidamente scritti) per ottenere una seconda opinione errata.
Sì, tutti vogliamo aiutare. Aspettiamo i dati reali dagli Ospedali, facciamo il nulla osta etico e disidentificazione, e lavoriamo con i radiologi per sviluppare soluzioni per i problemi al torace del futuro. Altrimenti, potremmo creare l’impressione che stiamo facendo ricerche sensazionali e siamo più interessati all’autopromozione che al benessere dei pazienti. I radiologi lavorano giorno e notte per comprendere la manifestazione di questo virus nelle immagini mediche. Lavoriamo con loro e impariamo da loro a liberare il vero potenziale dell’IA per combattere le infezioni virali in futuro
Head of KIMIA Lab, Faculty of Engineering,
University of Waterloo