Immagine: intero genoma di COVID 19. Credit: Public Domain.
Quando nuovi virus come COVID 19 o batteri si diffondono nell’uomo, è essenziale chiarire le loro caratteristiche speciali il più rapidamente possibile. Ad esempio, perché il coronavirus è resistente ai farmaci comuni?
In futuro, la nuova tecnologia Big Data può aiutare a identificare le caratteristiche di nuovi ceppi di virus e batteri in breve tempo. Lo fa confrontando il genoma di un singolo organismo con il genoma di tutti i ceppi di una specie. Questa procedura può essere utilizzata anche per organismi più altamente sviluppati come i mammiferi. Il nuovo progetto “Pangaia” presso l’Università di Bielefeld sta studiando come le masse di dati utilizzate in questo processo possano essere ordinate e analizzate per l’uso in biomedicina. L’Università è uno degli undici partner del progetto in Europa e Nord America. Quando gli scienziati biomedici vogliono scoprire se il materiale genetico di un essere vivente mostra particolari variazioni, di solito usano un genoma di riferimento. Combinano diversi genomi in modo tale da portare alla luce le caratteristiche tipiche di un’intera specie. Ciò consente ai ricercatori di confrontare un nuovo virus influenzale con un genoma di riferimento che sintetizza le caratteristiche tipiche dei ceppi virali da cui proviene.
Vedi anche: I farmaci esistenti possono offrire un trattamento di prima linea per l’epidemia da coronavirus
“In questi casi, confrontiamo solo due genomi tra loro: differenze e somiglianze sono relativamente facili da identificare sul computer. Con il nuovo approccio, possiamo confrontare un genoma con migliaia di altri genomi in un unico passaggio”, dice il Professor Dr. Jens Stoye della Faculty of Technology, che sta prendendo parte al progetto Pangaia con il suo gruppo di ricerca sul genoma.
I ricercatori chiamano questa esplorazione del repertorio genetico di una popolazione “pangenomica”.
“Fino ad ora, il problema della pangenomica assistita da computer è stata la mancanza di trasparenza causata dalla massa di dati“, ha affermato il Professor Alexander Schönhuth della Facoltà di Tecnologia, che è capo del gruppo di lavoro del
Genome Data Science dal gennaio 2020. Schönhuth sta coordinando il sottoprogetto Pangaia di Bielefeld. Come Jens Stoye, lui e il suo gruppo stanno conducendo ricerche presso il Centro di biotecnologia dell’Università di Bielefeld (CeBiTec).
I dati genetici sono rappresentati dalle lettere A, C, G e T. Questi rappresentano i nucleotidi, i mattoni del materiale genetico. I genomi possono essere costituiti da miliardi di queste unità di informazione. Per renderli più facili da confrontare, possono essere visualizzati uno accanto all’altro come “catene di lettere”. Questa rappresentazione tradizionale basata su sequenze è molto diffusa oggi. “Ma con centinaia di genomi di confronto, ci vuole molto tempo per analizzare passo dopo passo come il genoma in esame differisce da ciascuno dei genomi di confronto”, ha affermato Schönhuth.
‘La nuova tecnologia consente un’analisi simultanea e integrata di molti ceppi dello stesso organismo. Questi possono essere virus, batteri e talvolta anche organismi superiori“, spiega Jens Stoye. “Ciò consente di evidenziare le somiglianze e le differenze tra i singoli membri. Nel caso dei patogeni, spesso è persino possibile comprendere e prevedere i processi che hanno portato allo sviluppo di ceppi particolarmente infettivi. La tecnologia può anche essere utilizzata per rilevare malattie ereditarie nell’uomo o per determinare quali mutazioni in un tumore hanno portato a una crescita forte e anormale. Nei prossimi anni, vogliamo sviluppare nuovi algoritmi e strutture di dati con i nostri partner di progetto che renderanno la pangenomica assistita da computer più veloce e più user-friendly“, afferma Schönhuth. “Un obiettivo è sviluppare algoritmi per i grafici delle variazioni. Con questi programmi, i computer cercano somiglianze e differenze tra i genomi comparativi e presentano graficamente i risultati. I grafici delle variazioni consentono una differenziazione rapida e ad alta risoluzione delle varianti patogene e innocue di un virus. In particolare, ci consentono anche di identificare mutazioni completamente nuove, come quelle che presumibilmente si sono verificate nella variante del coronavirus COVID 19 che si sta diffondendo in Cina e in altri paesi e che hanno portato alla resistenza ai soliti farmaci”.
Il nome completo del progetto Pangaia è “Algoritmi grafici e integrazione dei dati Pan-genoma”. Si svolgerà da gennaio 2020 a dicembre 2023. L’Unione europea sta finanziando Pangaia attraverso il suo programma quadro di ricerca Orizzonte 2020 e l’Università di Milano (Italia) sta coordinando il progetto. Altri partner oltre all’Università di Bielefeld sono: l’Organizzazione olandese per la ricerca scientifica (NWO), l’Università Comenius di Bratislava (Slovacchia), le società biotecnologiche Geneton (Slovacchia) e Illumina Cambridge (Gran Bretagna), l’Institut Pasteur (Francia), la Simon Fraser University ( Canada), Università di Tokyo (Giappone), Cornell University e Pennsylvania State University (entrambi USA).