Un Professore della Clemson University, un alunno, un ex membro del personale IT e due studenti hanno presentato un software per computer che può ordinare i geni per capire meglio come interagiscono per causare malattie.
Pubblicato nella rivista Scientific Reports di agosto, il software aiuterà i ricercatori a esaminare tratti complessi controllati da geni multipli.
Conosciuta come Knowledge Independent Network Construction (KINC), il pacchetto software è il culmine di molti anni di ricerca condotta dal Professor Alex Feltus del dipartimento di genetica e biochimica. L’ex allievo di Feltus, Stephen Ficklin, ora assistente alla Washington State University, ha sviluppato il software. Ricercatori universitari e laureati Leland Dunwoodie e Will Poehlman hanno lavorato con il membro del personale CCIT Kim Roche – attualmente dottorando alla Duke – per compilare e analizzare i dati.
Attingendo da più di 2.000 datasets di espressione genica del tumore del The Cancer Genome Atlas – un repository pubblico per informazioni genomiche relative a 33 diversi tipi di cancro – la squadra è stata in grado di organizzare visivamente e geneticamente i geni in base alle loro funzioni condivise.
“L’idea è che se due geni si accendono contemporaneamente, potrebbero lavorare insieme”, ha detto Feltus. “Così abbiamo tessuto una rete di geni che hanno interagito tra di loro e con questa rete abbiamo potuto trovare cinque, 20, talvolta migliaia di geni che aumentano la loro attività o rientrano nei loro livelli di espressione “.
Con il software KINC, i ricercatori non devono avere una conoscenza preliminare di ciò che dovrebbe apparire nella rete genica in quanto il software elaborerà i dati per determinare come i geni dovrebbero essere classificati.
“A volte il software classifica campioni in gruppi di stessi tipi di tumori”, ha detto Feltus. “Ma a volte, per ogni coppia di geni, il software analizza come sono collegati tra di loro in diversi gruppi di campioni. Quindi forse si scopre che due geni interagiscono tra loro solo nel cancro della tiroide, per cui il software può essere specifico per il grado del tumore individuando le interazioni che si verificano nei tumori della fase iniziale, tumori avanzati, tumori maschili, tumori femminili o addirittura etnie “.
Una volta che KINC ha ordinato i geni in gruppi, i ricercatori possono effettuare test più approfonditi per scoprire le correlazioni tra i geni e le vie cellulari del corpo. Nella rete di coespressione del gene risultante (GCN), due geni che hanno un’alta probabilità di interagire tra di loro saranno collegati da una linea chiamata bordo.
Non di rado, la costruzione di reti geniche che tendono ad avere grandi set di dati, ha portato a un GCN con tante interazioni geniche – con tanti spigoli – che somigliavano a un hairball.
“Nella scienza, cerchiamo sempre di ridurre un sistema fino a una o due variabili, ma usando la bioinformatica, stiamo riducendo centinaia di migliaia di variabili fino a centinaia di variabili”, ha detto Feltus. “Abbracciamo la complessità del sistema, ma vogliamo che sia significativa …”.
Per elaborare e analizzare questi dati genomici complessi, il campo della bioinformatica richiede abilità di calcolo su larga scala ad alta velocità. Un solo esperimento genera 700 terabytes di dati, sufficienti per riempire più di 700 computer portatili con file di dati.
Fortunatamente, la Clemson University ha il Palmetto Cluster, uno dei primi 100 supercomputer del mondo, situato a Pendleton. Poiché è gestito su un sistema di modelli condominiali democratizzati, qualsiasi facoltà, personale o studente di Clemson può registrarsi per un account e utilizzare gratuitamente il supercomputer. Ma dato che è condiviso tra tante persone, la quantità di stoccaggio disponibile per lo studio del cancro della squadra era limitata.
“Rispetto alle analisi tradizionali di coespressione, la gestione del nostro software KINC è stata una grande sfida computazionale”, ha dichiarato Poehlman. “Abbiamo rapidamente compreso che non avremo potuto generare risultati in un tempo ragionevole utilizzando solo il supercomputer qui a Clemson, quindi ho trascorso molto tempo a lavorare con la Griglia Open Science per sviluppare flussi di lavoro che ci hanno permesso di sfruttare risorse di calcolo per completare questo esperimento “.
Lo sviluppo di KINC è entrato a far parte di un’indagine più ampia di Feltus e della collega Melissa Smith del dipartimento di ingegneria elettrica e informatica chiamata “Analisi dei dati scientifici a scala” o SciDAS. Finanziato da una borsa di $ 2,95 milioni della National Science Foundation, il team intende costruire un sistema Knowledge Independent Network Construction (KINC)nazionale di calcolo per rendere più efficiente l’elaborazione dei dati.
“Con SciDAS, stiamo ora generando dinamicamente i supercomputer prendendo un supercomputer e mappando un nuovo supercomputer attraverso reti avanzate e stiamo usando KINC come un modo per elaborare dati da molte diverse specie “, ha detto Feltus.
Dunwoodie, che ha scoperto 22 geni specifici del glioblastoma durante lo studio della squadra, ha dichiarato di essere onorato di aver collegato l’algoritmo KINC alla biologia del cancro. Attualmente sta analizzando come questi geni influenzano lo sviluppo del glioblastoma.
Il software della squadra è gratuito e disponibile per il pubblico. Le persone che scaricano KINC possono addirittura modificarlo per le loro esigenze di ricerca cambiando il proprio codice affinché si mantenga pubblicamente disponibile la loro versione modificata.
Fonte: Scientific Reports