Intelligenza artificiale-immagine credit Lewis Houghton/Science Source.
Nuovi sistemi possono identificare proteine sconosciute in campioni di tessuti malati, nell’ambiente e nei siti archeologici.
L’intelligenza artificiale (IA) ha già rivoluzionato lo studio del ripiegamento delle proteine nelle loro forme tridimensionali, un traguardo celebrato con il Premio Nobel per la Chimica dello scorso anno. Ora, l’IA sta trasformando il sequenziamento proteico, identificando le proteine a partire dalla sequenza degli amminoacidi che le compongono. L’IA è spesso più veloce dei metodi convenzionali. Permette inoltre ai ricercatori di sequenziare proteine mai viste prima, una sfida comune nella diagnostica medica, negli studi ambientali e in archeologia.
Tra le ultime scoperte, i ricercatori europei hanno pubblicato questa settimana su Nature Machine Intelligence l’annuncio di un’IA nota come InstaNovo, in grado di identificare proteine patogene nelle ferite e proteine sconosciute prodotte da una miscela di microbi in campioni di acqua marina. InstaNovo non è l’unica. Negli ultimi 4 anni, i ricercatori hanno presentato più di due dozzine di IA per il sequenziamento proteico. “Sembra chiaro che questa sia la direzione verso cui si muoverà il settore”, afferma William Noble, sviluppatore di IA per la proteomica presso l’Università di Washington.
I ricercatori di altri settori sono ansiosi di applicare questi strumenti. I biologi evoluzionisti, ad esempio, li stanno utilizzando per identificare proteine antiche che potrebbero rivelare informazioni sulle differenze tra gli esseri umani moderni e i nostri parenti estinti. “È già utile“, afferma Enrico Cappellini, esperto di paleoproteomica presso l’Università di Copenaghen. “E continuerà a migliorare sempre di più”.
Ma questo approccio presenta dei problemi. Innanzitutto, fino al 70% dei peptidi rilevati dalla spettroscopia di massa non è presente in alcun database. “La proteomica tradizionale è un po’ come una ricerca su Google. Se non c’è, non lo troverai”, afferma Timothy Patrick Jenkins, esperto di proteomica presso l’Università Tecnica della Danimarca. E con la continua crescita dei database di peptidi, ci vuole sempre più tempo di elaborazione per individuare i risultati.
I nuovi sequenziatori basati sull’intelligenza artificiale non si preoccupano di cercare corrispondenze tra i peptidi noti. Invece, calcolano i pesi di tutti i potenziali frammenti peptidici che potrebbero derivare da modifiche chimiche a un peptide di una determinata lunghezza. Se l’intelligenza artificiale individua frammenti che corrispondono a quelli del campione reale, cerca di assemblarli in proteine di lunghezza completa.
Per aumentarne l’accuratezza, le IA per il sequenziamento proteico vengono addestrate su milioni di peptidi noti e su come si assemblano in proteine note. Questo permette alle IA di apprendere i modi più comuni di combinazione delle catene amminoacidiche. “L’approccio”, afferma Jenkins, “è simile a quello dei modelli linguistici di grandi dimensioni (LLM) come ChatGPT che si addestrano su vaste porzioni di testo per apprendere le regole della sintassi. Gli algoritmi di proteomica apprendono un tipo di sintassi proteica, che fornisce la sequenza più probabile per un dato insieme di peptidi”.
Nel 2021, Noble e i suoi colleghi hanno presentato Casanovo, la prima IA per il sequenziamento proteico a utilizzare una rete neurale profonda come quella che alimenta ChatGPT. In un articolo del 2024 su Nature Communications, il team di Noble ha riferito che l’IA si è dimostrata abile nell’identificare nuove sequenze di peptidi non presenti nei dati di addestramento. Ulteriori esperimenti hanno dimostrato che Casanovo eccelleva nell’identificare i peptidi di superficie cellulare che il sistema immunitario prende di mira quando attacca il cancro, così come proteine sconosciute in campioni di acqua di mare.
Ora, Jenkins e i suoi colleghi hanno approfondito questi risultati con InstaNovo. Anch’esso utilizza una rete neurale basata su deep learning. Ma a differenza dei precedenti modelli di sequenziamento proteico basati sull’intelligenza artificiale, aggiunge una strategia chiamata diffusione, un approccio che ha potenziato modelli di imaging basati sull’intelligenza artificiale come DALL-E e modelli di struttura proteica come RoseTTAFold o AlphaFold. I modelli di diffusione inizialmente aggiungono rumore casuale ai dati di input e poi lo rimuovono per vedere come la procedura affina l’output. In base al risultato, applicano quindi la rimozione del rumore in modo più ampio per affinare ulteriormente il risultato. Nel loro articolo su Nature Machine Intelligence, Jenkins e i suoi colleghi riportano che in un test comparativo con Casanovo, InstaNovo, abbinato a un raffinamento chiamato InstanNova+, ha identificato il 42% di peptidi in più in una miscela di proteine prodotte in laboratorio da nove organismi.
Quando il team ha applicato la sua intelligenza artificiale a sfide proteomiche reali, ha scoperto, tra gli altri risultati, di aver identificato 1225 peptidi specifici della proteina del sangue albumina nelle ferite infette alle gambe, 10 volte di più rispetto alle ricerche nei database convenzionali.
Di questi, 254 erano nuovi peptidi non presenti nei database. I ricercatori hanno anche mappato altri peptidi su 52 proteine batteriche. “Questi e altri risultati dimostrano che InstaNovo “può analizzare campioni complessi e fornire risposte”, afferma Catrine Soiberg, responsabile della ricerca e sviluppo di Atlas Antibodies, un’azienda che aiuta i ricercatori a mappare le proteine nei tessuti. Noble, che ha avuto modo di osservare in anteprima InstaNovo e lo ha già messo alla prova, lo definisce “un vero progresso”.
Leggi anche:L’intelligenza artificiale affronta le previsioni cliniche sul cancro
Anche altri stanno lavorando su questo approccio. Matthew Collins, ricercatore di proteomica presso l’Università di Cambridge, ha recentemente testato diversi strumenti di sequenziamento proteico basati sull’intelligenza artificiale per analizzare campioni archeologici. Nella maggior parte dei casi, le proteine presenti nei campioni hanno subito profondi cambiamenti chimici nel corso di eoni sotterranei o provengono da piante e animali estinti, quindi è improbabile che siano rappresentate nei database convenzionali di proteine e peptidi. I modelli, afferma Collins, “sono particolarmente adatti per ambienti disordinati dove non si sa cosa ci sia”.
Gli strumenti di intelligenza artificiale hanno già permesso al suo team di individuare le firme delle proteine di coniglio nei siti neandertaliani e delle proteine muscolari dei pesci in antichi vasi brasiliani. “I modelli sono così utili che abbiamo adattato tutta la nostra ricerca per utilizzarli“, afferma Collins. “Per me è un cambiamento radicale”.
Fonte:Science