Il modello DeepRVAT può migliorare l’identificazione di malattie genetiche rare

Una malattia rara è una condizione medica che si manifesta con una frequenza molto bassa nella popolazione. Sebbene non esista una soglia precisa universalmente accettata, in Europa una malattia è considerata rara se colpisce meno di 1 persona su 2.000. Ma quali sono queste malattie rare? In quasi tutte le discipline mediche, dalla neurologia all’oncologia, esistono patologie poco conosciute e altrettanto poco comuni, caratterizzate da una grande eterogeneità. Proprio a causa della loro rarità, sono poche le risorse dedicate alla ricerca e al trattamento di queste malattie, rendendo cruciale l’identificazione di nuove varianti genetiche che possano fornirci informazioni utili per comprendere meglio il rischio di svilupparle.

Gli studi di associazione sull’intero genoma, i cosiddetti GWAS (per scoprire quali varianti genetiche sono più comuni in persone con una determinata malattia), hanno fatto enormi progressi nell’identificazione di loci genetici associati a varianti comuni, ma hanno però fornito risultati più limitati quando applicati alle varianti rare. Questo è dovuto alla bassa frequenza di queste varianti, che riduce il potere statistico e aumenta il rischio di risultati falsi positivi o negativi, limitando così la potenza statistica.

Sulla base di queste osservazioni, l’articolo di Brian Clarke e colleghi, pubblicato sulla prestigiosa rivista Nature Genetics, presenta una nuova tecnica chiamata DeepRVAT (Deep Rare Variant Association Testing), che si propone di superare queste difficoltà integrando annotazioni genetiche ricche tramite reti neurali deep set.

Questo nuovo modello, sfrutta la potenza delle reti neurali per integrare annotazioni delle varianti e migliorare i test di associazione. Il modello si basa su un’architettura di deep set networks, un tipo di rete neurale che permette di gestire insiemi di input non ordinati, come le varianti genetiche di un individuo, senza che l’ordine degli elementi influisca sul risultato. Questo è particolarmente utile nel contesto delle varianti genetiche, dove il numero e la posizione delle varianti può variare notevolmente tra gli individui.

DeepRVAT è diviso in due parti principali: il gene impairment module, e il phenotype module. Il primo calcola un punteggio che misura quanto le varianti genetiche rare influiscono su un gene attraverso un punteggio generico, cioè non legato a un particolare tratto o malattia, e si basa su diverse informazioni delle varianti. Questo rende il modello applicabile a nuovi geni e tratti che non sono stati considerati durante l’addestramento. Il secondo, usa i punteggi del primo modulo per prevedere come le variazioni nei geni influenzano i tratti fisici o le malattie. In questo modo, DeepRVAT può essere usato sia per scoprire nuovi geni legati a specifici tratti, sia per stimare il rischio genetico individuale.

Per validare l’efficacia del modello, gli autori hanno applicato il modello ai dati del UK Biobank, uno dei più grandi database genetici e fenotipici disponibili al mondo. Utilizzando dati di sequenziamento dell’esoma (ovvero quella porzione di genoma che è effettivamente trascritta), di 161.822 individui di origine europea, DeepRVAT è stato testato su 34 tratti quantitativi (come livelli di lipidi nel sangue o pressione arteriosa) e 63 tratti binari (fumo, sesso, ecc.), e particolari condizioni mediche come malattie cardiovascolari e metaboliche. I risultati sono stati impressionanti: il modello ha identificato un numero significativamente maggiore di associazioni genotipo-fenotipo rispetto ai metodi tradizionali, con un aumento del 75% rispetto al metodo tradizionale. Così, sulla base di questi risultati, uno degli usi più promettenti di questo nuovo strumento, è la sua capacità di migliorare le previsioni del rischio genetico, in particolare combinando varianti rare e comuni consentendo di integrare le varianti rare nel calcolo del rischio e migliorando così la capacità di identificare individui con fenotipi estremi o ad alto rischio.

Gli autori hanno dimostrato che l’integrazione del punteggio di impairment genico calcolato da DeepRVAT nei modelli di PRS ovvero di rischio poligenico (per stimare il rischio di una persona di sviluppare una determinata malattia), ha portato a un miglioramento significativo della previsione dei fenotipi estremi. Per esempio, la capacità di predire individui con livelli estremamente bassi o alti di fosfatasi alcalina, un biomarcatore utilizzato per monitorare la salute ossea e epatica, è aumentata del 258,73%. Il modello, ha inoltre identificato nuove associazioni genetiche con malattie come l’insufficienza cardiaca e il cancro alla prostata, fornendo prove a supporto del fatto che varianti rare precedentemente non considerate possono contribuire significativamente al rischio di insorgenza di queste condizioni.

L’introduzione di DeepRVAT, dicono gli autori, rappresenta un’importante innovazione nel campo della genetica, con profonde implicazioni per la ricerca medica e la biologia, poiché il modello non solo migliora la capacità di identificare varianti rare rilevanti per la salute, ma offre anche un framework computazionalemente efficiente e flessibile, che può essere facilmente applicato a nuovi set di dati genomici.

Infine, nonostante i brillanti e incoraggianti risultati, il modello presenta dei limiti: in primo luogo la scelta delle annotazioni genetiche più informative rimane un processo empirico e potrebbe variare a seconda dei dataset. In secondo luogo, l’analisi è stata limitata ai dati di sequenziamento dell’esoma, che coprono solo le regioni codificanti del genoma. Il sequenziamento dell’intero genoma, che include anche le regioni introniche non codificanti, potrebbe offrire informazioni ancora più dettagliate su varianti rare non ancora identificate e ad alto impatto.

di Valentino Ribecco

Source: Nature Genetics; Fondazione Telethon

Post correlati

Lascia un commento



SICS Srl | Partita IVA: 07639150965

Sede legale: Via Giacomo Peroni, 400 - 00131 Roma
Sede operativa: Via della Stelletta, 23 - 00186 Roma

Popular Science Italia © 2024