Un grup internacional d'investigació coliderat per l'Institut de Biologia Integrativa de Sistemes (I2SysBio), situat en el Parc Científic de la Universitat de València, publica en Nature Methods el major estudi comparatiu realitzat fins a la data sobre els mètodes que analitzen dades obtingudes per seqüenciació de lectura llarga del transcriptoma humà. Es van analitzar diferents tecnologies i diverses ferramentes informàtiques disponibles per a la seqüenciació de lectura llarga de les molècules de l'ARN, molècules fonamentals perquè els gens complisquen la seua funció. L'estudi va trobar una major diversitat d'ARN de l'esperada, la qual cosa podria tindre grans repercussions en l'estudi de malalties, envelliment i la mateixa complexitat de la vida en la Terra.
Durant anys, un consorci internacional conegut com a Projecte d'Avaluació d'Anotació del Genoma de Lectura Llarga d'ARN-Seq (LRGASP, en les seues sigles en anglés), va avaluar els mètodes i tecnologies en experiments de seqüenciació de lectura llarga d'ARN. Ara, este consorci global on CSIC té un paper fonamental ha publicat els resultats d'este esforç, oferint orientació per al futur de l'experimentació i l'anàlisi de seqüenciació d'ARN. El treball, publicat en la revista Nature Methods, avalua les fortaleses i debilitats de les dos principals plataformes de seqüenciació de lectura llarga d'ARN, Oxford Nanopore Technologies i Pacific Biosciences, així com els mètodes computacionals utilitzats per a avaluar les dades.
“Encara que el genoma humà ha sigut seqüenciat de punta a punta, encara ens enfrontem a grans desafiaments per a definir amb exactitud com els gens donen lloc a l'enorme diversitat de molècules d'ARN i proteïnes que formen un ésser viu. Este coneixement és molt important, perquè xicotets canvis en el pas d'ADN a ARN poden donar lloc a patologies”
L'ARN és el compost molecular de les cèl·lules que transmet la informació de l'ADN a les proteïnes mitjançant els processos de transcripció i traducció, que són universals per a tots els éssers vius. La seqüenciació de lectura llarga de l'ARN permet observar molècules completes d'ARN i identificar xicotets canvis en la forma en la qual els gens donen lloc a proteïnes. Eixos xicotets canvis són crítics per a la constitució d'organismes complexos com els éssers humans, i fallades en la seua síntesi s'associen a diverses malalties. La seqüenciació de lectura llarga de l'ARN s'usa per a identificar estos canvis i associar-los amb processos biològics diversos.
“Encara que el genoma humà ha sigut seqüenciat de punta a punta, encara ens enfrontem a grans desafiaments per a definir amb exactitud com els gens donen lloc a l'enorme diversitat de molècules d'ARN i proteïnes que formen un ésser viu. Este coneixement és molt important, perquè xicotets canvis en el pas d'ADN a ARN poden donar lloc a patologies”, explica Ana Conesa, professora d'investigació del CSIC en el I2SysBio i una de les investigadores que han liderat este consorci. El seu equip avaluat les prediccions d'ARN proposades per 14 laboratoris bioinformàtics de tot el món, utilitzant el programari SQANTI3 desenvolupat per este grup en el I2SysBio, una de les ferramentes bioinformàtiques de referència en el camp.
Diversitat d'ARN major de l'esperat
Es van generar més de 427 milions de seqüències de lectura llarga que van ser analitzats en l'estudi. Les dades procedien d'humans, ratolins i manatins. L'ús de dades de manatins va permetre provar els mètodes en una espècie sense un genoma de referència. “Era important provar les tècniques en una espècie no model, ja que cada vegada és més comú veure estudis amb seqüenciació de lectura llarga d'ARN en estos organismes no tan ben estudiats. Esta falta d'informació prèvia ha de ser tinguda en compte durant les anàlisis perquè pot afectar directament els nostres resultats”, assegura Francisco J. Pardo Palacios, investigador predoctoral del I2SysBio i primer firmant d'este treball.
“Era important provar les tècniques en una espècie no model, ja que cada vegada és més comú veure estudis amb seqüenciació de lectura llarga d'ARN en estos organismes no tan ben estudiats. Esta falta d'informació prèvia ha de ser tinguda en compte durant les anàlisis perquè pot afectar directament els nostres resultats”
Després d'una extensa recopilació i anàlisi de dades, el consorci va produir un conjunt de recomanacions per a la seqüenciació d'ARN. En general, els enfocaments de seqüenciació de lectura llarga funcionen molt millor que la seqüenciació de lectura curta, sent la qualitat de les lectures, més que la seua abundància, el factor clau de precisió. A més, van trobar una quantitat sorprenent de trànscrits no documentats en els genomes humans i de ratolins. “Hem vist que existix una diversitat de ARNs molt més gran del que pensàvem. Estem veient que cada individu, fins i tot cada cèl·lula, té un transcriptoma propi i personal. El següent pas és esbrinar la rellevància que té això en la malaltia, l'envelliment i la diversitat d'espècies”, resumix Ana Conesa.
El treball conclou que no existix un millor enfocament únic per a la seqüenciació de lectura llarga d'ARN. L'article descriu les millors pràctiques en funció dels diferents objectius que puguen tindre els estudis individuals. Les diferents tecnologies existents presenten diferències en les taxes d'error, rendiment de seqüenciació i la longitud de lectura, per la qual cosa els investigadors han de prioritzar quin és més important per a la seua àrea d'estudi. “Crec que això ajudarà a moltes persones que volen desenvolupar encara més la tecnologia, encara hi ha marge de millora en molts d'estos mètodes”, conclou Angela Brooks, investigadora de la Universitat de Califòrnia Santa Cruz (els EUA) i coautora de l'estudi.