Un grup d'investigació liderat pel I2SysBio desenvolupa una nova ferramenta informàtica per a investigar la complexitat del genoma

15/04/2024

L'Institut de Biologia Integrativa de Sistemes (I2SysBio), situat en el Parc Científic de la Universitat de València, publica en Nature Methods un software propi per a analitzar dades obtingudes per seqüenciació de lectura llarga del genoma. Aquest sistema permet descobrir noves molècules d'ARN i assignar-los una funció  en la creació de teixits. S'aprofundix així en el coneixement de la formació de l'organisme i les seues malalties

La complexitat d'un organisme emergix del seu genoma, el llibre que conté les instruccions del seu ADN per a la vida. El mètode per a llegir este llibre, la seqüenciació, ha evolucionat cap a la lectura de fragments cada vegada més llargs del genoma. En este camp, un grup d'investigació liderat per l'Institut de Biologia Integrativa de Sistemes (I2SysBio), situat en el Parc Científic de la Universitat de València (PCUV), ha publicat en Nature Methods una millora d'un programa informàtic propi capaç de descobrir nous trànscrits, molècules d'ARN que usen els gens per a sintetitzar proteïnes i crear teixits, a partir de la seua seqüenciació amb instruments de lectura llarga, així com assignar-los una funció en la formació de l'organisme.

La seqüenciació de lectura llarga (long-read sequencing) és la tercera generació de mètodes de seqüenciació del genoma. Enfront de la lectura de fragments curts, que analitza uns 200 nucleòtids (les ‘lletres’ que componen els gens), els mètodes de lectura llarga poden obtindre lectures 100 vegades més llargues, uns 20.000 nucleòtids, la qual cosa deixa menys buits en la informació del genoma per a emplenar mitjançant ferramentes bioinformàtiques. Esta va ser una de les raons perquè la mateixa Nature Methods ho considerara ‘Mètode de l'Any 2022’.

Uns anys abans, en 2018, la investigadora Ana Conesa, llavors en la Universitat de Florida, va desenvolupar un programa informàtic anomenat SQANTI per a analitzar la informació que s'extreia mitjançant estos mètodes de lectura llarga. Ara, el seu equip d'investigació en el I2SysBio publica en Nature Methods una millora substancial d'este programari que es pot usar lliurement en els principals sistemes comercials que empren seqüenciació de lectura llarga, Pacific Biosciences (PacBio) i Oxford Nanopore Technologies (ONT).

“Les tècniques de lectura llarga analitzen millor la complexitat dels  trànscrits i el transcriptoma humans”, opina Conesa. Això identifica la porció del genoma que es llig en cada cèl·lula per a donar lloc a teixits i òrgans. Així, un únic gen pot donar lloc, mitjançant xicotets canvis en l'estructura d'ARN que codifica, a una gran diversitat tránscritos, i amb ells de proteïnes amb diferents funcions cel·lulars… “La seqüenciació de lectura curta no pot resoldre este puzle. La lectura llarga reconstruïx millor la complexitat funcional del transcriptoma humà, una cosa clau per a estudiar determinades malalties, sobretot de tipus neurològic i en càncer”, sosté la investigadora del CSIC.

“La lectura llarga reconstruïx millor la complexitat funcional del transcriptoma humà, una cosa clau per a estudiar determinades malalties, sobretot de tipus neurològic i en càncer”, Ana Conesa, investigadora del I2SysBio

Entendre millor la complexitat de l'organisme i les malalties

La versió publicada ara, SQANTI3, soluciona alguns problemes anteriors, derivats de la degradació de l'ARN o l'anàlisi única de cada molècula, per a introduir notables millores. El programa és capaç ara de descobrir nous trànscrits que no estaven en les bases de dades del genoma que usen estos programes informàtics. A més, mitjançant tècniques d'Intel·ligència Artificial, el programari pot assignar informació funcional per al nou trànscrit, “una cosa essencial per a entendre la complexitat funcional de l'organisme i de les malalties”, remarca Conesa. 

Per a desenvolupar este programa informàtic s'ha usat el clúster de computació Garnatxa del I2SysBio, que disposa de 15 nodes de computació  capaços d'oferir 950 fils de còmput en paral·lel. A més, el grup Genòmica de l'Expressió Gènica que dirigix Ana Conesa en el I2SysBio participa en ELIXIR, una de les infraestructures estratègiques per a Fòrum Estratègic Europeu sobre Infraestructures d'Investigació (ESFRI) que permet a laboratoris de ciències de la vida de tota Europa compartir i emmagatzemar les seues dades. 

En el desenvolupament de SQANTI3 van col·laborar la Universitat de Florida i Pacific Biosciences, una de les empreses que comercialitza la tecnologia per a la seqüenciació de lectura llarga mitjançant el seu sistema PacBio, que recomana l'ús del programari espanyol per a analitzar les seues dades. L'ús del programa informàtic és lliure, comptant ja amb “milers d'usuaris a tot el món”, segons Conesa, encara que “l'èxit d'esta ferramenta requerix també de més personal tècnic per a atendre les nombroses peticions que rebem”. Així, la investigadora ha coliderat la recent posada en marxa de la Connexió CSIC de Biologia Computacional i Bioinformàtica, una plataforma per a connectar persones, mètodes i recursos en estos àmbits en el CSIC.