Lluís Montoliu
Investigador en el Centro Nacional de Biotecnología (CNB-CSIC) y en el CIBERER-ISCIII
La obtención del primer genoma humano, en 2001, fue un hito impresionante. Conseguir leer las más de tres mil millones de pares de bases del genoma (aunque con muchos agujeros e indeterminaciones) nos permitió, por vez primera, tener un genoma de referencia con el que comparar cualquier otro genoma individual para identificar posibles mutaciones causantes de enfermedad. Ese primer genoma secuenciado no pertenecía a un solo individuo, sino que se usaron datos genéticos de diversas personas para construirlo. La tecnología usada permitía obtener lecturas relativamente cortas. Con el desarrollo de la secuenciación masiva, que en general progresa con lecturas igualmente cortas, de unas 150 bases, combinada con las lecturas de secuencias largas en 2022, se completaron muchos de los agujeros y se añadieron alrededor de 200 millones de letras nuevas al genoma humano, a través de un consorcio de investigadores autodenominado “de telómero a telómero” (T2T en sus siglas en inglés) refiriéndose a los extremos de los cromosomas, los telómeros. Algo así como “de cabo a rabo”. En 2023 se completó la secuencia del cromosoma Y, el más pequeño de todos, que no se había podido obtener, añadiéndose otros 30 millones de letras adicionales al genoma humano, que pasaba a tener un tamaño de 3230 millones de pares de letras. Dos humanos cualesquiera comparten el 99,9% de esas letras, diferenciándose en apenas un 0,1%, que corresponde a unos 3,2 millones de letras (que heredamos de nuestra madre y otras tantas de nuestro padre).
La tecnología que permite leer lecturas de cadenas de ADN de gran longitud, de decenas o centenares de miles de letras intactas, permitió en 2023 empezar a descubrir una variabilidad genética subyacente entre los diferentes genomas humanos que se obtuvieron. Entonces se caracterizaron genomas de 47 poblaciones de todo el mundo. Fue la primera versión del llamado “Pangenoma”, un conjunto de genomas que recoge la variabilidad genética existente entre los seres humanos. No existe un solo genoma, sino que cada población (y, en esencia, cada individuo) tenemos genomas ligeramente diferentes, especialmente en las regiones intergénicas, entre los genes, las mayoritarias del genoma que ocupan nada menos que el 98% de nuestro, dejando el 2% restante para nuestros veinte mil genes, que son los que necesitamos para vivir.
Esta semana se publican en la revista Nature sendos trabajos colaborativos, relacionados, del consorcio T2T junto con la aportación de muchos otros laboratorios internacionales (mayoritariamente alemanes y norteamericanos), en los que se han aplicado las versiones más optimizadas de tecnologías de lecturas de secuencias largas de ADN. Y lo que han encontrado estos investigadores es un montón de variantes estructurales (SV en sus siglas en inglés), anteriormente desconocidas, que habían pasado desapercibidas. Por ejemplo, si tenemos un segmento de ADN de 5000 letras repetido unas cuantas veces en tándem y secuencias el genoma a partir de fragmentos pequeños de 150 letras, dado que la secuencia de cada uno de estos segmentos es fundamentalmente idéntica, no vas a poder deducir que hay tantas repeticiones y, a lo sumo, vas a deducir la existencia de unos pocos de estos segmentos. Sin embargo, si aplicas la tecnología de lecturas largas y eres capaz de hacer pasar por un nanoporo larguísimas secuencias de ADN que contengan todas estas unidades repetidas en tándem, en forma de repeticiones directas o invertidas, podrás deducir que hay en una persona 47 repeticiones, por ejemplo, mientras que otra tiene solo 23, y además las tiene invertidas, por ejemplo. Es decir, de nuevo se describe una variabilidad genética adicional subyacente en nuestros genomas que sospechábamos pero que desconocíamos o no habíamos sido capaces de interpretar hasta que no han aparecido técnicas que permiten leer secuencias muy largas de ADN intacto, como son las que aportan los métodos más sofisticados de secuenciación desarrollados por las empresas Oxford Nanopore Technologies (ONT) y PacBio.
Un primer trabajo reporta hasta 65 genomas humanos tipo (aumentando el pangenoma) que contienen hasta 130 haplotipos (fragmentos cromosomales contiguos que se heredan conjuntamente de padres a hijos), completando muchos de los intervalos desconocidos y agujeros que todavía tenía el genoma humano. Un segundo trabajo detalla la secuenciación más precisa, con lecturas de gran tamaño, obtenida de más de mil seres humanos, con lo logran distinguir hasta 100 mil variantes estructurales y 300 mil secuencias genéticas en número variable que se agrupan en forma de tándems. Los elementos móviles, los genes saltarines, los trasposones y retrotrasposones, se apuntan como el origen de esta diversidad estructural, combinada con la existencia de fenómenos de recombinación homóloga, es decir, de mezcla de secuencias en base a la similitud de sus bases.
Todavía desconocemos bastante del significado e impacto real de tener 40 o 400 copias de un segmento determinado del ADN, pero estas dos publicaciones lo que nos demuestran es que cada genoma de cada individuo es único, con variaciones estructurales propias, que pueden coexistir en una población, de ahí que el recurrir al pangenoma (al conjunto de genomas descriptivos de decenas de poblaciones humanas) sea ahora nuestro nuevo “genoma de referencia”, el que debamos usar (ya no uno solo, sino muchos genomas) para deducir la presencia o ausencia de mutaciones en genes o en secuencias intergénicas que nos sirvan para diagnosticar a las personas con enfermedades de base genética. El diagnóstico genético siempre es previo al desarrollo de cualquier terapia génica que pueda considerarse. Por ello estas dos publicaciones son relevantes, porque nos muestran la complejidad adicional que tiene nuestro genoma, mucho más variable entre individuos de lo que nunca imaginamos. Y eso nos debería permitir diagnosticar genéticamente mejor a enfermos afectados por patologías o trastornos congénitos