Un equipo del Centro de Regulación Genómica (CRG) y de la Universitat Pompeu Fabra (UPF) de Barcelona ha desarrollado una herramienta de inteligencia artificial (IA) capaz de diseñar secuencias reguladoras de genes que no existen en la naturaleza. Al introducirlos en las células, estos potenciadores pueden aumentar o disminuir la actividad de genes de forma específica según el tipo celular sobre el que se desee actuar. Según los autores, "las aplicaciones potenciales son enormes. Es como escribir software, pero para la biología”. Los resultados se publican en la revista Cell.

Darío Lupiáñez - CRG potenciadores
Darío Lupiáñez
Investigador principal del grupo 3D Genomics en el Centro Andaluz de Biología del Desarrollo (CABD)
¿Qué le parece el estudio en global? ¿Es de buena calidad?
"A pesar de que se tiene acceso a la secuencia del genoma humano desde 2001, la realidad es que, más de dos décadas después, su funcionamiento sigue siendo enigmático en muchos aspectos. Mucho antes de ese gran hito ya habíamos logrado descifrar el código genético, es decir, los principios por los cuales los genes dan lugar a las proteínas. Sin embargo, los genes representan solo el 2 % del genoma; el porcentaje restante corresponde al ADN no codificante (denominado en el pasado, de forma errónea, como ADN basura). Dentro de ese 98 % existe otro código que tal vez tiene mayor relevancia y cuyo funcionamiento continúa siendo un misterio: el código regulatorio.
Para que las células funcionen correctamente, los genes deben activarse en el momento preciso, en el lugar adecuado y en la cantidad correcta. Esta activación no ocurre al azar, sino que depende de ciertas secuencias específicas del ADN llamadas potenciadores. Los potenciadores actúan como interruptores genéticos que controlan qué genes se encienden y cuándo lo hacen. Estudios recientes estiman que el genoma no codificante contiene millones de potenciadores. A pesar de conocer de su existencia desde hace décadas, aún no comprendemos cómo funcionan este tipo de secuencias, es decir, qué combinación de letras del ADN (los nucleótidos A, C, G y T) les permite hacer su trabajo en cada contexto específico. En ese sentido, este estudio supone un paso muy importante para entender ese código que regula la actividad de los genes.
El estudio, llevado a cabo por investigadores del CRG y la UPF, aborda este problema mediante el uso de la inteligencia artificial para diseñar miles de secuencias de ADN sintéticas, cada una con una combinación diferente de motivos de unión. Estos motivos son secuencias muy cortas de nucleótidos que pueden atraer a ciertas proteínas llamadas factores de transcripción. Estas proteínas son clave, ya que se unen a los potenciadores y activan o bloquean los genes. Los investigadores evaluaron estas secuencias en un modelo de diferenciación de células sanguíneas, mediante el uso de tecnologías de análisis paralelo y masivo de reporteros. Esta tecnología permite el estudiar miles de secuencias diferentes al mismo tiempo. Este enfoque ha permitido descifrar algunas de las reglas que rigen el funcionamiento de estos interruptores genéticos en diferentes contextos celulares.
En resumen, se trata de un trabajo excelente desde un punto de vista experimental y computacionalmente, que combina herramientas de biología sintética, inteligencia artificial y biología celular de manera innovadora".
¿Cómo encaja con la evidencia existente y qué novedades aporta? ¿Qué implicaciones podría tener?
"Este estudio explora cómo las combinaciones de motivos dentro de la secuencia de los potenciadores influyen en la función de estos, estableciendo así las reglas que nos permiten entender su funcionamiento. Una de las observaciones más relevantes de este estudio es que el comportamiento de las combinaciones de motivos puede ser bastante impredecible e incluso contraintuitivo. Por ejemplo, ciertos motivos pueden causar activación de genes cuando actúan de manera aislada. Sin embargo, al combinarse con otros motivos activadores pueden tener el efecto contrario y reducir la expresión. Además, los autores descubren que estas combinaciones de motivos no funcionan igual en todos los tipos celulares. Es decir, una misma secuencia puede ser muy activa en un tipo celular, pero completamente inactiva en otra. Esto pone de manifiesto que cada tipo celular tiene una forma particular de “interpretar” el código, lo que añade un grado de complejidad a la regulación de los genes.
A través del análisis de miles de estas combinaciones, los autores construyen modelos predictivos que permiten predecir qué tipo de secuencia estará activa en un contexto específico. De esta manera logran diseñar potenciadores sintéticos que pueden activar genes de forma específica en un tipo celular concreto. Este tipo de activación puede emplearse para dirigir el proceso de diferenciación hacia tipos celulares concretos, o para tratar ciertas enfermedades con base genética. Tradicionalmente, las terapias génicas han empleado potenciadores que se encuentran de manera natural en el genoma, pero estos a menudo no son lo suficientemente específicos y pueden activar genes en tejidos no deseados, causando efectos secundarios. El diseño de potenciadores “a la carta”, como se detalla en este estudio, permitiría controlar la expresión génica con mucha mayor precisión, reduciendo riesgos y ampliando las posibilidades de este tipo de terapias.
Más allá de las aplicaciones en biomedicina, estos descubrimientos también son relevantes en otras áreas científicas. Entender cómo funciona el código del genoma puede ayudarnos a predecir cómo ciertas mutaciones podrían contribuir a enfermedades genéticas, al alterar el funcionamiento de los potenciadores. Además, estos principios pueden aplicarse a otras especies, lo cual abre puertas en campos como la agricultura (por ejemplo, diseñar plantas con características específicas) o la biotecnología industrial".
¿Hay limitaciones importantes que haya que tener en cuenta?
"El trabajo realizado por los autores es impresionante, desde un punto de vista conceptual y tecnológico. Sin embargo, los altos costes asociados a este tipo de experimentos limitan el estudio a 38 factores de transcripción y 7 tipos celulares diferentes. A pesar de constituir un esfuerzo notable, esto representa solo una pequeña fracción de las posibilidades combinatorias, ya que en el cuerpo humano existen más de 1600 factores de transcripción y más de 200 tipos celulares diferentes. Por ello, para descifrar completamente el “código regulatorio” que rige la actividad de los potenciadores, sería necesario analizar muchas más combinaciones de motivos en una variedad más amplia de contextos celulares.
Este trabajo no hace sino poner de manifiesto algo que se sospechaba: que la capacidad combinatoria y regulatoria del genoma regulatorio es prácticamente infinita, lo que proporciona un sustrato fértil para la aparición de nuevos tipos celulares y funciones en un contexto evolutivo. En ese sentido, este estudio representa un paso crucial en el entendimiento de ese código regulatorio, demostrando que es posible empezar a descifrar sus reglas. Además, pone de manifiesto la utilidad de la inteligencia artificial para abordar problemas combinatorios de elevada complejidad, sentando las bases para estudios más amplios en el futuro".
- Artículo de investigación
- Revisado por pares
Frömel et al.
- Artículo de investigación
- Revisado por pares