Un equipo liderado por el Centro de Regulación Genómica (CRG) de Barcelona y el Instituto de Bioingeniería de Cataluña (IBEC) ha desarrollado y utilizado una nueva herramienta de inteligencia artificial (IA) —denominada CANYA—, junto con un gran volumen de datos, para predecir cuándo y por qué tiene lugar la agregación de proteínas. El recurso podría servir para avanzar en la investigación de enfermedades neurodegenerativas y en la producción de fármacos, según la nota de prensa conjunta. Los resultados se publican en la revista Science Advances.

Alfonso Valencia - IA CANYA
Alfonso Valencia
Profesor ICREA y director de Ciencias de la Vida en el Centro Nacional de Supercomputación de Barcelona (BSC)
Este trabajo representa una nueva tendencia en el desarrollo de herramientas predictivas. Tradicionalmente se recopilan datos existentes, como información sobre proteínas que se sabe que forman agregados, y luego se diseña un método computacional para analizarlos. Aquí se invierte el proceso: primero se crea un sistema experimental robusto, rápido y económico para generar datos artificiales a gran escala, datos más amplios y variados que los disponibles en la naturaleza y, por tanto, potencialmente mejores para entrenar un sistema con mejores capacidades predictivas.
En esta publicación, investigadores del CRG e IBEC han diseñado un ensayo a gran escala que mide la agregación de proteínas mediante la tasa de crecimiento de células que expresan fragmentos de ADN aleatorios de longitud definida. Una red neuronal entrenada con estos datos clasifica con precisión los fragmentos que promueven la agregación, superando a métodos anteriores basados en datos de proteínas reales. La aparente paradoja es que una gran cantidad de datos artificiales pueda ser más útil que una pequeña cantidad de datos "de alta calidad". Como precedente, el grupo de Oded Regev, trabajando en un área específica de genómica, diseñó un sistema capaz generar y evaluar cientos de miles de secuencias artificiales para entrenar su nuevo predictor.
En términos generales, esta publicación avanza en la comprensión de la agregación de proteínas, un tema con importantes implicaciones biomédicas (enfermedades neurodegenerativas) y biotecnológicas (producción industrial de proteínas). Utilizando tecnología de interpretación de los resultados de redes neuronales, el estudio sugiere una nueva versión de los patrones de secuencia que favorecen la agregación, lo que puede contribuir a comprender cómo las mutaciones y los factores externos influyen en el proceso de agregación e indicar como controlarlo.
Gonzalo Jiménez-Oses - CANYAS
Gonzalo Jiménez-Oses
Profesor de investigación Ikerbasque en el Laboratorio de Química Computacional del CIC bioGUNE
El artículo describe un experimento que evalúa indirectamente —mediante un ensayo genómico celular basado en constructos de fusión— la capacidad de agregación de secuencias de aminoácidos aleatorias correspondientes a péptidos de 20 residuos. La gran mayoría de estas secuencias resultó no agregante. Sin embargo, el elevado número de secuencias analizadas permitió entrenar una red neuronal de arquitectura sencilla capaz de clasificar dichos péptidos como agregantes o no agregantes.
El modelo confirma conocimientos previos sobre algunos de los principales determinantes de la agregación, como los motivos hidrofóbicos y ricos en láminas β. Aunque su capacidad predictiva para proteínas nativas de mayor tamaño y estructura globular sigue siendo limitada, y existe una marcada dependencia posicional de la secuencia, el trabajo supone un avance en la investigación de la propensión intrínseca de agregación que pueden presentar los péptidos cortos, con aplicaciones en el ámbito farmacéutico.
Asimismo, ilustra la importancia de generar conjuntos de datos experimentales amplios, diversos y estandarizados de alta calidad para el desarrollo de modelos de IA aplicados a la biofísica de proteínas y, en general, a la ciencia.
- Artículo de investigación
- Revisado por pares
Thompson et al.
- Artículo de investigación
- Revisado por pares