Un proyecto español desarrolla una IA para predecir el agregado de proteínas

Un equipo liderado por el Centro de Regulación Genómica (CRG) de Barcelona y el Instituto de Bioingeniería de Cataluña (IBEC) ha desarrollado y utilizado una nueva herramienta de inteligencia artificial (IA) —denominada CANYA—, junto con un gran volumen de datos, para predecir cuándo y por qué tiene lugar la agregación de proteínas. El recurso podría servir para avanzar en la investigación de enfermedades neurodegenerativas y en la producción de fármacos, según la nota de prensa conjunta. Los resultados se publican en la revista Science Advances.

SMC España

30/04/2025 - 20:00 CEST

English version

Reacciones

Alfonso Valencia - IA CANYA

Alfonso Valencia

Profesor ICREA y director de Ciencias de la Vida en el Centro Nacional de Supercomputación de Barcelona (BSC)

Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC-CNS)

Science Media Centre España

Este trabajo representa una nueva tendencia en el desarrollo de herramientas predictivas. Tradicionalmente se recopilan datos existentes, como información sobre proteínas que se sabe que forman agregados, y luego se diseña un método computacional para analizarlos. Aquí se invierte el proceso: primero se crea un sistema experimental robusto, rápido y económico para generar datos artificiales a gran escala, datos más amplios y variados que los disponibles en la naturaleza y, por tanto, potencialmente mejores para entrenar un sistema con mejores capacidades predictivas.

En esta publicación, investigadores del CRG e IBEC han diseñado un ensayo a gran escala que mide la agregación de proteínas mediante la tasa de crecimiento de células que expresan fragmentos de ADN aleatorios de longitud definida. Una red neuronal entrenada con estos datos clasifica con precisión los fragmentos que promueven la agregación, superando a métodos anteriores basados en datos de proteínas reales. La aparente paradoja es que una gran cantidad de datos artificiales pueda ser más útil que una pequeña cantidad de datos "de alta calidad". Como precedente, el grupo de Oded Regev, trabajando en un área específica de genómica, diseñó un sistema capaz generar y evaluar cientos de miles de secuencias artificiales para entrenar su nuevo predictor.

En términos generales, esta publicación avanza en la comprensión de la agregación de proteínas, un tema con importantes implicaciones biomédicas (enfermedades neurodegenerativas) y biotecnológicas (producción industrial de proteínas). Utilizando tecnología de interpretación de los resultados de redes neuronales, el estudio sugiere una nueva versión de los patrones de secuencia que favorecen la agregación, lo que puede contribuir a comprender cómo las mutaciones y los factores externos influyen en el proceso de agregación e indicar como controlarlo.

No declara conflicto de interés

Language ES

Gonzalo Jiménez-Oses - CANYAS

Gonzalo Jiménez-Oses

Profesor de investigación Ikerbasque en el Laboratorio de Química Computacional del CIC bioGUNE

CIC bioGUNE - Centro de Investigación Cooperativa en Biociencias

Science Media Centre España

El artículo describe un experimento que evalúa indirectamente —mediante un ensayo genómico celular basado en constructos de fusión— la capacidad de agregación de secuencias de aminoácidos aleatorias correspondientes a péptidos de 20 residuos. La gran mayoría de estas secuencias resultó no agregante. Sin embargo, el elevado número de secuencias analizadas permitió entrenar una red neuronal de arquitectura sencilla capaz de clasificar dichos péptidos como agregantes o no agregantes.

El modelo confirma conocimientos previos sobre algunos de los principales determinantes de la agregación, como los motivos hidrofóbicos y ricos en láminas β. Aunque su capacidad predictiva para proteínas nativas de mayor tamaño y estructura globular sigue siendo limitada, y existe una marcada dependencia posicional de la secuencia, el trabajo supone un avance en la investigación de la propensión intrínseca de agregación que pueden presentar los péptidos cortos, con aplicaciones en el ámbito farmacéutico.

Asimismo, ilustra la importancia de generar conjuntos de datos experimentales amplios, diversos y estandarizados de alta calidad para el desarrollo de modelos de IA aplicados a la biofísica de proteínas y, en general, a la ciencia.

No declara conflicto de interés

Language ES

Publicaciones