Autor/es reacciones

Beatriz Seoane Bartolomé

Profesora del departamento de Física Teórica y miembro del grupo Dinámica de sistemas desordenados de la Universidad Complutense de Madrid

El problema de predecir la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos, conocido como el ‘problema del plegamiento de proteínas’ (protein folding problem), ha sido un desafío central no solo para la biología, sino también para la Química y la Física. Su importancia radica en que comprender cómo las proteínas se pliegan es crucial para entender su función en los organismos y, por extensión, en la vida misma. Además, esta comprensión tiene aplicaciones prácticas significativas, como el diseño de enzimas optimizadas para procesos industriales y el desarrollo de anticuerpos para combatir diversas enfermedades. 

La razón por la que es tan importante conocer la estructura tridimensional de una proteína es que su función depende principalmente de su forma y no solo de la secuencia específica de aminoácidos. Es posible que secuencias muy diferentes den lugar a formas similares con funciones prácticamente iguales, al igual que pequeños cambios en una secuencia proteica pueden desnaturalizarla y destruir su función. Durante décadas, la Física ha tratado de predecir estas estructuras mediante la modelización de las interacciones entre los aminoácidos. Sin embargo, el reto es doble: primero, es necesario modelar con precisión estas interacciones, lo cual requiere campos de fuerzas muy bien calibrados; segundo, incluso con una buena modelización, encontrar la estructura de mínima energía (es decir, el estado de equilibrio) resulta extremadamente lento desde el punto de vista computacional. Esto se debe a que el plegamiento de proteínas es un problema de optimización altamente complejo, con muchas interacciones que pueden ser opuestas en naturaleza. Hasta la fecha, las simulaciones de dinámica molecular solo han podido reproducir eficazmente las estructuras de proteínas muy pequeñas. 
 
En la última década, el enfoque hacia el problema del plegamiento de proteínas cambió de forma radical, principalmente debido a la acumulación masiva de secuencias proteicas en bases de datos, algo que fue posible gracias a la drástica reducción en los costos de la secuenciación genómica. La nueva idea era simple pero innovadora: aunque no comprendemos completamente cómo modelar las interacciones entre los aminoácidos, ahora tenemos acceso a una enorme cantidad de datos sobre secuencias proteicas y sus variaciones mutacionales viables, es decir, aquellas que han sobrevivido a la presión evolutiva. 
 
En lugar de tratar de modelar las interacciones a nivel físico, los investigadores comenzaron a estudiar estadísticamente familias de ‘proteínas homólogas’, es decir, secuencias con funciones similares en organismos diferentes pero relacionadas evolutivamente. A partir de estos datos, pudieron inferir dos cosas clave: primero, qué aminoácidos no podían mutar de manera aislada sin desnaturalizar la proteína; y segundo, qué pares de aminoácidos debían estar en contacto en la estructura tridimensional, ya que una mutación en uno de ellos desestabilizaría esos contactos críticos y, con ello, la estructura. 
 
Este enfoque bioinformático, completamente ‘basado en datos’ (data-driven), junto con la mejora en los modelos que permitían identificar correlaciones más allá de pares de aminoácidos, permitió aprender de manera efectiva las ‘ligaduras mutacionales importantes’, es decir, las restricciones sobre cómo podían cambiar los aminoácidos sin alterar la función de la proteína. Posteriormente, esta estrategia se combinó con métodos de ‘aprendizaje automático supervisado’, donde los modelos aprendían a predecir la estructura tridimensional de proteínas cuyas estructuras ya se conocían, utilizando sus secuencias como base de entrenamiento. 
 
Este enfoque culminó en un hito histórico en 2020, durante la competición CASP (Critical Assessment of Structure Prediction), cuando AlphaFold2 logró predecir con gran precisión la estructura de proteínas que nunca antes habían sido resueltas experimentalmente. Sorprendentemente, esto incluyó proteínas con secuencias muy diferentes de las estudiadas previamente, donde los métodos tradicionales fallaban estrepitosamente. Así, el problema del plegamiento de proteínas se resolvió de manera práctica, no a través de la modelización física detallada de sus componentes, sino imitando patrones de los datos evolutivos almacenados. 
 
Este logro ha supuesto una verdadera revolución en la biología computacional, donde la combinación de grandes volúmenes de datos con el poder de la inteligencia artificial ha superado décadas de intentos basados exclusivamente en modelos físicos. 

ES