Josep Curto
Director académico del Máster en Inteligencia de Negocios y Big Data en la Universitat Oberta de Catalunya (UOC) y profesor adjunto en IE Business School
Tras revisar el artículo, podemos comentar que se trata de un artículo riguroso que ofrece una visión diferente y que generará controversia respecto a la evolución de los sistemas LLMs [grandes modelos de lenguaje]. No es el primer artículo que pone en duda los benchmark usados [pruebas para medir el rendimiento] para comparar diferentes modelos (tanto contra versiones anteriores del mismo fabricante o contra los competidores). Un enfoque complementario sería el de LiveBench: A Challenging, Contamination-Free LLM Benchmark (el ranking se puede encontrar aquí) en que se presupone que los conjuntos de datos de entrenamiento contienen las respuestas del benchmark y, por ello, los resultados son mejores que en realidad.
Uno de los grandes retos en el contexto de los LLMs es la interpretabilidad y explicabilidad (para los humanos). Desafortunadamente, a medida que la arquitectura crece en complejidad, la explicación también crece en complejidad y puede llegar rápidamente a superar nuestra capacidad de comprensión.
[La investigación] ofrece un enfoque novedoso para evaluar los LLMs que esperemos pueda extenderse más allá en futuros trabajos.
[En cuanto a limitaciones] Como ya se comenta en el artículo, los humanos que han participado no son expertos en la materia. Otra limitación es no incluir GPT 4o, GPT o1 u otras versiones nuevas, pero teniendo en cuenta que cada semana aparecen nuevos LLMs (que prometen un mejor rendimiento que el resto) es complicado realizar un estudio de este tipo sin fijar los LLMs con los que se trabajarán.