Wolfram Research ha lanzado un ambicioso proyecto para evaluar el rendimiento de los modelos de lenguaje de gran tamaño (LLM), centrándose inicialmente en tareas de generación de código. Utilizando el Wolfram Language como entorno de prueba, el proyecto examina qué tan eficientemente los LLM pueden traducir instrucciones en lenguaje natural a código funcional.
El conjunto de pruebas se basa en ejercicios seleccionados del libro "An Elementary Introduction to the Wolfram Language", donde los modelos deben generar código que sea funcional, preciso y semánticamente correcto. Este enfoque permite evaluar la comprensión contextual, la capacidad de generalización y la exactitud sintáctica de los LLM.
Los resultados, que se actualizan de forma continua, están disponibles públicamente en el Wolfram Data Repository, permitiendo a investigadores y desarrolladores comparar el rendimiento de modelos como GPT, Claude, Gemini y LLaMA en un mismo marco.
Ver la nota completa: https://www.wolfram.com/llm-benchmarking-project/