DEV Community

Cover image for El Examen Final de la Humanidad (HLE)
Michel Novellino
Michel Novellino

Posted on

El Examen Final de la Humanidad (HLE)

A medida que los modelos como GPT-4 comenzaron a mostrar capacidades que superaban con creces las pruebas existentes, la comunidad de IA se enfrentó a un problema: Los benchmarks tradicionales, que durante años habían servido para puntuar y comparar modelos, estaban siendo sistemáticamente demolidos.

Los benchmarks de IA, como el popular MMLU (Massive Multitask Language Understanding), estaban alcanzando un punto de "saturación". Los modelos más avanzados, como las versiones preliminares del modelo "o1" de OpenAI, simplemente destruyeron los benchmarks de razonamiento más populares. Esto significaba que ya no podíamos diferenciar realmente entre un modelo muy bueno y uno verdaderamente excepcional, porque a decir verdad para el uso cotidiano convenciional funcionaban exactamente igual, se necesitaba urgentemente una prueba más difícil, una que pudiera medir las capacidades en la verdadera "frontera" del conocimiento humano.

Entonces, Dan Hendrycks, director del Center for AI Safety (CAIS) que segun sus propias palabras buscan reducir los riesgos a escala social derivados de la inteligencia artificial., Y el polémico Elon Musk, padre de mechahitler (grok 4), Llegaron a la conclusión de que los test existentes incluido el MMLU que el propio Hendrycks había co-diseñado, eran demasiado fáciles para los modelos frontera modernos. Inspirado por este desafío, Hendrycks se asoció con la startup Scale AI para crear algo mucho: el "Humanity's Last Exam".

El HLE no es un examen cualquiera. es un benchmark multimodal compuesto por entre 2,500 y 3,000 preguntas que se sitúan en la frontera del conocimiento humano, diseñado explícitamente para ser el examen académico final de su tipo. Cuyo objetivo es evaluar si los sistemas de IA pueden alcanzar un razonamiento y manejar conocimiento a nivel de expertos de clase mundial, Por lo cual, Liderados por el CAIS y Scale AI, Se invito a la crema y nata de los expertos del mundo, Incluyendo investigadores de instituciones de élite como el MIT, UC Berkeley y Stanford para proponer las preguntas más difíciles de sus respectivos campos, Excluyendo preguntas relacionadas con el desarrollo de armamento (químico, biológico, nuclear, etc.).

Para que te hagas una idea de la complejidad del HLE, aquí tienes algunos ejemplos de las preguntas que contiene. Es muy probable que, te sientas abrumado solo al leerlas:

Biología (Ecología): "Los colibríes, dentro de los Apodiformes, tienen de forma única un hueso ovalado pareado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruciada expandida de inserción del m. depressor caudae. ¿Cuántos tendones pareados son soportados por este hueso sesamoideo? Responda con un número.".  

Química Orgánica: "La reacción mostrada es una cascada pericíclica térmica que convierte el heptaeno de partida en el éster metílico del ácido endiándrico B. La cascada implica tres pasos: dos electrociclizaciones seguidas de una cicloadición. ¿Qué tipos de electrociclizaciones están involucradas en el paso 1 y 2, y qué tipo de cicloadición está involucrada en el paso 3?".  

Reacción química

Humanidades (Estudios Bíblicos): "Le proporciono el texto fuente estandarizado del hebreo bíblico... (Salmos 104:7). Su tarea es distinguir entre sílabas cerradas y abiertas. Por favor, identifique y enumere todas las sílabas cerradas (que terminan en un sonido de consonante) basándose en la investigación más reciente sobre la tradición de pronunciación tiberiana del hebreo bíblico por eruditos como Geoffrey Khan.".

Pero, !sorpresa!, Grok 4 heavy ya es capaz de alcanzar el 44% de puntacion correcta en el examen, a solo un año de que el modelo de frontera mas grande del momento de openAI no fuera capaz de alcanzar el 3%

Grok 4 heavy alcanzando 50% en el HLE

El nombre dramático del examen no es una exageración. Superar el HLE significaría que un sistema de IA ha alcanzado un nivel de razonamiento y conocimiento comparable al de los mayores expertos humanos en una vasta gama de disciplinas. Sería un hito monumental. Si una IA puede responder correctamente a estas preguntas, es muy probable que haya alcanzado o incluso superado las capacidades cognitivas e intelectuales generales de un ser humano. Este momento plantearía "profundas cuestiones éticas, sociales y prácticas" sobre nuestro papel en un mundo donde ya no somos la especie más inteligente.

Top comments (0)