DEV Community

Cover image for La inteligencia artificial general como problema: Anatomía de las "Primeras Chispas"
Michel Novellino
Michel Novellino

Posted on

La inteligencia artificial general como problema: Anatomía de las "Primeras Chispas"

El vertiginoso avance de la inteligencia artificial ha generado tanto fascinación como una creciente sensación de inquietud. En 2023, cuando la comunidad de desarrolladores apenas comenzaba a asimilar el impacto de los Modelos de Lenguaje Grandes (LLMs), un lanzamiento de Microsoft redefinió el debate. No se trataba de un nuevo producto ni del windows 12 pro-max, sino de algo de parte de Microsoft research: un informe de investigación que planteaba que podríamos estar presenciando las primeras "chispas" de Inteligencia Artificial General (AGI).

El documento, titulado "Sparks of Artificial General Intelligence: Early experiments with GPT-4", funcionó como el catalizador de una discusión que aún resuena en la industria. La afirmación de los investigadores fue audaz: una versión temprana y no refinada de GPT-4 ya exhibía indicios de una inteligencia que trascendía la simple predicción de texto. El paper analiza los hallazgos de esos investigadores y por qué sus conclusiones marcaron un punto de inflexión.

Antes de continuar, si, se que no es reciente, pero la verdad si es interesante y antes de escribir mas cosas sobre inteligencia artificial me gustaria empezar con esto, tambien pienso escribir sobre el "Humanity Last exam". Pero todo a su tiempo, (me disocio y se me olvida continuar).

Cuando el paper "Sparks of AGI" se publicó en 2023, desencadenó un montón de discusiones. Su afirmación central era tan provocadora como fascinante: una versión temprana de GPT-4, sin acceso a imágenes y antes de su lanzamiento público, exhibía una inteligencia más general que cualquier modelo anterior. Los investigadores no hablaban de una simple mejora incremental, sino de un salto cualitativo, el nucleo de la afirmacion era sencillo: Es más que un Loro Sofisticado.

Los investigadores de Microsoft describieron su asombro, señalando que "su rendimiento es sorprendentemente cercano al rendimiento a nivel humano" y que a menudo "supera ampliamente a modelos anteriores". Esto era significativo porque el modelo lograba estos resultados sin necesidad de instrucciones de ingeniería de prompts complejas, una técnica común para optimizar el rendimiento de los LLMs. Daba la impresión de que el modelo podía "razonar" de una manera más abstracta.

El cambio de paradigma observado no fue solo cuantitativo. Los modelos anteriores eran impresionantes en tareas para las que habían sido específicamente entrenados. Sin embargo, GPT-4 demostró la capacidad de generalizar su conocimiento para resolver problemas novedosos, un pilar de lo que se considera inteligencia general. El título del paper fue una declaración de intenciones y una hipótesis sobre la naturaleza de la inteligencia que estaban presenciando.

Segun los psicologos, La inteligencia se define como la capacidad mental muy general que, entre otras cosas, implica la capacidad de razonar, planificar, resolver problemas, pensar de forma abstracta, comprender ideas complejas, aprender rápidamente y aprender de la experiencia,los investigadores presentaron ejemplos que demostraban estas capacidades emergentes. No se trataba de simples preguntas, sino de tareas complejas que requerían razonamiento, creatividad y síntesis de conocimiento como:

Codificación y Visión Sintética: Uno de los ejemplos más citados fue la capacidad de GPT-4 para generar código complejo y funcional. Por ejemplo, al pedírsele que creara un juego 3D en HTML y JavaScript, lo hizo con éxito. En otra prueba, se le dio el prompt: "Produce código Javascript que cree una imagen gráfica aleatoria que parezca una pintura de Kandinsky". El modelo generó un código que evocaba el estilo del artista, demostrando una comprensión que conectaba conceptos de arte y programación.

Razonamiento Interdisciplinario: El modelo demostró una asombrosa habilidad para conectar conceptos de campos dispares, resolviendo problemas que requerían conocimientos de matemáticas, codificación y medicina dentro de una misma tarea. Esta capacidad de síntesis es lo que lo diferenció radicalmente de modelos anteriores, que operaban en silos de información.

La Dualidad de la Capacidad: Brillantez y Fragilidad

A pesar del entusiasmo, los propios investigadores de Microsoft fueron cautelosos al señalar las limitaciones del modelo. El paper destaca que GPT-4, a pesar de sus destellos de brillantez, mostraba una "tendencia persistente a alucinar o generar información incorrecta", lo cual persiste a nuestros días, por mas que trates de hacer un "ajuste fino" en ocasiones solo nos podemos limitar a bajar la tasa de errores. Además, presentaba dificultades notables con la planificación a largo plazo y la precisión en cálculos aritméticos.

Estas debilidades quedaron patentes en pruebas que requerían planificación o un razonamiento de varios pasos. Por ejemplo, al preguntarle directamente cuántos números primos hay entre 150 y 250, el modelo daba una respuesta incorrecta (13). Sin embargo, si se le pedía que primero listara todos los números primos en ese rango y luego los contara, llegaba a la respuesta correcta (18).

Este fallo demostró que el modelo poseía el conocimiento necesario, pero carecía de lo que los investigadores describieron como un "monólogo interno" o un "borrador mental" para realizar el proceso de conteo en un solo paso. Necesitaba ser guiado explícitamente para "pensar paso a paso".

La fragilidad era aún más evidente en la aritmética básica. Al enfrentarse a operaciones simples como 7 * 4 + 8 * 8, el modelo a menudo fallaba, alcanzando apenas un 58% de precisión en pruebas con números de un solo dígito. Los investigadores atribuyeron esto a una "memoria de trabajo increíblemente corta" (lo que hoy conocemos como la ventana de contexto) para este tipo de problemas. Su capacidad para planificar y ejecutar cálculos secuenciales era sorprendentemente débil, demostrando que su razonamiento, aunque a veces brillante, no se basaba en un proceso lógico robusto, sino en la predicción secuencial de la arquitectura del modelo.

Esta dualidad —la coexistencia de un razonamiento casi humano con fallos lógicos básicos— revela la tensión fundamental en el desarrollo de la IA. La capacidad de resolver problemas (inteligencia) y la capacidad de hacerlo de manera fiable y veraz (alineación) no escalan al mismo ritmo. El hecho de que OpenAI dedicara seis meses adicionales a mejorar la seguridad del modelo después de estas observaciones es una prueba de ello. La capacidad bruta emerge primero; la seguridad debe construirse meticulosamente después. Esta brecha es, en esencia, el núcleo del problema de la seguridad en la IA y la razón por la que se necesitan nuevas y más exigentes formas de evaluación y quizá la razon de ser del Humanity Last Exam.

Del cual espero poder escribir en este año y no en 3 como parece ser el ritmo en el que hago las cosas. En fin, si llegaste hasta aqui agradezco tu tiempo y espero me leas nuevamente luego, hasta la proxima.

Top comments (0)