DEV Community

Cover image for Más allá de la fuerza bruta: El razonamiento de la IA como un punto de equilibrio
Johan Tovar
Johan Tovar

Posted on

Más allá de la fuerza bruta: El razonamiento de la IA como un punto de equilibrio

Hay un momento, en cualquier disciplina, en el que una idea deja de ser la ocurrencia de un grupo y empieza a parecer inevitable. Una de las señales más claras de que eso está pasando es cuando dos equipos que no se conocen, que no se citan y que trabajan en ciudades distintas, llegan casi al mismo tiempo a la misma conclusión. Cuando dos personas tienen la misma idea por separado, suele ser porque la idea ya estaba "madura" en el aire. Esta semana ocurrió algo así en uno de los rincones más activos de la inteligencia artificial: cómo razonan los modelos de lenguaje.

Dos grupos independientes —uno en la Universidad del Sur de California (USC) y otro en Carnegie Mellon (CMU)— propusieron, casi en paralelo, la misma manera de entender el razonamiento de una IA: pensar no como una búsqueda, sino como una caída hacia un punto de equilibrio. Para entender por qué eso es interesante, primero vale la pena ver de dónde venimos.

El problema: hacer que una IA "piense más" es caro

Cuando hoy le pedimos a un modelo que resuelva algo difícil, el truco más común es dejarlo "pensar más". Y "pensar más", en la práctica, casi siempre significa lo mismo: generar muchas respuestas distintas y quedarse con la mejor. Es fuerza bruta. Funciona sorprendentemente bien, pero tiene dos problemas. Es caro —cada intento cuesta cómputo, es decir, dinero y energía— y no garantiza nada: gastar el doble no te da una respuesta el doble de buena. Es como buscar las llaves probando puertas al azar: con suficientes intentos quizá aciertas, pero nadie te asegura que vas mejorando.

Ese método tiene nombre en la jerga: test-time scaling, "escalar en el momento de responder". Y el problema que los investigadores quieren resolver es justamente ese: ¿se puede gastar más esfuerzo y tener la certeza de que cada paso te acerca a la respuesta correcta, en lugar de solo darte otro boleto de lotería?

Los tres trabajos, uno por uno

Tres papers de estas semanas se cruzan en esa pregunta. Vale la pena conocerlos por separado antes de ver por qué juntos cuentan una historia.

1. La teoría: razonar es caer en un valle

Equilibrium Reasoners, de Carnegie Mellon (Benhao Huang, Zhengyang Geng y Zico Kolter).

El razonamiento como una canica que cae por un paisaje de valles hasta el fondo, que es la respuesta correcta

Estos autores proponen una imagen muy intuitiva. Imagina un paisaje lleno de valles y colinas. Sueltas una canica en cualquier punto y, sin que nadie la empuje, rueda hasta el fondo del valle más cercano y se queda quieta ahí. Ese punto donde la canica descansa tiene un nombre técnico: un atractor, un estado estable hacia el que el
sistema tiende por su cuenta.

La propuesta es entrenar al modelo para que construya un paisaje donde el fondo del valle sea la respuesta correcta. Si lo logra, razonar deja de ser buscar a ciegas y pasa a ser dejar caer la canica: cada iteración la acerca un poco más al fondo. Lo elegante es que la convergencia deja de ser una esperanza y se convierte en una propiedad del sistema: más esfuerzo equivale, de verdad, a estar más cerca. Y como el fondo se reconoce solo (la canica deja de moverse), no hace falta un juez externo que revise cuál de muchas respuestas es la buena.

La idea, además, no es ciencia ficción reciente: bebe de las redes de Hopfield, modelos de los años ochenta donde la memoria funcionaba exactamente así, como estados estables hacia los que el sistema cae por sí mismo. Lo nuevo es aplicar esa vieja intuición al razonamiento de los modelos de lenguaje actuales.

Y aquí viene el dato más llamativo de todo el conjunto. En Sudoku-Extreme, una prueba de sudokus endiabladamente difíciles, un modelo que en su versión directa acierta apenas un 2.6% —prácticamente fallando siempre— supera el 99% cuando se le deja "caer" iterando, en los casos más duros desenrollando su dinámica interna el equivalente a unas 40.000 capas de profundidad. Es la prueba visible de la promesa: más vueltas no enturbian la respuesta, la afinan.

De 2,6% sin iterar a más de 99% iterando en la prueba Sudoku-Extreme

Además, el modelo reparte ese esfuerzo según la dificultad: los problemas fáciles se estabilizan en una a cinco iteraciones, mientras que los difíciles consumen mucho más. El cómputo deja de estar fijado de antemano por el tamaño del modelo y pasa a ajustarse a cada problema.

2. La aplicación: meter esa idea en modelos que "dan vueltas"

Solve the Loop: Attractor Models for Language and Reasoning, de USC (Jacob Fein-Ashley y Paria Rashidinejad).

Una familia de modelos llamada looped ("en bucle") funciona repitiendo el mismo bloque de procesamiento una y otra vez, como quien relee un párrafo varias veces para entenderlo mejor. El problema clásico es saber cuántas vueltas dar y por qué deberían ayudar.

Este trabajo toma la idea del atractor del punto anterior y la mete dentro de esos modelos en bucle: un módulo propone una respuesta inicial y otro la refina vuelta tras vuelta hasta que el resultado se estabiliza, sin fijar de antemano cuántas iteraciones hacen falta. Los resultados son notables justo donde los modelos grandes de uso general suelen tropezar: con apenas 27 millones de parámetros (una fracción minúscula comparada con los modelos de frontera) y unos mil ejemplos de entrenamiento, alcanza alrededor de un 91% de acierto en Sudoku-Extreme y un 93% en Maze-Hard, un laberinto difícil. El mensaje es que, para cierto tipo de razonamiento, la forma de la arquitectura importa más que el tamaño bruto.

Hay un detalle más, casi curioso: una vez entrenado de esta manera, el modelo arranca tan cerca del punto de equilibrio que en muchos casos se puede prescindir del mecanismo que resuelve las iteraciones, con una pérdida mínima de calidad. Como si, de tanto practicar, ya supiera caer al fondo del valle de un salto.

3. El contexto: por qué estos modelos en bucle son tan difíciles de escalar

Sparse Layers are Critical to Scaling Looped Language Models, de USC y Netflix (Ryan Lee, Jacob Biloki, Edward J. Hu y Jonathan May).

Este tercer trabajo no habla de atractores, y conviene ser honesto al respecto. Su aporte es otro, pero encaja como una pieza del mismo rompecabezas: resuelve un problema de ingeniería que volvía poco prácticos a los modelos en bucle. El problema es que, históricamente, repetir el mismo bloque una y otra vez escala mal —al reutilizar exactamente los mismos pesos en cada vuelta, el modelo se vuelve redundante y deja de mejorar—. Su hallazgo es que la solución está en usar capas dispersas (una técnica llamada "mezcla de expertos", donde en cada pasada se activan distintas partes especializadas del modelo en lugar de todo a la vez). Así, aunque el bloque sea el mismo, cada vuelta toma un camino interno distinto y recupera la riqueza de un modelo profundo, sin pagar el coste de memoria que eso implicaría.

Encontraron también algo que conecta con los otros dos: la salida del modelo se estabiliza justo en las fronteras de cada bucle, lo que las convierte en buenos puntos para "salir antes" cuando el problema ya está resuelto. No es lo mismo que el marco de atractores —es convergencia de la salida, no la teoría del punto fijo—, pero apunta en la misma dirección: los modelos en bucle convergen, y esa convergencia se puede aprovechar. Por eso lo incluyo: es la infraestructura que haría viable, a escala, lo
que los otros dos proponen.

La señal real: la coincidencia

Tres trabajos —teoría, aplicación e infraestructura— que convergen en una misma familia de ideas

Aquí está lo que de verdad importa. Tomados de a uno, cada paper es una contribución interesante más. Tomados juntos, dicen algo más grande: dos grupos que no se coordinaron —CMU desde la teoría, USC desde la aplicación— llegaron en la misma ventana de tiempo al mismo marco, el del razonamiento como caída hacia un equilibrio. Esa es la coincidencia fuerte, la que de verdad sorprende.

Pero la convergencia no es solo conceptual. Los dos trabajos comparten también una consecuencia práctica: si razonar es caer hacia un punto estable, entonces el esfuerzo de cómputo puede repartirse según la dificultad —poco para lo fácil, mucho para lo difícil— en lugar de quedar fijado por el tamaño del modelo. Y ahí es donde el tercer trabajo deja de ser un simple vecino: su hallazgo de que los modelos en bucle se estabilizan y permiten "salir antes" es justamente la pieza de ingeniería que haría sostenible ese cómputo a demanda. Tres trabajos, dos instituciones, una sola ventana de tiempo, apuntando al mismo lugar desde la teoría, la aplicación y la infraestructura.

Conviene no exagerar: no es que los tres demuestren la misma tesis —el de las capas dispersas resuelve otro problema—, sino que los tres pertenecen a la misma familia de ideas que está emergiendo a la vez. Y esa simultaneidad es, precisamente, el tipo de patrón que mirando hacia atrás suele marcar el nacimiento de una línea de investigación. No porque cada paper sea revolucionario, sino porque varias mentes independientes apuntaron al mismo territorio al mismo tiempo.

La nota de cautela

Conviene calibrar el entusiasmo. En la escala de madurez con la que sigo estos temas, esto está en fase semilla: son los primeros trabajos que formalizan la idea, todavía sin código público abierto y sin réplicas de otros grupos que confirmen los resultados. La historia de la IA está llena de marcos elegantes que se veían inevitables y no sobrevivieron al contacto con la escala real.

Pero precisamente por eso vale la pena anotarlo hoy. La gracia de seguir la frontera de un campo no es esperar a que algo sea un hecho consumado —para entonces ya es noticia vieja—, sino detectar la señal temprana y ver si crece. Si en las próximas semanas aparecen el código, las réplicas y los resultados en otros problemas, esta idea podría
pasar de curiosidad teórica a una forma seria de construir modelos que razonan. Por ahora, queda en el radar.


Esto sale de AI Frontier Radar, donde cada semana sigo de cerca lo que se publica en investigación de IA y rescato las señales que vale la pena vigilar. Basado en el radar de la semana del 19 al 25 de mayo de 2026, con datos verificados de forma independiente. Trabajos citados: "Equilibrium Reasoners" (CMU, arXiv:2605.21488), "Solve the Loop: Attractor Models for Language and Reasoning" (USC, arXiv:2605.12466) y "Sparse Layers are Critical to Scaling Looped Language Models" (USC/Netflix, arXiv:2605.09165).

Top comments (0)