Richard Sutton, uno de los padres del aprendizaje por refuerzo y Premio Turing 2024, lanzó una tesis incómoda para la industria: la IA generativa entrenada con aprendizaje supervisado es, por diseño, incapaz de hacer descubrimientos genuinamente nuevos. En una charla grabada para la SAIR Foundation, el investigador sostiene que estos modelos pueden ser novedosos o buenos, pero nunca las dos cosas al mismo tiempo.
La distinción no es retórica. Marca la frontera entre imitar el conocimiento humano y ampliarlo, justo el terreno que la ciencia y las matemáticas necesitan. Y viene de alguien que sabe de lo que habla.
TL;DR
- Richard Sutton (Premio Turing 2024) sostiene que la IA generativa por aprendizaje supervisado no puede descubrir, solo imitar.
- Tesis central: un sistema generativo produce salidas novedosas o buenas, pero nunca ambas al mismo tiempo.
- La novedad surge del componente estocástico (azar); la calidad proviene de los datos de entrenamiento humanos.
- Las alucinaciones son novedad sin anclaje: el modelo va más allá de su fuente y se inventa cosas.
- Cita sistemas de refuerzo —AlphaGo (jugada 37), AlphaZero, AlphaFold, AlphaProof— como ejemplos de descubrimiento real.
- Para Sutton, descubrir exige interacción con el mundo y objetivos, algo ausente en el aprendizaje supervisado puro.
- La charla enlaza con su ensayo The Bitter Lesson y su apuesta por la era de la experiencia.
Qué dijo Richard Sutton sobre la IA generativa
Sutton arranca su charla con un chiste viejo del mundo académico. Un investigador recibe la evaluación de su trabajo y la reseña dice: "Este trabajo es novedoso y bueno. Por desgracia, las partes que son buenas no son novedosas, y las partes que son novedosas no son buenas." Su primer argumento es que esa frase describe con precisión quirúrgica a buena parte de la IA actual.
Cuando habla de IA generativa, Sutton se refiere a casi todo lo que hoy domina la conversación: los grandes modelos de lenguaje, los generadores de imágenes y video, e incluso los nuevos métodos para aprender modelos del mundo. Todos comparten el mismo molde: toman un número enorme de ejemplos y producen un modelo que se comporta de forma parecida a esos ejemplos. Generan texto como personas, imágenes como artistas o como la naturaleza, y videos como los que circulan por internet.
Su punto no es que la IA generativa sea inútil. Al contrario, la llama "extremadamente útil" y "una tecnología transformadora". El punto es más fino y más profundo: estos sistemas pueden producir resultados novedosos y pueden producir resultados buenos, pero no ambas cosas a la vez.
💭 Clave: La novedad de un modelo generativo nace de su carácter estocástico. Cada decisión puede tomar varios caminos y cada ejecución genera una trayectoria distinta. Si esa trayectoria es aleatoria, es novedosa pero se aleja de la realidad; si se apega a los datos de entrenamiento, es buena pero no aporta nada nuevo. Azar o datos, nunca los dos a la vez.
El chiste del revisor y la trampa de la imitación
Para casi todo lo que pedimos a una IA, esta limitación no es un problema. Cuando le pedimos que resuma un documento o que nos dé un dato, no queremos novedad. Queremos que la calidad de la respuesta venga del material de origen, de las personas que escribieron ese documento. Si la respuesta es "novedosa", significa que el modelo fue más allá de la fuente y agregó algo de su cosecha. A eso lo llamamos, con razón, una alucinación.
La excepción evidente es la ficción y el entretenimiento. Si le pedimos un cuento para dormir o una imagen distinta a las existentes, valoramos justamente que invente. Pero incluso ahí, advierte Sutton, no podemos saber qué tan creativa está siendo de verdad la IA, porque internet es demasiado grande: no tenemos forma de medir cuán cerca está su poema o su imagen del material original que la inspiró.
Aquí está el corazón del argumento. La IA generativa nació para imitar, y para eso sirve el aprendizaje supervisado. Puede ser valiosísima aun cuando solo imita, si lo hace más rápido, más barato, más pequeño o más personalizable que aquello que imita. Pero la imitación tiene un techo. Para la ciencia y las matemáticas, dice Sutton, la sentencia del revisor del chiste es demoledora: en esos campos necesitamos creatividad y descubrimiento reales, y un imitador nunca nos llevará allí.
Imitar acelera el conocimiento humano; descubrir lo expande.
Por qué importa: imitar no es lo mismo que descubrir
La diferencia se puede ver en cualquier flujo de generación. El único "dial" que un modelo de lenguaje tiene para ser más creativo es subir la temperatura del muestreo, es decir, inyectar más azar en cada token. Y ahí aparece exactamente el dilema que describe Sutton: cuanto más alta la temperatura, más original y también más propenso a desviarse de los hechos; cuanto más baja, más fiel a los datos y más predecible.
from anthropic import Anthropic
client = Anthropic()
# Pegado a los datos: "bueno", poco novedoso
seguro = client.messages.create(
model="claude-opus-4-8",
max_tokens=512,
temperature=0.2, # bajo azar -> copia mejor la fuente
messages=[{"role": "user", "content": prompt}],
)
# Mas azar: novedoso, pero se aleja de la realidad
creativo = client.messages.create(
model="claude-opus-4-8",
max_tokens=512,
temperature=1.0, # mas exploracion -> riesgo de alucinacion
messages=[{"role": "user", "content": prompt}],
)
El detalle revelador es que no existe un tercer dial en el aprendizaje supervisado puro. No hay un mecanismo que premie una idea nueva por ser correcta, porque el modelo nunca comprueba nada contra el mundo: solo predice el siguiente token a partir de lo que ya vio. La verdad, en un sistema generativo, siempre es prestada.
📌 Nota: Esto no significa que un LLM no sirva para investigar. Significa que el descubrimiento, cuando ocurre, suele venir del humano que valida, descarta y reorienta las salidas, no del modelo por sí solo.
Contexto e historia: del Bitter Lesson a la era de la experiencia
Esta postura no salió de la nada. Sutton lleva décadas defendiendo que el progreso en IA viene de métodos que escalan con cómputo y datos generados por la propia interacción del agente, no de incrustar conocimiento humano a mano. Su ensayo de 2019, The Bitter Lesson (la lección amarga), se volvió canónico precisamente por eso: una y otra vez, los enfoques basados en búsqueda y aprendizaje terminan superando a los que dependen del ingenio humano codificado.
Más recientemente, junto a David Silver, Sutton ha hablado de una "era de la experiencia": una etapa en la que los agentes aprenden sobre todo de datos que ellos mismos generan al actuar en un entorno, en lugar de consumir el corpus estático de internet. La charla sobre creatividad y descubrimiento es, en el fondo, otra forma de plantear la misma idea. El aprendizaje supervisado mira hacia atrás, hacia lo ya escrito; el aprendizaje por refuerzo mira hacia adelante, hacia lo que aún no existe.
El contexto temporal también pesa. Sutton recibió el Premio Turing 2024 junto a Andrew Barto por sentar las bases del aprendizaje por refuerzo. Que el galardonado más reciente del campo salga a marcar los límites de la tecnología de moda no es un detalle menor: es la voz más autorizada en refuerzo recordándole a la industria que escalar imitadores no es lo mismo que construir descubridores.
graph LR
A["Datos humanos"] --> B["Aprendizaje supervisado"]
B --> C["Modelo generativo"]
C --> D["Salida buena (copia la fuente)"]
C --> E["Salida novedosa (azar o alucinacion)"]
F["Interaccion con el mundo"] --> G["Aprendizaje por refuerzo"]
G --> H["Descubrimiento: novedoso Y bueno"]
Los contraejemplos que cita el propio Sutton
Lo interesante es que Sutton no dice que la IA sea incapaz de descubrir. Dice que la IA generativa por aprendizaje supervisado lo es, y enseguida enumera los sistemas que sí lo logran. El catálogo es revelador porque casi todos comparten el mismo ingrediente: aprendizaje por refuerzo.
- AlphaGo y la jugada 37 — en la partida contra Lee Sedol, el sistema realizó un movimiento que ningún jugador humano habría hecho y que resultó brillante. Nuevo y bueno a la vez.
- AlphaZero — aprendió ajedrez desde cero jugando contra sí mismo y desarrolló un estilo original que sorprendió a los grandes maestros.
- GT-Sophy — conduce autos de carrera simulados mejor que cualquier humano.
- AlphaFold y AlphaProof — produjeron avances reales en biología y matemáticas, no resúmenes de lo ya conocido.
- Sistemas de optimización como los que asignan vehículos a pasajeros en plataformas de transporte, encontrando soluciones que nadie programó.
El propio Sutton reconoce que algunos modelos de lenguaje han sido aumentados con técnicas que los llevan más allá de la generación supervisada pura, justamente añadiéndoles componentes de búsqueda, verificación o refuerzo. La frontera, entonces, no es entre "viejo y nuevo", sino entre imitar ejemplos y perseguir un objetivo en interacción con un entorno.
La jugada 37 de AlphaGo es el ejemplo favorito de descubrimiento real.
Datos y cifras
Conviene anclar el debate con números concretos. El Premio Turing que recibieron Sutton y Barto en 2024 está dotado con un millón de dólares y es considerado el equivalente al Nobel de la computación. La jugada 37 de AlphaGo ocurrió en marzo de 2016, en la segunda partida de la serie de cinco contra Lee Sedol, que el sistema ganó 4 a 1. AlphaFold, por su parte, llevó a un Premio Nobel de Química en 2024 para parte del equipo de DeepMind, tras predecir la estructura de más de doscientos millones de proteínas.
El contraste es elocuente: los hitos que Sutton llama descubrimientos reales están asociados a sistemas con bucle de refuerzo y verificación, mientras que la ola de inversión de los últimos años se concentró abrumadoramente en escalar modelos generativos entrenados con aprendizaje supervisado sobre texto de internet. Su charla es, en parte, una advertencia sobre dónde están puestas las fichas.
Impacto y análisis para quien construye en LATAM
Para quien desarrolla productos con IA en América Latina, el mensaje tiene una lectura práctica y otra estratégica. En lo práctico, encaja perfecto con lo que ya vemos en producción: los LLM brillan automatizando tareas donde la respuesta correcta ya existe en algún lado —documentación, soporte, traducción, generación de código rutinario, resúmenes— y fallan justo cuando se les pide ir más allá de lo conocido, momento en que aparecen las alucinaciones.
La implicación de diseño es clara: si tu producto necesita resultados verificablemente correctos y novedosos, el modelo solo no basta. Hace falta un bucle alrededor: herramientas que ejecuten y comprueben, validadores automáticos, búsqueda sobre el espacio de soluciones, o un humano que cierre el lazo. Es la misma receta que convierte un generador de código en un agente útil: el modelo propone, pero algo externo verifica contra la realidad.
💡 Tip: Cuando armes un agente, no confíes la corrección al modelo. Dale herramientas que comprueben (tests, compiladores, consultas a una base real) y deja que el resultado de esas herramientas guíe el siguiente paso. Ahí es donde un sistema empieza a parecerse más a "descubrir" que a "imitar".
En lo estratégico, la tesis de Sutton sugiere no apostar todo a que "el próximo modelo más grande" resolverá el problema del descubrimiento por sí solo. Para equipos con presupuestos ajustados —la norma en la región— eso es una buena noticia: la ventaja competitiva está menos en tener acceso al modelo más caro y más en diseñar bien el entorno, los objetivos y la verificación alrededor de modelos accesibles.
Qué sigue
La charla reaviva un debate que estará caliente todo 2026: ¿hasta dónde llega el paradigma generativo y cuánto del próximo salto vendrá del aprendizaje por refuerzo aplicado a agentes que actúan, verifican y aprenden de su propia experiencia? La industria ya se mueve en esa dirección con sistemas de razonamiento, uso de herramientas y entrenamiento con recompensas verificables.
Sutton no descalifica a la IA generativa; la pone en su lugar. Como dijo en la propia charla, sigue siendo una tecnología transformadora aunque solo imite. Pero si el objetivo es que las máquinas descubran lo que los humanos todavía no saben —en ciencia, en matemáticas, en ingeniería— su apuesta es nítida: el camino pasa por la experiencia, no por la imitación. Habrá que ver si la industria, que invirtió fortunas en el modelo contrario, está dispuesta a escucharlo.
📖 Resumen en Telegram: Ver resumen
Preguntas frecuentes
¿Quién es Richard Sutton y por qué importa su opinión?
Es uno de los creadores del aprendizaje por refuerzo, coautor del libro de referencia del campo y ganador del Premio Turing 2024 junto a Andrew Barto. Cuando habla de los límites del aprendizaje, lo hace desde la máxima autoridad técnica.
¿Sutton dice que la IA generativa es inútil?
No. La llama "extremadamente útil" y "transformadora". Su crítica es específica: por su diseño basado en aprendizaje supervisado, no puede ser novedosa y correcta al mismo tiempo, lo que la inhabilita para el descubrimiento científico genuino.
¿Por qué un modelo no puede ser novedoso y bueno a la vez?
Porque su única fuente de novedad es el azar del muestreo. Si la trayectoria es aleatoria, es nueva pero se desvía de la realidad (alucina); si se apega a los datos, es buena pero no aporta nada nuevo. No hay un mecanismo que premie una idea nueva por ser correcta.
¿Qué sistemas sí logran descubrir, según Sutton?
Cita AlphaGo (con su famosa jugada 37), AlphaZero, GT-Sophy, AlphaFold y AlphaProof, entre otros. Casi todos comparten un componente de aprendizaje por refuerzo: un objetivo y la interacción con un entorno que verifica los resultados.
¿Qué significa esto para un desarrollador?
Que para tareas que exigen resultados verificablemente correctos, el modelo solo no alcanza. Conviene rodearlo de herramientas, validadores y bucles de retroalimentación que comprueben las salidas contra la realidad, en lugar de confiar la corrección al propio modelo.
¿Esto contradice el progreso reciente de la IA?
No necesariamente. Muchos avances actuales ya incorporan refuerzo, búsqueda y verificación sobre la base generativa. La tesis de Sutton es más bien una guía sobre de dónde vendrá el descubrimiento real: de la experiencia, no de la imitación pura.
Referencias
- Richard Sutton en X — publicación original con el texto de la charla "AI Creativity and Discovery".
- Video de la charla (YouTube) — la presentación grabada para la SAIR Foundation.
- The Bitter Lesson — ensayo fundacional de Sutton sobre cómputo, búsqueda y aprendizaje.
- Richard S. Sutton (Wikipedia) — biografía, trayectoria y Premio Turing 2024.
📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.
Top comments (0)