Roobia

Posted on Jun 10 • Originally published at apidog.com

Claude Fable 5 Benchmarks: Qué Dicen los Números

Cuando Anthropic lanzó Claude Fable 5 el 9 de junio de 2026, presentó el modelo como de última generación en casi todos los benchmarks que probó. Si busca números exactos para cada evaluación, conviene empezar con una advertencia: el anuncio de Anthropic reportó principalmente posiciones de ranking, no tablas completas con puntuaciones copiables. Además, varios gráficos se publicaron como imágenes. Por eso, este artículo se centra en cómo interpretar esas posiciones, qué señales son útiles para desarrolladores y cómo ejecutar una evaluación propia con sus prompts. Para una comparación más amplia de modelos frontera, vea también el análisis de Opus 4.8 frente a GPT-5.5 y Gemini 3.5.

Prueba Apidog hoy

Fable 5 se lanza a $10 por millón de tokens de entrada y $50 por millón de tokens de salida, con el identificador de modelo claude-fable-5. Anthropic lo posiciona un nivel por encima de Opus 4.8 en capacidad y precio, y lo presenta como su Claude más potente disponible públicamente para ingeniería de software, trabajo de conocimiento, visión e investigación científica.

TL;DR

Claude Fable 5 aparece en primer lugar entre modelos frontera en FrontierCode y FrontierBench, ambos de Cognition. También se presenta como de última generación en CursorBench y con la puntuación más alta en el Finance Benchmark de Hebbia. La señal principal es su capacidad para tareas autónomas largas. Como Anthropic publicó principalmente posiciones y no puntuaciones completas, trate estos resultados como señales direccionales, no como una decisión final de compra.

Qué significan realmente estos benchmarks

La frase clave del lanzamiento es que Fable 5 es de última generación en casi todos los benchmarks ejecutados por Anthropic. Eso cubre codificación, conocimiento, visión e investigación científica.

En la práctica, esto significa tres cosas:

Fable 5 aparece en el primer puesto o en el grupo superior en la mayoría de evaluaciones reportadas.
No implica que gane todas las pruebas por un margen amplio.
No significa que todos los resultados hayan sido reproducidos por laboratorios independientes.

Lo importante es la consistencia. Un modelo que sobresale en código pero falla en razonamiento documental no suele sostener una afirmación tan amplia. Fable 5 parece mantenerse competitivo en categorías que normalmente favorecen a modelos distintos.

Si evalúa si vale la pena subir desde un modelo más económico, no mire solo un benchmark. Mire la amplitud: código, finanzas, visión y tareas largas. Para una introducción general al modelo, consulte qué es Claude Fable 5.

Otro punto central es el trabajo de largo plazo. Anthropic afirma que Fable 5 puede “mantener el enfoque a través de millones de tokens en tareas de larga duración” y operar de forma más autónoma que cualquier Claude anterior. Esto importa especialmente para agentes que planifican, editan archivos, ejecutan pruebas, leen resultados y vuelven a iterar.

Benchmarks de codificación: FrontierCode y CursorBench

La parte más clara del lanzamiento está en codificación.

En FrontierCode, una evaluación de codificación de Cognition, Anthropic informa que Fable 5 es el modelo frontera con mayor puntuación. Además, mantiene ese liderazgo con un nivel de esfuerzo medio.

Ese detalle es importante. Algunos modelos mejoran mucho si se les asigna más computación de inferencia, más tokens de razonamiento o más intentos. Si un modelo lidera con esfuerzo medio, la señal es más útil para uso diario porque no depende de la configuración más cara.

En CursorBench, Anthropic describe a Fable 5 como de última generación y destaca que el modelo abrió una clase de problemas de largo plazo que antes estaban fuera del alcance de modelos anteriores.

CursorBench se acerca más a tareas reales de ingeniería: múltiples archivos, múltiples pasos y contexto acumulado. Por eso, este resultado no habla solo de completar funciones aisladas. Habla de codificación agéntica.

Para desarrolladores, la lectura práctica es:

Si usa IA para completar snippets, la mejora puede ser útil pero no necesariamente crítica.
Si usa agentes de código que modifican repositorios, ejecutan tests e iteran durante varios turnos, estos benchmarks son más relevantes.
Si su flujo depende de mantener contexto durante sesiones largas, Fable 5 parece estar diseñado para ese caso.

Trabajo de conocimiento y finanzas: Finance Benchmark de Hebbia

Fuera del código, el resultado más claro viene del Finance Benchmark de Hebbia, una empresa enfocada en IA para trabajo financiero y legal intensivo en documentos.

Anthropic informa que Fable 5 obtiene la puntuación más alta en este benchmark, con mejoras concentradas en:

razonamiento sobre documentos;
interpretación de gráficos;
lectura de tablas.

Esto es relevante porque el análisis financiero rara vez consiste en responder una pregunta simple. Normalmente implica leer documentos largos, rastrear cifras entre páginas, comparar texto con gráficos y extraer celdas correctas de tablas densas.

También hay un componente de visión. Gráficos y tablas suelen aparecer en PDFs, imágenes o layouts mixtos. Una buena posición en este benchmark sugiere que Fable 5 no solo maneja texto limpio, sino documentos reales con estructura visual.

Casos donde este resultado debería interesarle:

extracción de datos desde PDFs;
análisis financiero automatizado;
lectura de contratos;
comparación de reportes;
generación de resúmenes con citas o cifras verificables.

Aun así, no use el benchmark como sustituto de pruebas internas. Si su producto depende de precisión en documentos, valide con sus propios archivos.

Razonamiento de largo plazo: FrontierBench

La segunda evaluación de Cognition, FrontierBench, apunta al razonamiento de largo plazo. Anthropic informa que Fable 5 es el modelo con mayor puntuación y atribuye la ventaja a su capacidad para sostener objetivos durante tareas extensas.

En términos prácticos, esto significa que el modelo debe poder:

mantener un objetivo principal;
recordar decisiones previas;
seguir un plan durante muchos pasos;
corregirse cuando aparecen errores;
no desviarse a medida que crece el contexto.

Esto es distinto a responder correctamente una pregunta autocontenida. En tareas largas, el modelo genera trabajo intermedio, lee sus propias salidas, acumula contexto y puede perder el hilo. FrontierBench intenta medir esa resistencia.

También es una de las señales más difíciles de verificar externamente. Evaluar tareas largas exige definir cómo se puntúa el progreso parcial, cómo se detecta la pérdida de objetivo y cómo se evita que un modelo optimice la métrica sin avanzar realmente.

Por eso, use FrontierBench como señal direccional: Fable 5 parece orientado a agentes autónomos de larga duración. Pero si su caso de uso depende de autonomía durante horas, mida esa autonomía en su propio entorno.

Señales del mundo real más allá de los benchmarks

Los benchmarks ayudan, pero las implementaciones reales suelen ser más útiles para evaluar comportamiento en producción.

Anthropic destacó dos casos.

El primero es una migración de la base de código de Stripe. Según Anthropic, Fable 5 migró una base Ruby de 50 millones de líneas en un solo día, una tarea que el equipo estimó que habría tomado dos meses o más.

La señal no es solo “el modelo sabe programar”. La señal es que puede sostener cambios consistentes a gran escala, a través de miles de archivos, sin desviarse. Eso se alinea con los resultados de largo plazo reportados en los benchmarks.

El segundo caso es una prueba con Slay the Spire, un roguelike de construcción de mazos. Anthropic lo usó para investigar memoria, no codificación. Con memoria persistente en archivos, Fable 5 mostró una mejora de 3x frente a Opus 4.8.

El punto técnico es el mecanismo: el modelo podía escribir notas, leerlas en ejecuciones posteriores y acumular estrategia. Eso sugiere que Fable 5 puede beneficiarse bastante cuando se integra en sistemas con estado persistente.

Para construir agentes, estas dos señales importan porque muestran capacidades que un benchmark pequeño no captura:

resistencia a escala;
consistencia en tareas repetitivas;
uso de herramientas;
memoria externa;
mejora entre sesiones.

Si su agente trabaja durante horas, mantiene notas y ejecuta acciones en un entorno real, estas señales pueden ser más relevantes que un porcentaje de precisión aislado.

Cómo interpretar los resultados sin sobrevalorarlos

No conviene leer estos benchmarks como una respuesta definitiva. Úselos como entrada para su propia evaluación.

1. Algunos benchmarks vienen de socios

FrontierCode y FrontierBench provienen de Cognition. El Finance Benchmark proviene de Hebbia. Son organizaciones creíbles, pero también forman parte de la narrativa del lanzamiento.

Eso no invalida los resultados. Solo significa que debe esperar reproducciones independientes antes de tratarlos como definitivos. Para más contexto comparativo, puede revisar el análisis de MiniMax M3 frente a Opus 4.7 frente a GPT-5.5.

2. El nivel de esfuerzo cambia la comparación

El resultado de FrontierCode se reportó con esfuerzo medio, lo cual es positivo. Pero el esfuerzo sigue siendo una variable importante.

Antes de comparar dos modelos, verifique:

nivel de esfuerzo;
número de intentos;
límite de tokens;
herramientas disponibles;
contexto usado;
criterio de puntuación.

Dos resultados con configuraciones distintas no son directamente comparables.

3. Las puntuaciones públicas son limitadas

Anthropic publicó principalmente posiciones. Los gráficos detallados aparecieron como imágenes, no como tablas fáciles de auditar.

Si ve números circulando en otros sitios, revise si vienen de una fuente primaria. Hasta que Cognition, Hebbia u otros evaluadores publiquen clasificaciones detalladas, trate los números secundarios con cautela.

4. La posición no indica el margen

“El modelo con mayor puntuación” indica ranking, no distancia. Ganar por un punto y ganar por veinte son situaciones distintas.

Esto importa porque Fable 5 cuesta $10 por millón de tokens de entrada y $50 por millón de tokens de salida. Sin margen cuantificado, el liderazgo debe validarse contra su propio ROI.

Antes de integrar el modelo, confirme identificadores, precios y límites actuales en la descripción general de modelos de Claude.

Ejecute su propio benchmark con Apidog

El benchmark más útil es el que usa sus propios prompts y su propia definición de calidad.

No necesita un framework complejo para empezar. Puede construir una evaluación ligera comparando Fable 5 contra Opus 4.8 en tres dimensiones:

calidad de salida;
latencia;
costo por tokens.

Puede hacerlo con Apidog, una plataforma para diseñar, probar y documentar APIs.

La idea es simple:

Cree una solicitud reutilizable.
Envíe el mismo prompt a cada modelo.
Compare respuesta, tiempo y uso de tokens.

1. Cree una solicitud POST

Configure una solicitud POST al endpoint de mensajes de Claude:

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

Guárdela como una solicitud reutilizable en Apidog para volver a ejecutarla sin reconstruirla.

2. Use un prompt representativo

No use una tarea de juguete. Elija algo parecido a su trabajo real.

Ejemplo para una prueba de codificación:

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this Ruby method to use keyword arguments and add RSpec tests. Return only the updated code:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

Ejecute primero con:

"model": "claude-fable-5"

Luego duplique la solicitud y cambie solo el modelo:

"model": "claude-opus-4-8"

Mantenga idéntico el resto del cuerpo. Así, cualquier diferencia proviene del modelo y no del prompt.

3. Compare calidad, latencia y costo

Use una rúbrica simple.

Para calidad:

¿La solución compila?
¿Respeta la instrucción?
¿Cubre casos límite?
¿Evita cambios innecesarios?
¿La salida es fácil de integrar?

Para latencia:

Revise el tiempo de respuesta en Apidog.
Compare si la mejora de calidad justifica esperar más.
En herramientas interactivas, la velocidad puede pesar tanto como la precisión.

Para costo:

La respuesta de Claude incluye un bloque usage con:

{
  "input_tokens": 123,
  "output_tokens": 456
}

Puede estimar el costo así:

costo = (input_tokens / 1_000_000 * precio_entrada)
      + (output_tokens / 1_000_000 * precio_salida)

Con las tarifas mencionadas:

Fable 5:
entrada = $10 / millón
salida  = $50 / millón

Opus 4.8:
entrada = $5 / millón
salida  = $25 / millón

4. Repita con varios prompts

Una sola prueba no basta. Ejecute entre cinco y diez prompts que representen su uso real.

Incluya, por ejemplo:

una tarea de refactorización;
una corrección de bug;
una lectura de documento;
una extracción de datos;
una tarea larga con varios pasos;
una generación de tests;
una revisión de diseño técnico.

Con eso tendrá un benchmark pequeño pero accionable. No le dirá si Fable 5 es “el mejor modelo” en abstracto. Le dirá si es mejor para sus tareas, con su latencia y su presupuesto.

Puede descargar Apidog y configurar esta prueba en pocos minutos. Para una estimación más detallada, vea la guía de precios de Fable 5.

DEV Community