Roobia

Posted on Jul 1 • Originally published at apidog.com

Pruebas de rendimiento de Claude Sonnet 5: Lo que revelan los números

Claude Sonnet 5 se lanzó el 30 de junio de 2026, y la afirmación principal de Anthropic es directa: rendimiento agéntico cercano al de Opus 4.8 a un precio mucho más bajo. En esta guía verá cómo leer los benchmarks de lanzamiento, cuándo esos números son útiles para decidir entre modelos y cómo reproducir una evaluación con sus propios prompts. Si necesita una descripción general del modelo, empiece por la guía principal de Claude Sonnet 5. Para las cifras originales, Anthropic las publicó en la página oficial del anuncio.

Prueba Apidog hoy

La lectura rápida es esta: cuando el modelo puede usar herramientas, Sonnet 5 queda a pocos puntos de Opus 4.8. Cuando la tarea depende más de razonamiento puro sin retroalimentación externa, la brecha se amplía. Ese patrón es el dato más importante para decidir si usar Sonnet 5 u Opus 4.8 en producción.

Todos los números de este artículo son benchmarks de lanzamiento reportados por Anthropic y citados en artículos de lanzamiento. Úselos como cifras reportadas, no como pruebas independientes.

Tabla de benchmarks reportados

Tres benchmarks resumen bien el posicionamiento de Sonnet 5 frente a Sonnet 4.6 y Opus 4.8.

Benchmark	Qué mide	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	Codificación agéntica en repositorios reales	63.2%	58.1%	69.2%
Terminal-Bench 2.1	Completado de tareas de línea de comandos	80.4%	no reportado	82.7%
OSWorld-Verified	Uso de computadora y tareas GUI	81.2%	78.5%	83.4%

Lectura práctica:

Sonnet 5 mejora a Sonnet 4.6 en los benchmarks donde ambos aparecen.
En SWE-bench Pro sube de 58.1% a 63.2%, una mejora de más de cinco puntos en codificación agéntica.
En OSWorld-Verified sube de 78.5% a 81.2%.
Frente a Opus 4.8, Sonnet 5 queda:
- 6.0 puntos por debajo en SWE-bench Pro.
- 2.3 puntos por debajo en Terminal-Bench 2.1.
- 2.2 puntos por debajo en OSWorld-Verified.

La diferencia es menor en tareas donde el modelo puede ejecutar acciones, observar resultados y corregir el rumbo.

Cómo interpretar el patrón

Lea los benchmarks con esta pregunta:

¿Cuánta retroalimentación recibe el modelo durante la tarea?

En Terminal-Bench 2.1 y OSWorld-Verified, el modelo puede ejecutar comandos, leer salidas, interactuar con el entorno y ajustar el siguiente paso. Ese bucle reduce la distancia con Opus 4.8.

En SWE-bench Pro también hay trabajo agéntico, pero la tarea exige más razonamiento sobre bases de código grandes. Ahí la brecha con Opus 4.8 crece a seis puntos.

La decisión técnica queda así:

Caso de uso	Modelo más razonable
Agentes que usan herramientas	Sonnet 5
Asistentes de codificación con ejecución y pruebas	Sonnet 5
Automatización con terminal o navegador	Sonnet 5
Razonamiento difícil en un solo paso	Opus 4.8
Tareas donde cada punto de precisión justifica más coste	Opus 4.8

Anthropic posiciona Sonnet 5 como el modelo Sonnet más agéntico hasta la fecha, cercano a Opus 4.8 en uso de herramientas, mientras Opus mantiene ventaja en razonamiento puro. Los benchmarks reportados siguen ese mismo patrón.

Para una comparación más amplia con precio y contexto, consulte Claude Sonnet 5 vs Opus 4.8.

El precio cambia la decisión

Los benchmarks aislados suelen favorecer al modelo más potente. Pero en producción importa el coste por tarea resuelta.

Sonnet 5 se ofrece con precio introductorio de:

$2 por millón de tokens de entrada
$10 por millón de tokens de salida

Ese precio aplica hasta el 31 de agosto de 2026. Después pasa a las tarifas estándar:

$3 / $15 para Sonnet 5
$5 / $25 para Opus 4.8

A tarifas estándar, Sonnet 5 cuesta el 60% de la entrada y salida de Opus 4.8.

Esto cambia la lectura de la tabla:

Si Opus 4.8 gana por 2 o 3 puntos en tareas con herramientas, la prima puede no justificarse.
Si Opus 4.8 gana por 6 puntos en razonamiento complejo, puede tener sentido pagar más.
Si ejecuta agentes a gran volumen, mida coste por éxito, no solo precisión.

También hay un detalle importante: Sonnet 5 usa un nuevo tokenizador que produce aproximadamente un 30% más de tokens para el mismo texto de entrada. El precio por token no cambia respecto a Sonnet 4.6, pero una solicitud equivalente puede costar más si genera más tokens facturables.

No asuma paridad de coste. Mida tokens reales con sus prompts. El desglose está en la guía de precios de Claude Sonnet 5.

Qué no dicen los benchmarks

Los benchmarks públicos sirven para comparar modelos, pero no predicen exactamente su rendimiento en una aplicación real.

Hay tres límites importantes.

1. Su workload no es SWE-bench

Si trabaja con TypeScript, una API privada y convenciones internas, un benchmark basado en repositorios públicos de Python solo es una aproximación.

La posición relativa entre modelos puede mantenerse, pero el porcentaje absoluto probablemente no coincida con su entorno.

2. Precisión bruta no es coste por éxito

Un modelo dos puntos menos preciso pero 40% más barato puede resolver más tareas con el mismo presupuesto.

Para agentes en producción, calcule:

coste_por_exito = coste_total / tareas_resueltas_correctamente

Ese número suele ser más útil que el porcentaje del leaderboard.

3. Latencia y throughput no aparecen

Los benchmarks miden si una respuesta es correcta, no si llega a tiempo.

Para herramientas interactivas, una respuesta “suficientemente buena” y rápida puede superar a una respuesta mejor pero lenta. Esto importa especialmente cuando el modelo ejecuta varios pasos con herramientas.

Seguridad: cómo manejar rechazos

Anthropic informa que Sonnet 5 tiene una tasa general más baja de comportamientos indeseables que Sonnet 4.6, incluyendo menos alucinaciones y menos adulación. También es el primer modelo de nivel Sonnet con salvaguardias de ciberseguridad en tiempo real.

En implementación, hay un detalle clave:

Una solicitud rechazada puede devolverse como HTTP 200 con stop_reason: "refusal".

No trate solo los códigos HTTP como indicador de éxito. Valide también el cuerpo de la respuesta.

Ejemplo de control básico:

if (response.stop_reason === "refusal") {
  throw new Error("La solicitud fue rechazada por políticas de seguridad del modelo");
}

También conviene tener presente las advertencias: en la auditoría automatizada de Anthropic, Sonnet 5 mostró tasas de comportamiento desalineado más altas que Opus 4.8. En capacidad cibernética se sitúa por debajo de los modelos Opus, y ninguno de los modelos Sonnet pudo desarrollar un exploit funcional, reportado como 0.0%. En ese contexto, una menor capacidad puede ser una característica de seguridad.

El detalle completo está en el centro de transparencia de Anthropic.

Cómo ejecutar su propio benchmark

El benchmark más útil es el que usa sus propios prompts, datos y criterios de éxito.

Necesita medir al menos:

modelo usado;
prompt exacto;
tokens de entrada;
tokens de salida;
latencia;
stop_reason;
resultado esperado;
resultado real;
coste aproximado;
si la tarea fue resuelta o no.

Una forma práctica es guardar una llamada reproducible a la API de Anthropic Messages y ejecutarla contra varios modelos.

Apidog le permite construir una solicitud a la API, guardarla en una colección, almacenar la clave como variable de entorno y repetir la misma ejecución con aserciones. Para comparar modelos, cambie solo la variable del ID del modelo.

Solicitud base:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

Para hacer A/B testing entre modelos, mantenga idéntico el cuerpo y cambie solo:

"model": "claude-sonnet-5"

por:

"model": "claude-opus-4-8"

"model": "claude-sonnet-4-6"

En Apidog, guarde el modelo como variable de entorno, por ejemplo:

{{ANTHROPIC_MODEL}}

Y use esa variable en el cuerpo:

{
  "model": "{{ANTHROPIC_MODEL}}",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this function to remove the nested loop and explain the change."
    }
  ]
}

Después añada aserciones mínimas:

pm.test("La respuesta no es rechazo", function () {
  pm.expect(pm.response.json().stop_reason).to.not.eql("refusal");
});

pm.test("La respuesta contiene contenido", function () {
  const body = pm.response.json();
  pm.expect(body.content.length).to.be.greaterThan(0);
});

Para un benchmark útil, ejecute la colección con varios prompts reales y registre los resultados. Si aún no tiene un flujo de pruebas de API, la guía de pruebas sin Postman explica el proceso.

Cuidado con parámetros no compatibles

Antes de comparar Sonnet 5 con otros modelos, revise la solicitud.

Sonnet 5 no acepta valores no predeterminados para:

temperature
top_p
top_k

Tampoco acepta el campo antiguo:

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

Esos parámetros devuelven error 400. Elimínelos antes del benchmark para evitar medir fallos de configuración en lugar de rendimiento del modelo.

Descargue Apidog para construir la solicitud una vez y reutilizarla en cada modelo que quiera evaluar.

Checklist para decidir entre Sonnet 5 y Opus 4.8

Use Sonnet 5 si:

su aplicación usa herramientas, terminal, navegador o APIs;
puede validar resultados paso a paso;
necesita reducir coste por tarea;
ejecuta muchos prompts similares en producción;
la diferencia de 2 o 3 puntos no justifica pagar más.

Use Opus 4.8 si:

necesita el máximo rendimiento bruto;
la tarea exige razonamiento profundo sin herramientas;
cada error tiene coste alto;
el presupuesto permite pagar la prima;
sus pruebas internas muestran una ventaja clara.

Preguntas frecuentes

¿Cuál es la puntuación de Claude Sonnet 5 en SWE-bench Pro?

Anthropic reporta 63.2% para Sonnet 5, frente a 58.1% para Sonnet 4.6 y 69.2% para Opus 4.8. Es una mejora generacional de más de cinco puntos frente a Sonnet 4.6 y queda unos seis puntos por debajo de Opus 4.8.

¿Sonnet 5 es mejor que Opus 4.8?

No en puntuaciones brutas. Opus 4.8 lidera los benchmarks reportados. Pero Sonnet 5 se acerca mucho en tareas con herramientas y cuesta el 60% de Opus 4.8 a tarifas estándar, por lo que puede ser mejor opción para agentes, automatización y bucles de codificación. La comparación completa está en Claude Sonnet 5 vs Opus 4.8.

¿Estos benchmarks son pruebas independientes?

No. Son cifras de lanzamiento reportadas por Anthropic y corroboradas en múltiples artículos de lanzamiento. Úselas como referencia inicial y valide con su propia carga de trabajo.

¿Por qué Sonnet 5 se acerca más a Opus en tareas con herramientas?

Porque puede ejecutar acciones, leer resultados y corregir errores durante la tarea. Esa retroalimentación reduce la ventaja de Opus. En razonamiento de un solo paso, sin herramientas ni observación intermedia, Opus mantiene una ventaja mayor.

¿Cómo hago un benchmark de Sonnet 5 con mis propios prompts?

Llame a la API de Anthropic Messages con el modelo claude-sonnet-5, guarde la solicitud en una herramienta como Apidog, añada aserciones y repita la misma colección cambiando solo el ID del modelo. Mida precisión, coste por éxito y latencia.

DEV Community