lu1tr0n

Posted on Apr 18 • Originally published at elsolitario.org

Tokenizer de Claude 4.7: 1.47x más tokens medidos vs Claude 4.6

#ai #machinelearning #programming #tutorial

El tokenizer de Claude 4.7 está consumiendo más tokens que su predecesor, y los números reales superan lo que Anthropic publicó en su guía de migración. La documentación oficial estimó un rango de 1.0x a 1.35x más tokens respecto a Claude 4.6. Mediciones empíricas sobre contenido técnico real arrojan 1.47x. En un archivo CLAUDE.md de un proyecto productivo: 1.445x. En prompts típicos de Claude Code: 1.373x. Mismo precio por token, misma cuota, misma ventana de contexto — pero cada prompt cuesta más en la práctica.

La pregunta no es si Anthropic hizo trampa con la facturación (no la hizo: el precio por token es idéntico). La pregunta es qué obtuviste a cambio y si ese intercambio vale la pena para tu flujo de trabajo. Abhishek Ray publicó mediciones detalladas en Claude Code Camp donde corrió el endpoint gratuito count_tokens de Anthropic sobre dos lotes de muestras — siete archivos reales y doce sintéticos — y los resultados revelan un patrón consistente: cuanto más denso sea tu código o tu prosa técnica, más castigo notás en la cuenta de tokens.

Qué pasó con el tokenizer de Claude 4.7

Anthropic liberó Claude Opus 4.7 a principios de abril de 2026 con un cambio que pasó relativamente desapercibido en el anuncio oficial: un nuevo tokenizer. El equipo reconoció en su guía de migración que el modelo "usa aproximadamente entre 1.0x y 1.35x la cantidad de tokens" que Claude 4.6. El cambio venía acompañado de una promesa editorial: "seguimiento de instrucciones más literal, particularmente en niveles bajos de esfuerzo. El modelo no generalizará silenciosamente una instrucción de un ítem a otro".

El detalle que Anthropic no enfatizó es que 1.35x era el tope del rango, no el promedio. En la práctica, la mayoría del contenido que un desarrollador envía a Claude Code — documentación técnica, prompts con contexto, archivos de configuración — se ubica en la parte alta o incluso por encima del rango anunciado. El costo operativo sube aunque el precio por token no haya cambiado, porque la misma tarea requiere empujar más tokens por la API.

Ratios medidos del tokenizer de Claude 4.7 por tipo de contenido.

Contexto e historia: de GPT-2 a los tokenizers modernos

Un tokenizer es el componente que convierte texto crudo en los enteros que el modelo realmente procesa. Los LLMs no ven caracteres ni palabras: ven secuencias de IDs numéricos que corresponden a fragmentos de texto memorizados durante el entrenamiento. La técnica dominante desde 2019 es Byte-Pair Encoding (BPE), que aprende un vocabulario de fragmentos frecuentes mezclando byte a byte según co-ocurrencia.

La calidad de un tokenizer se mide en chars-per-token: cuántos caracteres entran en promedio en cada token. Cuanto mayor sea el número, más eficiente es. GPT-2 rondaba 4.0 caracteres por token en inglés. Claude 4.6 alcanzaba 4.33 en prosa inglesa. Claude 4.7 bajó a 3.60. En TypeScript el descenso es más pronunciado: de 3.66 a 2.69 caracteres por token. El vocabulario del nuevo modelo está representando el mismo texto en piezas más pequeñas.

Esto es deliberado, no un accidente. Los tokenizers con sub-palabras más cortas fuerzan al mecanismo de atención del transformer a distribuirse sobre fragmentos más granulares. La hipótesis técnica — respaldada por papers de investigación interpretativa — es que un tokenizer más granular facilita el seguimiento literal de instrucciones, mejora el desempeño en tareas a nivel de carácter (contar letras, manipular strings) y reduce errores en llamadas a herramientas donde importan los nombres exactos de argumentos.

Datos y cifras: la medición completa

Ray corrió dos experimentos. El primero sobre siete muestras reales que cualquier usuario de Claude Code manda en un día típico de trabajo. El segundo sobre doce muestras sintéticas cubriendo distintos tipos de contenido para ver cómo varía el ratio.

Muestras reales (proyectos productivos)

CLAUDE.md (5KB): 1,399 → 2,021 tokens = 1.445x
Prompt de usuario típico: 1,122 → 1,541 tokens = 1.373x
Post de blog en Markdown: 1,209 → 1,654 tokens = 1.368x
Log de git: 910 → 1,223 tokens = 1.344x
Output de terminal (pytest): 652 → 842 tokens = 1.291x
Stack trace de Python: 1,736 → 2,170 tokens = 1.250x
Diff de código: 1,226 → 1,486 tokens = 1.212x

El promedio ponderado: 1.325x sobre 8,254 caracteres totales. Consistente con el tope del rango oficial, pero con picos sustanciales cuando el contenido es denso en prosa técnica (1.445x para el CLAUDE.md).

Muestras sintéticas por tipo

Documentación técnica (inglés): 1.47x
Shell script: 1.39x
TypeScript: 1.36x
Prosa en español: 1.35x
Markdown con bloques de código: 1.34x
Python: 1.29x
Prosa en inglés: 1.20x
JSON denso: 1.13x
CSV numérico: 1.07x
Japonés y chino: 1.01x (prácticamente idéntico)

💭 Clave: los datos sugieren que el cambio de vocabulario afectó principalmente los merges de sub-palabras latinos y de código. El tokenizador no fue reemplazado de forma integral: las porciones no latinas (CJK, emoji, símbolos matemáticos) se movieron entre 1.005x y 1.07x, indicando que sus slots permanecieron casi idénticos.

Impacto y análisis: qué significa para tu bolsillo

El precio por token de Claude 4.7 es el mismo que el de 4.6. Anthropic no subió la tarifa. Pero si tu pipeline procesa 10 millones de caracteres de código por día, pasaste de gastar — con los números de Ray — aproximadamente 2.74 millones de tokens a 3.72 millones. Un salto del 36% en costo efectivo por el mismo trabajo.

Para quienes pagan por Claude Max (el plan de suscripción con cuota), el impacto se traduce en ventanas de contexto que se llenan más rápido. Un prefijo en cache de 50K tokens en la tokenización vieja ahora ocupa 68K tokens aproximadamente — más caro de mantener en cache (cache writes se cobran por token) y más caro de traer en cada turno.

En código TypeScript el castigo es aún mayor. Un repositorio mediano de 500K caracteres que antes pasaba por el tokenizer en 137K tokens ahora consume 186K. Si estás haciendo RAG sobre tu base de código o pasando archivos completos como contexto, el upgrade a 4.7 tiene un costo operativo real que hay que tener en cuenta en las decisiones de arquitectura.

Ratio de tokens Claude 4.7 vs 4.6 por tipo de lenguaje y contenido.

Cómo medir el impacto en tu propio pipeline

Anthropic ofrece un endpoint gratuito para contar tokens sin correr inferencia. Esto es útil para auditar tu costo antes de migrar. Un script mínimo en Python:

from anthropic import Anthropic

client = Anthropic()

def medir_ratio(texto: str) -> float:
    tokens_46 = client.messages.count_tokens(
        model="claude-opus-4-6",
        messages=[{"role": "user", "content": texto}],
    ).input_tokens
    tokens_47 = client.messages.count_tokens(
        model="claude-opus-4-7",
        messages=[{"role": "user", "content": texto}],
    ).input_tokens
    return tokens_47 / tokens_46

with open("mi_prompt.md") as f:
    ratio = medir_ratio(f.read())
    print(f"Ratio: {ratio:.3f}x")

Para usuarios de Windows con PowerShell, macOS o Linux la instalación del SDK es idéntica:

# Windows (PowerShell), macOS y Linux:
pip install anthropic

# Configurar la API key:
# PowerShell:
$env:ANTHROPIC_API_KEY = "sk-ant-..."

# macOS / Linux (bash/zsh):
export ANTHROPIC_API_KEY="sk-ant-..."

💡 Tip: el endpoint count_tokens es gratuito y no cuenta contra tu rate limit de inferencia. Podés auditar sin miedo cientos de prompts para obtener estadísticas precisas sobre tu workload antes de decidir la migración.

¿Vale la pena el upgrade?

Ray corrió un segundo experimento para validar la promesa de Anthropic: mejor seguimiento de instrucciones. Usó IFEval, el benchmark de Zhou et al. (Google, 2023) que verifica programáticamente si el modelo cumple restricciones concretas: "responde en exactamente N palabras", "incluí la palabra X dos veces", "sin comas", "todo en mayúsculas".

Sobre 20 prompts muestreados con seed fijo, Claude 4.7 mejoró de 17/20 (85%) a 18/20 (90%) en la métrica estricta a nivel de prompt. A nivel de instrucción individual, de 25/29 (86%) a 26/29 (90%). Mejoras direccionalmente consistentes con la pitch de Anthropic, aunque el tamaño de muestra no permite conclusiones estadísticamente sólidas. Las métricas "loose" (más permisivas) quedaron idénticas.

Para desarrolladores en LATAM, donde cada dólar de API pesa más en el budget, la decisión práctica se reduce a qué estás optimizando. Si tu caso de uso depende de precisión literal en tool calls, salidas estructuradas o restricciones formales, el overhead del 30-45% puede estar justificado. Si estás haciendo chat general, generación de contenido o código donde la variabilidad semántica es aceptable, Claude 4.6 sigue siendo competitivo por costo efectivo.

Qué sigue

El patrón que emerge con el tokenizer de Claude 4.7 es representativo de una tendencia más amplia en la industria: los laboratorios están dispuestos a sacrificar eficiencia de tokenización para ganar calidad en el seguimiento de instrucciones. GPT-5 mostró un patrón similar. Gemini 2.0 bajó su ratio chars-per-token en la versión Pro. El tradeoff entre compresión y granularidad es una palanca de diseño explícita que los equipos están usando cada vez más conscientemente.

Para los equipos que operan pipelines en producción, vale la pena formalizar el costo real de los upgrades. Los "cambios menores" en un tokenizer pueden mover el costo operativo en decenas de puntos porcentuales sin que el precio publicado cambie. La métrica a vigilar ya no es "cuánto cuesta el token" sino "cuántos tokens necesito para hacer mi tarea", y esa conversación requiere medición empírica sobre tu propio contenido.

Anthropic tiene todavía espacio para iterar. Es plausible que una versión futura (¿4.8?) ajuste los merges que más castigan a código TypeScript y documentación técnica sin sacrificar las ganancias en seguimiento de instrucciones. Mientras tanto, auditar tu pipeline con count_tokens y mantener un fallback a 4.6 para casos sensibles al costo es la estrategia más pragmática.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Anthropic subió el precio de Claude 4.7?

No. El precio por token de entrada y salida es idéntico al de Claude 4.6. Lo que cambió es la cantidad de tokens que el tokenizer genera para el mismo contenido, así que el costo efectivo por tarea sube aunque el precio unitario no.

¿Cómo mido cuánto me afecta el tokenizer de Claude 4.7 en mis prompts?

Usando el endpoint gratuito POST /v1/messages/count_tokens del SDK oficial. No consume cuota de inferencia y te devuelve el conteo exacto de tokens que ambos modelos usarían. Podés correr tus prompts representativos contra 4.6 y 4.7 y calcular el ratio por ti mismo.

¿Por qué el castigo es mayor en código que en prosa?

El código tiene muchas secuencias repetidas (keywords, identificadores, imports) que el tokenizer de 4.6 comprimía en merges largos. Claude 4.7 usa vocabulario con piezas más cortas, lo que aumenta la granularidad pero reduce la compresión en patrones de alta frecuencia típicos del código.

¿Qué gano a cambio del overhead de tokens?

Según Anthropic, mejor seguimiento literal de instrucciones, menor generalización silenciosa entre ítems similares, y menos errores en llamadas a herramientas. Mediciones en IFEval muestran mejoras de 4-5 puntos porcentuales en métricas estrictas. El beneficio es claro en tareas estructuradas; menos claro en chat general.

¿Los idiomas asiáticos se ven afectados?

Casi no. Las pruebas sobre prosa en japonés y chino muestran ratios de 1.01x, prácticamente idénticos. El cambio de vocabulario afectó principalmente los merges latinos y de código, dejando los slots CJK casi intactos.

¿Debería migrar todos mis pipelines a Claude 4.7 ahora?

Depende del caso. Para tool calling, extracción estructurada y restricciones formales estrictas, el upgrade vale la pena. Para generación de contenido de formato libre donde Claude 4.6 ya funciona, medí tu costo efectivo antes de migrar — el overhead del 30-45% puede no justificarse económicamente.

Referencias

Claude Code Camp: I Measured Claude 4.7's New Tokenizer — mediciones originales de Abhishek Ray con metodología y datasets completos.
IFEval: Instruction-Following Eval for LLMs (Zhou et al., 2023) — benchmark usado para validar la mejora de seguimiento de instrucciones en Claude 4.7.
SDK oficial de Anthropic para Python — incluye el cliente count_tokens usado para auditar ratios sin consumir cuota de inferencia.
Byte-Pair Encoding en Wikipedia — explicación técnica del algoritmo de tokenización BPE usado por todos los LLMs modernos.

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

DEV Community