Bonsai Image 4B es la familia de modelos de generación de imágenes que PrismML presentó el 26 de mayo de 2026 con una promesa concreta: ejecutar difusión de alta calidad sin servidores, directamente en una laptop o en un teléfono. La clave está en cómo representa los pesos del transformer: en lugar de los 16 bits habituales, usa apenas uno (binario) o poco más de uno (ternario).
El resultado, según la compañía, es el primer modelo de imágenes de su clase capaz de correr en un iPhone. Reduce el transformer de difusión de 7,75 GB a 0,93 GB —una compresión de 8,3×— mientras mantiene hasta el 95% de la calidad del modelo original en su variante ternaria.
TL;DR
- PrismML lanzó Bonsai Image 4B el 26 de mayo de 2026: difusión 1-bit y ternaria pensada para correr en dispositivos locales.
- El transformer 1-bit pesa 0,93 GB frente a 7,75 GB del FLUX.2 Klein 4B original: una reducción de 8,3×.
- La variante ternaria (1,21 GB, 6,4×) retiene el 95% de la calidad en GenEval, HPSv3 y DPG-Bench.
- Genera una imagen de 512x512 en 9,4 segundos en un iPhone 17 Pro Max y en unos 6 segundos en un Mac M4 Pro.
- Es, según PrismML, el primer modelo de imágenes de su clase que corre directamente en un iPhone.
- Usa pesos binarios {−1, +1} o ternarios {−1, 0, +1} con un factor de escala FP16 por grupo.
- El stack despliega con MLX en Apple Silicon y kernels Gemlite de bajo bit en GPUs CUDA.
Qué pasó: Bonsai Image 4B abre un nuevo régimen de despliegue
Hasta ahora, generar imágenes con modelos de difusión de calidad implicaba, casi siempre, una GPU de centro de datos o un servicio en la nube. Bonsai Image 4B propone otra cosa: que el modelo viva en el dispositivo del usuario. PrismML publicó dos variantes del mismo modelo base, pensadas para resolver el mismo problema desde dos extremos distintos.
La variante 1-bit usa pesos binarios del conjunto {−1, +1} junto con un factor de escala FP16 por grupo, lo que da 1,125 bits efectivos por peso. Es la opción para cuando la memoria, el ancho de banda y el tamaño de despliegue son la restricción dominante. La variante ternaria añade un tercer estado, el cero: pesos del conjunto {−1, 0, +1}, también con escala FP16 por grupo, para 1,71 bits efectivos por peso. Ese estado cero adicional le da al modelo más flexibilidad de representación, lo que mejora la calidad visual y la fidelidad al prompt sin dejar de ser extremadamente compacto.
La consecuencia práctica es la que titula el anuncio: con Bonsai Image 4B, una clase de modelos que antes no cabía en un teléfono ahora corre en uno. En un iPhone 17 Pro Max, el pipeline de FLUX.2 Klein 4B a precisión completa no entra en el presupuesto de memoria del dispositivo; ambas variantes de Bonsai, en cambio, sí lo hacen.
Cómo funciona: por qué el transformer es el que importa
Para entender por qué Bonsai Image 4B logra esta reducción, hay que mirar dónde se gasta la memoria durante la generación. En un modelo de difusión de clase 4B, el transformer de difusión es la pieza más grande y, sobre todo, la que se ejecuta repetidamente. Cada paso de denoising vuelve a invocar al transformer, así que su tamaño determina directamente la presión de memoria, la demanda de ancho de banda y la velocidad de inferencia local.
Bonsai parte de FLUX.2 Klein 4B y mantiene la arquitectura intacta. Lo único que cambia es la representación de los pesos del transformer: los lleva a forma binaria o ternaria. Las capas binarias aportan una reducción cercana a 14× respecto a los pesos en precisión completa. Un pequeño conjunto de tensores sensibles a la precisión (alrededor del 5%), las llamadas projection layers, se queda en FP16 para no degradar la calidad. Con eso, el transformer 1-bit final queda en 0,93 GB, un 8,3× menos que los 7,75 GB del original.
💭 Clave: No se comprime todo por igual. El ~5% de tensores más sensibles se mantiene en FP16 mientras el grueso del transformer baja a 1 bit. Esa asimetría es lo que permite recortar 8× el tamaño sin desplomar la calidad.
El flujo de generación, paso a paso, deja claro por qué el tamaño del transformer es tan determinante:
graph LR
A["Prompt de texto"] --> B["Codificador de texto"]
B --> C["Latente con ruido"]
C --> D["Transformer de difusion 1-bit"]
D --> E{"Mas pasos?"}
E -->|"si"| D
E -->|"no"| F["VAE FP16"]
F --> G["Imagen 512x512"]
El transformer se invoca en cada paso de denoising; reducirlo cambia todo el presupuesto.
Contexto e historia: del BitNet a la difusión cuantizada
La idea de representar redes neuronales con muy pocos bits no es nueva, pero llevarla a producción con calidad útil sí es reciente. En el mundo de los modelos de lenguaje, el trabajo de Microsoft sobre BitNet b1.58 popularizó la noción de pesos ternarios {−1, 0, +1} como un punto dulce entre compresión y capacidad: cada peso almacena aproximadamente 1,58 bits de información, pero el cómputo se simplifica enormemente porque las multiplicaciones se vuelven, en esencia, sumas y restas.
Bonsai Image 4B traslada ese principio al terreno de la difusión, que es notoriamente más exigente que la generación de texto porque cada imagen requiere decenas de pasadas por la red. Históricamente, el camino para correr difusión en hardware modesto pasó por modelos más pequeños y menos capaces —pensemos en Stable Diffusion 1.5 o en variantes destiladas— que pagaban la compacidad con una caída fuerte de calidad. Lo interesante de Bonsai es que no encoge el modelo: conserva los 4B de parámetros y la arquitectura de FLUX.2 Klein, y obtiene la compacidad por la vía de la cuantización agresiva.
Para el ecosistema de IA local, esto encaja con una tendencia más amplia: mover la inferencia al borde (edge) por razones de costo, privacidad y latencia. Cuando el modelo corre en el teléfono, no hay factura por imagen, no se envían datos a un servidor y no hace falta conexión.
Datos y cifras: cuánto se reduce y cuánto cuesta
Las cifras de Bonsai Image 4B son su mejor argumento. La tabla siguiente resume el tamaño del transformer de difusión y la calidad medida en tres benchmarks complementarios: GenEval (composición de objetos y enlace de atributos), HPSv3 (preferencia humana y calidad estética) y DPG-Bench (seguimiento de prompts densos y fidelidad semántica).
ModeloTransformer (GB)GenEvalHPSv3DPG-BenchReducciónCalidad rel.
1-bit Bonsai Image 4B0,930,67111,150,8228,3×88%
Ternary Bonsai Image 4B1,210,72312,220,8516,4×95%
FLUX.2 Klein 4B7,750,81912,840,8531×100%
SDXL5,140,30010,050,7401,5×67%
Stable Diffusion 1.51,720,3964,200,6014,5×51%
PixArt-Σ XL 21,200,54111,930,7696,4×83%
La lectura es directa: la variante ternaria, a 1,21 GB, conserva el 95% de la calidad del modelo de referencia mientras recorta el transformer 6,4×. La variante 1-bit baja del gigabyte (0,93 GB, 8,3×) y aun así entrega el 88% de la calidad, muy por encima de modelos pequeños tradicionales como SDXL o Stable Diffusion 1.5 a tamaños comparables.
El payload de despliegue cuenta el resto de la historia. Incluyendo el codificador de texto comprimido y el VAE en FP16, el paquete para Apple Silicon es de 3,42 GB para la variante 1-bit y 3,88 GB para la ternaria, frente a los 15,97 GB del FLUX.2 Klein 4B completo. Y como el codificador de texto se descarga de memoria después de codificar el prompt, el uso medio en ejecución es todavía menor: al generar una imagen de 512x512, la memoria activa media es de 1,5 GB (binario) y 1,96 GB (ternario), contra 11,74 GB del modelo original; reducciones de 7,8× y 6,0×.
📌 Nota: El payload en disco y la memoria activa no son lo mismo. Bonsai descarga el codificador de texto tras procesar el prompt, así que la huella real durante el denoising es bastante menor que el tamaño del paquete descargado.
En velocidad, Bonsai Image 4B genera una imagen de 512x512 en 9,4 segundos en un iPhone 17 Pro Max y en unos 6 segundos en un Mac M4 Pro. En este último, llega a ser hasta 5,6× más rápido que el pipeline MFLUX a precisión completa.
La variante ternaria conserva el 95% de la calidad a una fracción del tamaño.
Impacto y análisis para desarrolladores en LATAM
Para quienes construimos productos en América Latina, Bonsai Image 4B toca un punto sensible: el costo. Cada imagen generada en la nube tiene un precio, y a escala eso pesa sobre márgenes que ya son estrechos. Un modelo que corre en el dispositivo del usuario traslada ese cómputo al hardware que el usuario ya pagó, lo que convierte una función antes prohibitiva en algo viable para una app móvil o una herramienta de escritorio.
El segundo punto es la conectividad. La inferencia local no necesita internet estable, algo que sigue importando fuera de las grandes ciudades. Y el tercero es la privacidad: las imágenes y los prompts nunca salen del teléfono, lo que simplifica el cumplimiento de normativas de datos.
El stack de despliegue soporta iPhones, iPads y Macs con Apple Silicon, además de GPUs CUDA, usando rutas de bajo bit de MLX en hardware Apple y kernels GEMM de bajo bit de Gemlite en CUDA. Como las herramientas exactas dependerán del release, conviene pensar en términos del entorno por plataforma. A nivel conceptual, la instalación del entorno de inferencia se ve distinta según el hardware:
# macOS (Apple Silicon) — ruta MLX de bajo bit
pip install mlx mlx-lm
# la generacion usa los kernels low-bit de MLX en la GPU integrada
# Linux (GPU NVIDIA) — kernels Gemlite sobre CUDA
pip install torch --index-url https://download.pytorch.org/whl/cu124
pip install gemlite
# Windows — recomendado WSL2 + CUDA para reutilizar la ruta de Linux
wsl --install
# dentro de WSL:
pip install torch --index-url https://download.pytorch.org/whl/cu124
pip install gemlite
⚠️ Ojo: MLX es exclusivo de Apple Silicon. En Windows o Linux con NVIDIA, la ruta de inferencia de bajo bit pasa por Gemlite sobre CUDA, no por MLX. Verificá siempre la documentación del release antes de fijar tu pipeline.
Para un equipo que evalúa entre la variante 1-bit y la ternaria, la regla práctica es sencilla: si el cuello de botella es la memoria del dispositivo más modesto que querés soportar, elegí la 1-bit; si podés permitirte un poco más de huella y querés la mejor fidelidad de prompt, la ternaria es el punto óptimo.
Qué sigue
Bonsai Image 4B llega con pesos abiertos, lo que abre la puerta a que la comunidad lo integre en herramientas existentes, lo afine para dominios específicos y mida su comportamiento en un abanico de dispositivos más amplio que el de los benchmarks oficiales. La pregunta abierta es hasta dónde escala el enfoque: si la cuantización 1-bit y ternaria sostiene su calidad en modelos más grandes o en resoluciones mayores, podríamos ver una nueva generación de modelos de imágenes pensados desde el inicio para el borde.
También queda por ver el ecosistema de tooling. Que la difusión corra en un teléfono es una cosa; que sea fácil de empaquetar en una app, mantener actualizada y depurar es otra. El soporte de MLX y Gemlite es un buen comienzo, pero la madurez de las herramientas determinará qué tan rápido aparece esta capacidad en productos reales.
📖 Resumen en Telegram: Ver resumen
Preguntas frecuentes
¿Qué es exactamente Bonsai Image 4B?
Es una familia de modelos de generación de imágenes de PrismML, derivada de FLUX.2 Klein 4B, que cuantiza los pesos del transformer de difusión a 1 bit (binario) o a forma ternaria. El objetivo es correr difusión de calidad en hardware local como laptops y teléfonos.
¿Cuál es la diferencia entre la variante 1-bit y la ternaria?
La 1-bit usa pesos {−1, +1} (1,125 bits efectivos) y prioriza la compresión: 0,93 GB, 8,3× de reducción y 88% de la calidad. La ternaria usa {−1, 0, +1} (1,71 bits efectivos), pesa 1,21 GB, reduce 6,4× y conserva el 95% de la calidad gracias al estado cero adicional.
¿De verdad corre en un iPhone?
Sí. Según PrismML, ambas variantes corren en un iPhone 17 Pro Max, donde el FLUX.2 Klein 4B a precisión completa no entra en memoria. Una imagen de 512x512 tarda 9,4 segundos en ese dispositivo.
¿Pierde mucha calidad al comprimirse tanto?
Menos de lo esperable. La variante ternaria retiene el 95% de la calidad del modelo original en GenEval, HPSv3 y DPG-Bench, y la 1-bit el 88%, ambas muy por encima de modelos pequeños tradicionales de tamaño comparable.
¿En qué hardware puedo usarlo además de Apple?
El stack soporta GPUs NVIDIA con CUDA mediante kernels Gemlite de bajo bit, además de Apple Silicon (iPhone, iPad, Mac) con rutas MLX. En Windows lo más práctico es usar WSL2 con CUDA.
¿Por qué el transformer de difusión es la pieza clave a comprimir?
Porque se ejecuta en cada paso de denoising, decenas de veces por imagen. Su tamaño determina la memoria, el ancho de banda y la velocidad. Reducirlo de 7,75 GB a 0,93 GB es lo que hace que el modelo quepa en un teléfono.
Referencias
- PrismML — Introducing 1-bit and Ternary Bonsai Image 4B — anuncio oficial con tablas de benchmarks y métricas de memoria.
- Black Forest Labs — FLUX — repositorio del modelo base FLUX a partir del cual se construye Bonsai Image 4B.
- The Era of 1-bit LLMs (BitNet b1.58) — paper que popularizó los pesos ternarios {−1, 0, +1} en redes neuronales.
- Apple MLX — framework de machine learning para Apple Silicon usado en las rutas de inferencia de bajo bit.
📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.
Top comments (0)