DEV Community: Adrian

Construir un SDK de música adaptativa para juegos con la Web Audio API

Adrian — Thu, 23 Jul 2026 10:00:02 +0000

En los grandes juegos, la música cambia de forma fluida según lo que ocurre: explorar, combatir, ganar. Esa "música adaptativa" suele requerir middleware caro y complejo (FMOD, Wwise). Quise llevar esa capacidad a los desarrolladores indie de juegos web, con un SDK que se integre en menos de 10 líneas.

El problema

Cambiar de pista musical en respuesta al estado del juego sin que se note el corte. Un crossfade ingenuo suena fatal porque rompe el compás; la transición debe ocurrir en el momento musical correcto.

La arquitectura: capas + crossfade al beat

El SDK gestiona varias capas musicales (town, explore, combat, victory) que comparten tempo. Cuando el juego pide cambiar de estado, el motor no corta de golpe: programa un crossfade sincronizado al beat usando el reloj de alta precisión de la Web Audio API. Las transiciones esperan al siguiente tiempo musical, de modo que el cambio suena intencionado, no accidental. La latencia percibida del crossfade es prácticamente nula.

Stack

Está escrito en TypeScript sobre Tone.js (que abstrae el scheduling de la Web Audio API), empaquetado con tsup en formatos ESM y CJS para que funcione en cualquier proyecto moderno. La demo es un mini-RPG en Phaser 3 donde la banda sonora cambia al entrar en combate.

Diseño de API: la obsesión por la simplicidad

La métrica de éxito de un SDK no es su potencia, sino lo poco que tienes que escribir para usarlo. El objetivo de diseño fue que añadir música adaptativa cueste 5 líneas: instanciar el motor, registrar las capas y llamar a setState('combat'). Todo lo complejo —el scheduling, el crossfade, la sincronía— queda escondido.

Qué aprendí

Que escribir una librería para otros desarrolladores es un ejercicio de empatía: cada decisión de API es un compromiso entre flexibilidad y simplicidad. Y que el audio en el navegador, con su reloj propio, exige pensar el tiempo de otra manera.

Publicado originalmente en adrianmoreno-dev.com.

RoomCraft AI: optimizar la distribución de una habitación con Simulated Annealing

Adrian — Thu, 16 Jul 2026 10:00:02 +0000

Colocar los muebles de una habitación es un problema de optimización con muchas restricciones: la cama no va delante de la puerta, el escritorio quiere luz natural, hay que poder circular. Hay un número enorme de disposiciones posibles. RoomCraft AI las explora automáticamente a partir de una descripción en lenguaje natural.

El pipeline de tres etapas

Parser con LLM: el usuario describe su habitación en texto libre ("un dormitorio de 4x3 con la puerta al norte y una ventana al este"). Un LLM (Llama 3.1 vía Groq) lo convierte en una estructura de datos validada con Pydantic: dimensiones, aberturas, muebles deseados. Latencia: <1s.
Optimizador con Simulated Annealing: aquí está el corazón del proyecto.
Visualización y export: los layouts se renderizan en 3D en el navegador con Three.js y se exportan como plano técnico en PDF con ReportLab.

Por qué Simulated Annealing

El espacio de disposiciones posibles es combinatorio y lleno de óptimos locales. Una búsqueda voraz se queda atascada en la primera solución "decente". El Simulated Annealing imita el enfriamiento de un metal: al principio acepta movimientos malos con cierta probabilidad (alta "temperatura"), lo que le permite escapar de óptimos locales; según baja la temperatura, se vuelve cada vez más exigente y converge. Es una metaheurística ideal cuando el espacio de soluciones es irregular y no tienes gradiente.

La función objetivo puntúa cada disposición de 0 a 100 según ergonomía: espacio de circulación, relaciones entre muebles, acceso a luz y aberturas. El sistema devuelve el top 5 de layouts, no solo el mejor, para dar opciones.

Rendimiento

Parse: <1s. Optimización: 2–5s. Export PDF: <1s.
Footprint en reposo: ~100 MB de RAM.

Qué aprendí

Que combinar un LLM (para entender lenguaje) con una metaheurística clásica (para optimizar de verdad) es un patrón potentísimo: el LLM traduce el problema humano a uno formal, y un algoritmo determinista y barato lo resuelve mejor —y de forma más explicable— que pedirle al propio LLM que "coloque los muebles".

Publicado originalmente en adrianmoreno-dev.com.

BabyMind: un asistente de desarrollo infantil con alertas pediátricas y memoria conversacional

Adrian — Thu, 09 Jul 2026 10:00:02 +0000

Construir un asistente de IA sobre salud infantil obliga a una pregunta incómoda: ¿qué pasa si se equivoca? Un LLM genérico, por capaz que sea, puede dar consejos peligrosos con total seguridad. BabyMind está diseñado alrededor de esa preocupación, no a pesar de ella.

El problema

Ayudar a madres y padres a seguir el desarrollo de su bebé (0–36 meses), comparándolo con hitos médicos reconocidos y respondiendo dudas, sin pretender sustituir al pediatra y derivando a él cuando toca.

Conocimiento anclado: hitos OMS/AAP

El asistente no improvisa los hitos del desarrollo: trabaja sobre 37 hitos tabulados de la OMS y la Academia Americana de Pediatría (AAP), organizados en 4 categorías —motor, lenguaje, social y cognitivo— por franja de edad. El LLM razona sobre esa base de conocimiento, no desde su memoria paramétrica, lo que reduce las alucinaciones.

El sistema de alertas de tres niveles

Esta es la parte de seguridad. Cada interacción se clasifica en uno de tres niveles:

Normal: respuesta informativa estándar.
Warning: ante palabras clave como "alerta" o señales de retraso, recomienda explícitamente consultar al pediatra.
Emergency: ante términos críticos ("convulsiones", "no respira"), corta el flujo conversacional normal y dirige de inmediato al 112.

Este filtro determinista envuelve al LLM: no dependemos de que el modelo "decida bien" en una emergencia.

Memoria conversacional

Usa ConversationSummaryBufferMemory de LangChain: en vez de arrastrar todo el historial (caro y limitado por el contexto), mantiene un resumen de la conversación más los últimos turnos literales. Así recuerda lo importante de un diálogo largo sin disparar el coste. El motor es Llama 3.x 70B vía Groq, con respuesta <1s.

Qué aprendí

Que en aplicaciones de salud, la ingeniería de seguridad (conocimiento anclado + filtros deterministas de alertas) importa más que la elocuencia del modelo. El LLM aporta la conversación; la arquitectura aporta la responsabilidad.

Publicado originalmente en adrianmoreno-dev.com.

MetaCoach: generar planes de entrenamiento y nutrición a partir de tu HRV y tus analíticas

Adrian — Thu, 02 Jul 2026 10:00:03 +0000

La mayoría de planes de entrenamiento son genéricos: no saben si dormiste mal, si tu sistema nervioso está agotado o si tienes la ferritina por los suelos. MetaCoach parte de la idea contraria: adaptar el plan a tu fisiología real, medida con datos de wearable y analíticas de sangre.

El problema

Tomar señales fisiológicas heterogéneas —variabilidad de frecuencia cardíaca (HRV), sueño, pasos, frecuencia cardíaca en reposo, y valores de sangre como ferritina, hemoglobina, vitamina D, glucosa o TSH— y traducirlas en un plan semanal de entrenamiento, nutrición y suplementación que tenga sentido clínico.

La arquitectura: reglas clínicas + LLM

Decidí no dejar que el LLM interpretara los valores médicos por su cuenta —demasiado riesgo. En su lugar, un motor de reglas basadas en rangos clínicos hace el análisis fisiológico:

HRV < 30ms → estado crítico de recuperación; < 50ms → bajo.
Sueño < 5,5h → crítico; < 7h → bajo.
Ferritina, hemoglobina y vitamina D comparadas con sus rangos de referencia para detectar déficits.

El LLM (Llama 3.3 70B vía Groq) entra después: toma las conclusiones del motor de reglas y las convierte en un plan concreto y legible —7 días de entrenamiento con tipo y descripción, macros nutricionales y, si se detecta déficit, suplementación. La memoria conversacional permite seguir afinando el plan en diálogo.

Por qué reglas y no solo IA

Porque los umbrales clínicos son conocimiento establecido y determinista: no hay razón para que un modelo probabilístico los reinvente cada vez. Las reglas garantizan que "HRV de 28ms" siempre se trate como crítico. El LLM aporta la personalización y la comunicación, no el juicio médico.

Resultados de diseño

5 herramientas de análisis, 8 valores de analítica interpretados.
Plan de 7 días personalizado, generado en <2s.

Qué aprendí

El mismo principio que en BabyMind: en salud, el LLM debe orquestar y comunicar, mientras que las decisiones sensibles se anclan en reglas verificables. Es la arquitectura "neuro-simbólica" en pequeño.

Publicado originalmente en adrianmoreno-dev.com.

TutorIA: un tutor con IA que adapta el lenguaje al perfil de cada niño y recuerda entre sesiones

Adrian — Thu, 25 Jun 2026 10:00:02 +0000

La promesa de la educación personalizada es tan antigua como difícil. Un buen tutor humano adapta su forma de explicar a cada alumno: simplifica para uno, reta a otro, da estructura al que la necesita. TutorIA intenta llevar esa adaptación a una IA conversacional para niños de 6 a 14 años.

El problema

Que la explicación y los ejercicios se ajusten al perfil del alumno —rendimiento general, TDAH, dislexia— y que haya continuidad: que el tutor recuerde en qué andaba el niño la sesión anterior, sus dificultades y sus avances.

Adaptación al perfil

El perfil del alumno condiciona el prompt y la estrategia pedagógica. Para un perfil con TDAH, el tutor da instrucciones más cortas, divide las tareas y refuerza con frecuencia. Para dislexia, ajusta el lenguaje y evita muros de texto. El mismo contenido se entrega de formas distintas según quién esté al otro lado.

Memoria entre sesiones

Aquí está la diferencia con un chatbot del montón. La mayoría olvidan todo al cerrar la pestaña. TutorIA persiste el contexto del alumno entre sesiones, de modo que puede retomar donde lo dejó y construir sobre lo anterior. Esa continuidad es lo que convierte una conversación en un proceso de aprendizaje. Además, un panel de seguimiento da visibilidad a los padres.

Stack

Construido con LangChain y un LLM servido por Groq (LLaMA) para respuestas rápidas, sobre FastAPI, e integrado en el portfolio Laravel. La recuperación de material de apoyo se apoya en un esquema RAG.

Qué aprendí

Que la "personalización" real en EdTech no es cosmética (poner el nombre del niño): es adaptar la pedagogía y mantener memoria. Sin continuidad entre sesiones, no hay aprendizaje, solo respuestas sueltas.

Publicado originalmente en adrianmoreno-dev.com.

OrientaIA: diseñar un orientador vocacional conversacional para adolescentes

Adrian — Thu, 18 Jun 2026 10:00:02 +0000

La orientación vocacional clásica suele reducirse a un test de respuestas cerradas que escupe tres profesiones. Pero a los 16 años casi nadie sabe lo que quiere, y un formulario no lo descubre. OrientaIA aborda el problema desde otro ángulo: una conversación.

El problema

Ayudar a adolescentes de 14 a 18 años a descubrir itinerarios formativos y profesionales que encajen con ellos, sin que tengan que articular de antemano lo que ni ellos saben.

El enfoque: extracción conversacional

En lugar de preguntar directamente "¿qué quieres ser?", OrientaIA conduce una conversación guiada que va extrayendo, de forma indirecta, tres dimensiones: intereses (qué les engancha), valores (qué les importa) y habilidades (en qué destacan). El LLM no interroga: dialoga, y de ese diálogo infiere el perfil.

Del perfil al mapa de carreras

Con ese perfil, el sistema genera un mapa de carreras personalizado. Y añade algo que marca la diferencia frente a un test: una simulación de "un día en la vida" de cada profesión sugerida. Leer "podrías ser ingeniero ambiental" dice poco; vivir narrativamente cómo sería una jornada de esa profesión ayuda al adolescente a proyectarse de verdad.

Stack

Pipeline conversacional con LangChain y LLaMA vía Groq sobre FastAPI, con apoyo de RAG para anclar la información de itinerarios formativos reales, integrado en el portfolio Laravel.

Qué aprendí

Que los LLMs brillan precisamente en lo que los formularios hacen mal: extraer estructura de una conversación no estructurada. El reto de diseño no fue técnico, sino pedagógico: cómo guiar el diálogo para que revele el perfil sin que parezca un interrogatorio.

Publicado originalmente en adrianmoreno-dev.com.

Portfolio de IA open source: 20+ proyectos con LLMs self-hosted en producción

Adrian — Sun, 14 Jun 2026 14:16:29 +0000

Este portfolio no es una página estática con capturas de pantalla. Es una infraestructura de IA open source y self-hosted corriendo en producción: más de 20 proyectos de Machine Learning, cada uno con su demo interactiva real, sobre un único VPS. Este artículo explica cómo está montado y qué decisiones técnicas lo sostienen — porque la parte interesante no es la lista de proyectos, sino que todos funcionan a la vez sin reventar un servidor de 7,6 GB de RAM.

Por qué self-hosted y open source

La alternativa fácil era encadenar APIs de pago (OpenAI, Pinecone, servicios gestionados) y enseñar pantallazos. Pero quería demostrar algo distinto: que se puede construir IA aplicada controlando el stack completo, con costes marginales y código abierto. El repositorio del chatbot RAG es público, y cada demo es ejecutable, no un vídeo.

El stack de recuperación: RAG sin servicios gestionados

El chatbot documental usa una arquitectura RAG enteramente self-hosted:

Vector store: FAISS en disco, no una base vectorial gestionada. Índices pre-generados por idioma + índices dinámicos en RAM para los PDFs que sube el usuario.
Embeddings: intfloat/multilingual-e5-base (768 dimensiones), corriendo localmente. Se eligió la variante base sobre large tras un incidente de memoria: la calidad extra no justificaba el consumo de RAM en un servidor compartido por 20 servicios.
Reranker: cross-encoder mMiniLMv2 para reordenar los candidatos antes de pasarlos al LLM.
LLM: Groq (Llama 3.1/3.3) como motor principal, con Ollama local como alternativa. El failover entre ambos es automático.

El resultado: un pipeline de recuperación que no depende de ninguna factura mensual por consultas vectoriales.

20+ servicios FastAPI en un solo VPS

Cada proyecto de ML es un proceso FastAPI independiente en su propio puerto, con su propio modelo y artefactos. Predicción de precio inmobiliario, calidad del aire, detección de fraude, separación de pistas musicales, detección de alergias felinas por visión por computador… cada uno aislado, cada uno desplegado como servicio systemd.

El problema obvio: 20 modelos cargados en memoria a la vez no caben. La solución fue un sistema lazy-load: las demos pesadas están detenidas por defecto y arrancan on-demand cuando un visitante pulsa "Activar demo", apagándose solas tras 30 minutos sin tráfico. Eso liberó ~2 GB de RAM y permite que el portfolio entero conviva en una máquina modesta.

NeuralOps: el sistema multi-agente que lo mantiene vivo

La pieza que más disfruto: el portfolio se mantiene, promociona y mejora a sí mismo mediante un sistema de agentes autónomos. Monitores que vigilan latencia y reinician servicios caídos, un reparador de errores que escala a GitHub Issues lo que no puede arreglar solo, agentes de contenido que sindican los artículos del blog, y un ecosistema "darwiniano" donde cada agente acumula una puntuación de rendimiento y los mejores se reproducen con mutaciones de sus parámetros.

Todo corre con el mismo principio de coste marginal: razonamiento en Groq cuando importa la calidad, modelo local para las tareas baratas, y timers de systemd en lugar de procesos residentes para no malgastar RAM.

El frontend

Laravel + MySQL para la capa web, nginx con HTTPS, Tailwind compilado y auto-alojado (sin CDN). Cada proyecto tiene su ficha, su demo y su artículo técnico en este blog explicando las decisiones reales: qué arquitectura elegí, qué descarté y qué métricas conseguí.

Qué puedes mirar

Si te interesa la IA aplicada construida sin atajos de pago: explora las demos, lee el resto de artículos técnicos donde detallo cada proyecto, o revisa el código del chatbot RAG en GitHub. Todo lo que se describe aquí está funcionando ahora mismo en producción.

Publicado originalmente en adrianmoreno-dev.com.

Generador de imágenes con FLUX.1-schnell: text-to-image en producción

Adrian — Sun, 14 Jun 2026 11:33:05 +0000

Este proyecto nació de una necesidad propia: generar las imágenes de portada de los demás proyectos del portfolio con un estilo coherente, sin depender de bancos de imágenes ni de herramientas de pago. La solución fue desplegar mi propio generador text-to-image.

El modelo: por qué FLUX.1-schnell

La familia FLUX.1 es de lo mejor que hay hoy en generación de imágenes abierta. Elegí la variante schnell ("rápido" en alemán) por una razón práctica: está destilada para generar en muy pocos pasos de difusión, lo que la hace mucho más ligera y veloz que las variantes de máxima calidad. En un portfolio que corre sobre recursos modestos, esa diferencia entre "tarda 3 segundos" y "tarda un minuto" es la diferencia entre una demo usable y una que nadie espera.

Estilos predefinidos

Para mantener coherencia visual, el generador ofrece estilos predefinidos orientados a categorías (tech, educación, finanzas, IA). Detrás, cada estilo es esencialmente un prompt template cuidado que envuelve la petición del usuario con los modificadores adecuados de composición, paleta y acabado. Es una capa fina pero muy efectiva: convierte un prompt mediocre del usuario en uno bueno.

Arquitectura

El modelo se sirve desde el ecosistema HuggingFace a través de una API FastAPI, con post-procesado de imagen vía Pillow y descarga directa en PNG, integrado en el frontend Laravel.

Una reflexión sobre los modelos de difusión

Un modelo de difusión genera partiendo de ruido puro y "quitándolo" iterativamente hasta revelar una imagen coherente con el texto. Las variantes destiladas como schnell comprimen ese proceso de decenas de pasos a unos pocos, sacrificando algo de fidelidad a cambio de velocidad. Para iconografía y portadas, ese intercambio es claramente favorable.

Qué aprendí

Que "usar el mejor modelo" no siempre es la decisión correcta: el mejor modelo para tu contexto tiene en cuenta la latencia, los recursos y el uso real. Y que una buena capa de prompt templating aporta más calidad percibida que saltar a un modelo más pesado.

Publicado originalmente en adrianmoreno-dev.com.