El error que terminó siendo mi mejor "función oculta"

#spanish #ai #webdev #productivity

Voy a empezar por el final, porque es lo único que tengo claro: ahora separo voces de cualquier pista en menos de dos minutos, y la rutina que antes me robaba tardes enteras desapareció. Lo gracioso es que llegué ahí por accidente, a las tres de la madrugada, peleando con algo que ni siquiera quería arreglar.

Pero vamos hacia atrás, que es como mejor se entiende esto.

El desastre del que partí

Esa noche no podía dormir (otra vez), así que me senté en mi rincón de la habitación —una mesa de Ikea, un monitor de segunda mano y unos auriculares que ya pierden un lado—. Tenía una maqueta horrible: una voz grabada con el micro del portátil, encima de un beat que había bajado de no sé dónde. Sonaba a barro. Todo pegado, todo embarrado.

Mi plan original era simple y aburrido: ajustar el tempo. Quería usar la función de Tap Tempo para marcar el pulso con el dedo y alinear la voz con la batería. Le di golpecitos a la barra espaciadora como un idiota durante diez minutos, intentando que la máquina entendiera dónde estaba el "uno". (Spoiler: estaba más perdido yo que el software.)

El accidente

Aquí viene lo tonto. En vez de exportar solo el tempo, arrastré el archivo completo a un módulo que no era. Resultó ser un Separador de Voces. Yo ni sabía que esa pestaña existía; pensaba que era para otra cosa.

Cuando le di a procesar, esperaba un error. Lo que obtuve fue la voz aislada, limpia, flotando sola sin el beat encima. Me quedé mirando la pantalla como si hubiera visto un fantasma. Llevaba meses asumiendo que separar stems era cosa de estudios con presupuesto, no de un tipo en pijama a las 3 a.m.

Por qué funciona (y por qué no es magia)

Luego me puse a leer, porque no me gusta usar cosas sin entenderlas. La separación de fuentes se basa en modelos que aprenden a distinguir patrones espectrales: la voz humana ocupa rangos y texturas distintas a las de un bombo o un bajo. Proyectos abiertos como Spleeter, publicado por Deezer en su repositorio de GitHub, popularizaron este enfoque usando redes neuronales entrenadas para predecir máscaras de frecuencia. No "borra" instrumentos; estima qué parte del espectro pertenece a cada fuente y reconstruye desde ahí.

Eso explica también sus límites. Cuando probé con una grabación en vivo, llena de reverberación, los resultados fueron sucios: la cola del reverb se quedaba pegada a la voz, y en los agudos aparecían esos artefactos metálicos tipo "agua". Documentación técnica como la de la International Society for Music Information Retrieval (ISMIR) lleva años señalando que las señales con mucho solapamiento de frecuencias siguen siendo el punto débil de estos sistemas. O sea: no es brujería, es estadística con buena cara.

Lo que sigo haciendo a mano

Aquí está la parte que ninguna herramienta me ahorra. Una vez tengo el stem de voz, todavía decido yo:

dónde recortar las respiraciones sin que suene robótico,
cuánto reverb devolver para que no quede "flotando" fuera del beat,
y, sobre todo, si la toma transmite algo o no.
Probé generar una base nueva con MusicCreator AI para acompañar esa voz rescatada, y la base estaba correcta. Técnicamente impecable. Pero correcta no es lo mismo que viva. Esa diferencia —la que hace que muevas la cabeza sin darte cuenta— sigue siendo trabajo humano, y creo que me alegra que así sea.

Lo que aprendí, sin moraleja grandilocuente

No descubrí una herramienta. Descubrí que mi forma de mirar las herramientas estaba mal: las trataba como cajas cerradas, cuando en realidad están llenas de funciones que ni leo. El accidente no me hizo mejor productor; me hizo más curioso, que quizás sea lo mismo.

Son las cuatro y diez. La voz aislada sigue sonando en bucle por los auriculares rotos, solo en el canal derecho. Y por primera vez en semanas, no me molesta el ruido del ventilador del portátil.