lu1tr0n

Posted on May 2 • Originally published at elsolitario.org

Un CSV entra, un reporte completo sale: cómo DeepAnalyze-8B reemplaza horas de análisis manual

#programming #technology

Imaginate que sos el dueño de un restaurante y al cerrar el mes te entregan una hoja de Excel con 18,000 ventas individuales, cada una con fecha, hora, plato pedido, mesa, mesero, propina. Necesitás un reporte que responda preguntas como: ¿qué platos venden más los viernes por la noche?, ¿hay correlación entre el mesero y el tamaño de la propina?, ¿qué semanas del mes son más fuertes para los postres? Para hacer ese reporte profesional, un analista de datos típicamente pasa dos o tres días —explorando la planilla, limpiando errores, escribiendo código en Python, generando gráficos, redactando un documento—. El 19 de octubre de 2025, un equipo de la Universidad Renmin de China (RUC) publicó en arXiv el paper DeepAnalyze: Agentic Large Language Models for Autonomous Data Science presentando DeepAnalyze-8B, el primer modelo de inteligencia artificial diseñado para hacer todo ese trabajo solo, sin que un humano dirija paso a paso. El modelo es open source con licencia MIT, cabe en una GPU de 16 GB (cualquier RTX 3090, 4090 o equivalente), y según los autores supera en doce benchmarks distintos a sistemas armados sobre GPT-4 y otros LLMs propietarios mucho más grandes. Este artículo explica, con ejemplos cotidianos y sin asumir conocimientos previos, qué es exactamente DeepAnalyze, qué problema resuelve, en qué se diferencia de las herramientas anteriores, y qué puede hacer cualquier desarrollador o emprendedor con él hoy mismo.

Qué es «ciencia de datos» y por qué es difícil de automatizar

Si nunca trabajaste con datos profesionalmente, la mejor manera de entender qué es ciencia de datos es pensar en lo que hace alguien que sabe leer hojas de Excel mejor que vos. No solo lee los números: los limpia (encuentra errores y los corrige), los explora (¿hay tendencias raras?, ¿qué columnas se relacionan entre sí?), construye modelos para predecir el futuro (¿cuánta venta tendremos el próximo mes según los datos del año pasado?), genera gráficos comprensibles, y al final escribe un texto explicando lo que encontró.

Ese trabajo es una secuencia larga de tareas que dependen unas de otras. No podés hacer modelos predictivos sin haber limpiado los datos antes; no podés explorar correlaciones si no entendés primero qué representa cada columna; no podés escribir un reporte ejecutivo si no tenés primero los números correctos. Esa cadena —limpieza → exploración → modelado → visualización → reporte— es lo que se llama el pipeline de ciencia de datos.

Automatizar ese pipeline ha sido un sueño viejo. Las dos generaciones anteriores de intentos resolvieron piezas individuales pero no la cadena completa.

La generación previa: agentes con receta fija

Antes de DeepAnalyze, existían dos enfoques para usar inteligencia artificial en ciencia de datos.

El primero: modelos especializados en una sola tarea. Por ejemplo, un modelo que solo escribe código SQL, otro que solo entiende tablas, otro que solo genera gráficos. Útiles individualmente, pero no podés conectarlos para que hagan el pipeline completo solos.

El segundo, más reciente: lo que se llama «agentes basados en flujos de trabajo» (workflow-based agents). La idea es escribir una receta paso a paso —como una receta de cocina— que un modelo grande tipo GPT-4 sigue. Por ejemplo: «Paso 1: lee el CSV. Paso 2: muéstrame las primeras filas. Paso 3: identifica columnas con valores faltantes. Paso 4: limpia las que tengan más del 50% vacíos. Paso 5: genera un histograma de cada columna numérica…». El modelo recorre la receta y la ejecuta. Funciona, pero tiene un problema: alguien tuvo que escribir la receta. Si los datos son distintos a lo esperado o el problema cambia, la receta no se adapta.

Una analogía simple: el agente con flujo de trabajo es como un cocinero que solo puede seguir recetas. Si lo ponés frente a una despensa con ingredientes que no conoce, queda paralizado. Necesita que alguien le diga primero qué cocinar.

Lo que cambia DeepAnalyze: el agente que decide

DeepAnalyze-8B es la primera versión de algo distinto: un modelo que no necesita receta. Recibe el dato y la pregunta, y decide solo qué pasos tomar, en qué orden, y cuándo cambiar de estrategia si lo primero no funciona. Los autores lo llaman un «LLM agéntico» —un modelo de lenguaje que actúa como agente—.

Volviendo a la analogía: si el agente con flujo de trabajo es un cocinero que sigue recetas, DeepAnalyze es un chef que abre la despensa, mira los ingredientes, y decide el menú. Ve las columnas del CSV, piensa qué tipo de análisis tiene sentido, escribe el código necesario, lo corre, ve si los resultados son razonables, y si algo falla cambia de enfoque por sí solo.

Esa autonomía no es marketing. Internamente, el modelo tiene cinco «acciones» que aprende a elegir:

Analizar: pensar en voz alta. Planear los próximos pasos, razonar sobre lo que ve, reflexionar si algo no cuadra.
Inspeccionar: leer un dato. Abrir la base de datos, ver el contenido de una tabla, revisar un PDF en la carpeta.
Codificar: escribir un programa en Python. Por ejemplo, generar un histograma o filtrar filas.
Ejecutar: correr el código y mirar el resultado. Si dio error, lo capta. Si dio gráficos, los procesa.
Responder: producir la respuesta final para el usuario.

Cada vez que DeepAnalyze tiene que decidir qué hacer a continuación, elige una de esas cinco acciones él mismo. No hay receta humana que diga «ahora analiza, ahora codifica». Lo decide en cada paso según lo que vio en el paso anterior. Esa es la diferencia con los agentes de la generación previa: acción autónoma + adaptación a feedback en tiempo real.

Cómo aprende a elegir bien: la metáfora del estudiante

Para que un modelo aprenda a tomar decisiones encadenadas, no basta con mostrarle ejemplos sueltos. El equipo de RUC enfrentó dos problemas técnicos serios.

Problema uno: cuando empezás a entrenar el modelo, las tareas de ciencia de datos son tan complejas que el modelo fracasa todo el tiempo. Si nunca completa una tarea con éxito, no recibe señal positiva. El entrenamiento se estanca. En la jerga del aprendizaje por refuerzo se llama «reward sparsity» (escasez de recompensa).

Problema dos: para aprender de buenos ejemplos, necesitás demostraciones largas y completas de un humano resolviendo un análisis paso a paso. Esos registros no abundan: la mayoría de los datasets son input-output, no muestran el proceso intermedio. Le llaman «trajectory scarcity» (escasez de trayectorias).

Las soluciones son dos innovaciones técnicas que se pueden explicar con dos analogías.

Para el primer problema, «currículum»: en lugar de tirar al modelo al deep end, lo entrenan como a un niño en la escuela. Primero le dan tareas simples —»calculá el promedio de esta columna»—. Cuando las domina, sube al siguiente nivel —»limpia esta tabla con valores faltantes»—. Después combina —»limpia, modela, y reportá»—. La idea es replicar el camino que sigue un científico de datos junior cuando aprende su trabajo: un paso a la vez, sin saltarse niveles. Esto lo llaman curriculum-based agentic training.

Para el segundo problema, «trayectorias sintéticas con datos reales»: como no hay suficientes ejemplos de humanos resolviendo análisis completos, el equipo construyó un sistema que genera ejemplos artificiales pero realistas, anclados en datos reales. Este sistema produjo el dataset DataScience-Instruct-500K, con medio millón de trayectorias de problema-solución para entrenar al modelo. Esto lo llaman data-grounded trajectory synthesis.

Combinando las dos técnicas, DeepAnalyze pasa de «no entiende nada» a «puede resolver problemas complejos» sin requerir trillones de parámetros: alcanza con 8 mil millones, que en el mundo de los LLMs es modesto (GPT-4 tiene cientos de miles de millones).

Qué pueden hacer ocho mil millones de parámetros bien entrenados

Los autores publicaron resultados sobre doce benchmarks distintos, que son colecciones de problemas estándar usados para comparar sistemas. Los benchmarks miden cosas como respuesta a preguntas sobre tablas, análisis de datos, generación de visualizaciones, y reportes de investigación abiertos. El claim principal del paper es que DeepAnalyze-8B supera a sistemas construidos sobre LLMs propietarios mucho más grandes —GPT-4, Claude, Gemini cuando corren dentro de un workflow-based agent—.

¿Cómo es posible? Tres razones.

Primera: los modelos generales como GPT-4 son fuertes en lenguaje pero no fueron entrenados específicamente en datos estructurados. El equipo de RUC entrenó DeepAnalyze específicamente para ciencia de datos.

Segunda: los workflow-based agents llevan al LLM como pasajero —el LLM ejecuta una receta humana—. DeepAnalyze tiene la lógica de orquestación incorporada en sus pesos. Es más rápido y menos errático en la coordinación.

Tercera: los workflow-based agents necesitan mucho contexto repetido en cada llamada al LLM —la receta, el estado anterior, la instrucción—. DeepAnalyze mantiene contexto interno entre acciones, optimizando el uso del modelo.

El resultado neto: un modelo de 8 mil millones de parámetros, que cabe en una GPU consumer de 16 GB, supera a sistemas que requieren llamadas de API a modelos de cientos de miles de millones.

Ejemplo concreto: el dueño del restaurante

Volvamos al ejemplo del principio. Tenés un CSV de 18,000 ventas mensuales del restaurante. Le decís a DeepAnalyze, en lenguaje natural: «Quiero un reporte sobre patrones de ventas por día de la semana, productos top, comportamiento de meseros y tendencias del mes.»

Lo que pasa internamente, sin que vos hagas nada más, es algo así:

Acción 1 (analizar): el modelo planea. «Para esta tarea necesito entender la estructura del CSV, identificar las columnas relevantes, segmentar por día, calcular agregaciones, generar visualizaciones, y escribir un reporte.»

Acción 2 (inspeccionar): abre el CSV, ve las columnas (fecha, hora, plato, mesero_id, mesa, propina_pct, total), revisa el tipo de cada una y descubre que hay 47 filas con fecha mal formateada.

Acción 3 (codificar): escribe Python para limpiar las fechas, convertirlas a un tipo datetime, extraer día de la semana, y agrupar.

Acción 4 (ejecutar): corre el código. Detecta que tres meseros aparecen con IDs distintos pero el mismo nombre —un problema de inconsistencia—. Sin que vos lo pidas, el modelo decide unificar esos IDs porque el reporte sería engañoso si no.

Acción 5 (analizar de nuevo): planea las siguientes etapas con datos limpios.

Acciones 6-12 (codificar + ejecutar): genera histogramas de ventas por día de semana, top platos, distribución de propinas por mesero, tendencia diaria del mes. Cada gráfico se renderiza, lo evalúa, y si nota que un eje está mal escalado, lo regenera.

Acción 13 (analizar): revisa todos los resultados y escribe un texto en español: «Las ventas de viernes y sábado representan el 41% del total mensual… El plato ‘asado especial’ tiene la mejor relación volumen/margen… El mesero #4 genera 18% más propina relativa que la media…»

Acción 14 (responder): entrega el reporte completo.

Tiempo total: minutos en una GPU consumer, no días. Y el output es un documento que un analista profesional consideraría aceptable para un dueño de negocio.

Más allá del CSV: investigación abierta

Donde DeepAnalyze realmente se diferencia es en lo que el paper llama «open-ended data research» —investigación abierta sobre datos—. Esto no es responder una pregunta específica sino algo del tipo: «Acá tenés cinco años de datos del restaurante. Decime qué cosas interesantes hay.»

Esa pregunta es muy distinta a «calculá el promedio». No tiene una respuesta única. Requiere explorar sin guía, formar hipótesis, validar, descartar, profundizar en lo prometedor. Esa habilidad es muy difícil para un modelo entrenado solo con instrucciones cerradas. Los autores destacan que DeepAnalyze es el primer modelo capaz de generar reportes de investigación completos —no respuestas a preguntas, sino documentos de descubrimiento— a partir de datos crudos sin guion humano.

Los ejemplos en el paper muestran al modelo descubriendo patrones en bases de datos públicas que a un analista humano le tomaría días detectar: correlaciones entre variables aparentemente no relacionadas, anomalías estacionales, segmentos de usuarios con comportamiento atípico. Todo expresado en lenguaje claro al final.

Cómo lo usás vos: las cinco maneras de correrlo

DeepAnalyze es completamente open source con licencia MIT, lo que significa que cualquiera puede descargarlo, modificarlo, e incluso usarlo en productos comerciales sin pagar nada. El repositorio en GitHub ofrece cinco maneras de desplegarlo, en orden de facilidad:

WebUI: lo más simple. Levantás un servidor local y abrís el navegador. Subís un archivo CSV, escribís tu pregunta, y mirás cómo DeepAnalyze responde paso a paso —parecido a usar ChatGPT, pero con los datos cargados localmente y sin enviar nada a la nube—.

JupyterUI: para quienes ya usan notebooks Jupyter para exploración. Se integra como una extensión, y desde una celda podés invocar al agente sobre los datos del notebook.

CLI con streaming: para terminal puro. Escribís la pregunta y el modelo responde en tiempo real en la consola, mostrando cada acción mientras la genera.

Servidor vLLM: para producción. Si querés exponer DeepAnalyze como un servicio interno de tu empresa, este modo lo levanta como un servidor REST que cualquier aplicación puede consumir.

API compatible con OpenAI: clave para devs. Si tu código ya usa la SDK de OpenAI, podés cambiar la URL base apuntando a tu instancia de DeepAnalyze y todo el código existente sigue funcionando. Migración instantánea.

Hardware: cabe en lo que probablemente ya tenés

El requisito de hardware es lo que hace este lanzamiento especialmente democratizador. Mínimo: 16 GB de memoria GPU con cuantización 4-bit. Eso entra en una RTX 3090, 4070 Ti, 4080, 4090, una A4000, o cualquier GPU profesional de gama media.

Para máximo rendimiento, 24 GB con FP8 o 8-bit es ideal —RTX 3090, 4090 sin cuantizar—. Pero el punto crítico es que no necesitás un cluster de A100. Un emprendedor con una laptop gamer, o una pyme con un servidor de US$2,000 en hardware, puede correr DeepAnalyze localmente sobre sus propios datos sin enviar nada al cloud.

Para empresas o devs que prefieren hosting, los pesos están en HuggingFace bajo RUC-DataLab/DeepAnalyze-8B y son compatibles con plataformas como Together AI, Fireworks, o vLLM en cualquier servidor con GPU.

Por qué este lanzamiento importa para emprendedores y devs LATAM

Para alguien que vive en El Salvador, México o Argentina y quiere usar inteligencia artificial sobre datos propios, hay tres consecuencias prácticas inmediatas.

Primera: análisis profesional sin contratar analistas profesionales. Empresas pequeñas que no pueden pagar un data scientist senior —que en LATAM cuesta entre US$2,500 y US$8,000 al mes— pueden usar DeepAnalyze para tareas que antes requerían ese rol. No reemplaza al analista en problemas estratégicos profundos, pero cubre el 70-80% del trabajo operativo de un analista junior.

Segunda: privacidad real. Los datos sensibles —clínicos, financieros, comerciales— pueden quedarse en el servidor de la empresa. No hay envío a OpenAI, Anthropic o Google. En sectores regulados como salud y finanzas, esto cambia el cálculo de qué se puede automatizar con IA. La licencia MIT permite uso comercial sin restricciones.

Tercera: educación práctica. Para estudiantes de ciencia de datos, ingeniería o economía, DeepAnalyze es una herramienta de aprendizaje increíble: pueden ver el modelo planeando, ejecutando código, debugueando, y reescribiendo análisis en tiempo real. Es una forma de aprender el oficio observando un practicante autónomo trabajar.

Las limitaciones honestas

DeepAnalyze no es magia. Las limitaciones reportadas en el paper y observadas por la comunidad son tres.

Primera, sigue siendo un modelo de 8B. Para tareas que requieren razonamiento muy complejo o conocimiento específico de dominio, modelos más grandes como GPT-4 o Claude pueden seguir siendo mejores en problemas individuales. La ventaja de DeepAnalyze es la autonomía y la consistencia en pipelines completos, no necesariamente la calidad de cada paso aislado.

Segunda, requiere GPU local. Para correrlo cómodamente necesitás hardware no trivial. Si no tenés acceso a una GPU de 16+ GB, la barrera de entrada existe.

Tercera, es nuevo. El paper es de octubre 2025. La comunidad apenas empieza a usarlo en problemas reales. La biblioteca de ejemplos, tutoriales y casos de uso documentados es chica comparada con frameworks establecidos. Para casos críticos en producción, vale la pena esperar 6-12 meses a que madure.

Lo que viene

Dos direcciones obvias de evolución son visibles en el paper.

Versiones más grandes: si 8B funciona bien, las próximas versiones —14B, 32B, 70B— deberían ser dramáticamente mejores. El equipo de RUC ya tiene la metodología; escalar es ingeniería.

Integración con LLMs propietarios: el patrón de agentic training que DeepAnalyze usó podría aplicarse a modelos cerrados de OpenAI, Anthropic o Google. Si esas empresas adoptan la técnica, tendremos en doce meses sus propias versiones de «agentes autónomos para ciencia de datos» con la calidad de sus modelos base.

Aplicación a otros dominios: la receta —agentic training + curriculum + trajectory synthesis— no es específica de ciencia de datos. Podría aplicarse a investigación científica, análisis legal, ingeniería de software, contabilidad. DeepAnalyze podría ser la primera de muchas IAs verticales autónomas.

Por qué hablamos de esto ahora

El 19 de octubre de 2025 quedará como referencia en la línea temporal de los modelos agénticos. No tanto por las cifras concretas del benchmark —que mejorarán pronto— sino por la categoría que abre: la primera vez que un modelo de tamaño accesible, open source, con licencia permisiva, demuestra que la idea de un «data scientist en una caja» es técnicamente viable hoy.

Para devs y emprendedores LATAM con datos propios y curiosidad sobre lo que se puede automatizar, vale la pena bajarlo, probarlo en algún CSV real, y formar opinión personal. La barrera de entrada nunca fue tan baja, y la velocidad a la que esto va a evolucionar en los próximos doce meses garantiza que quienes empiezan ahora van a tener mucha ventaja sobre quienes esperan.

Fuentes

arXiv — DeepAnalyze: Agentic Large Language Models for Autonomous Data Science (paper completo, octubre 2025)
arXiv — Versión HTML del paper para lectura web
GitHub — Repositorio oficial RUC-DataLab/DeepAnalyze (código, modelos, ejemplos)
Hugging Face — Página del paper en la comunidad
Hugging Face — Pesos del modelo DeepAnalyze-8B

DEV Community