Elizabeth Fuentes L for AWS Español

Posted on Oct 15

Evalúa y Mejora Tus Agentes: Evaluación Automatizada con RAGAS para Agentes de Producción

#python #aws #tutorial #spanish

Cierra el ciclo completo de observabilidad con evaluación automatizada usando RAGAS para medir y mejorar el rendimiento de tus agentes Strands

🇻🇪🇨🇱 Dev.to Linkedin GitHub Twitter Instagram Youtube
Linktr

Elizabeth Fuentes L

AWS Developer Advocate specializing in AI/ML and Generative AI. I simplify complex cloud concepts through hands-on tutorials and real-world examples.

Repositorio GitHub

Esta es la parte final de nuestra guía completa para construir agentes de IA con capacidades de observabilidad y evaluación usando Strands Agents.

🔗 De Monitoreo a Evaluación: Cerrando el Ciclo

En la parte 3, implementamos observabilidad completa para nuestro agente de restaurantes usando LangFuse. Ahora vamos más allá al agregar evaluación automatizada que no solo mide el rendimiento sino que también envía puntajes de evaluación de vuelta a LangFuse para monitoreo centralizado.

Esto crea un ciclo de retroalimentación completo: LangFuse rastrea lo que ocurre, RAGAS evalúa la calidad del rendimiento, y los puntajes fluyen de vuelta a LangFuse para observabilidad unificada.

🎯 Por Qué Importa la Evaluación de Agentes

Imagina desplegar tu agente de restaurantes a producción, y los usuarios comienzan a quejarse de que recomienda restaurantes cerrados o sugiere mariscos a vegetarianos. ¿Cómo detectas estos problemas antes de que lleguen a los usuarios?

La evaluación automatizada aborda este desafío. Mientras que la observabilidad (de la parte 3) te muestra qué sucedió, la evaluación te dice qué tan bien sucedió.

El Problema con las Pruebas Manuales

Las pruebas manuales tienen limitaciones a escala:

Consume tiempo: Probar 100 consultas diferentes manualmente toma horas
Inconsistente: Diferentes personas evalúan respuestas de manera diferente
Costoso: Requiere revisores humanos para cada cambio
Cobertura limitada: No puede probar casos extremos de manera integral

Presentando LLM-as-a-Judge

LLM-as-a-Judge te permite usar modelos de IA para evaluar salidas de IA automáticamente. Esto actúa como un revisor experto que puedes usar para:

Evaluar miles de respuestas en minutos
Aplicar criterios de evaluación consistentes
Escalar con el crecimiento de tu aplicación
Identificar problemas sutiles que los humanos podrían pasar por alto

RAGAS (Retrieval Augmented Generation Assessment) proporciona el framework para implementar jueces LLM de manera sistemática, respondiendo preguntas como:

¿Qué tan precisas son las respuestas de tu agente?
¿Las respuestas están fundamentadas en datos de origen?
¿El agente aborda directamente las preguntas del usuario?

Sin evaluación sistemática, careces de visibilidad sobre el rendimiento en producción.

🤖 Configurando el LLM-Judge

La base de nuestro sistema de evaluación es configurar un LLM para actuar como nuestro juez. Esto es notablemente sencillo con RAGAS:

from ragas.llms import LangchainLLMWrapper

# Configurar LLM evaluador (usando el mismo modelo que tu agente de la parte 1)
evaluator_llm = LangchainLLMWrapper(model)

Esta configuración crea un evaluador consistente que evaluará el rendimiento de tu agente en todas las métricas. La clave es usar el mismo modelo que impulsa tu agente - esto asegura que el evaluador entienda las capacidades y limitaciones del sistema que está juzgando.

📊 RAGAS: Más Allá de las Métricas Básicas

A diferencia de los enfoques básicos de evaluación, nuestra implementación en notebook usa una suite de evaluación multidimensional que va mucho más allá de las verificaciones básicas de precisión.

1. Métricas Específicas de RAG

Context Relevance (Relevancia del Contexto) mide qué tan bien la información recuperada aborda las consultas de los usuarios - crucial para asegurar que tu base de datos vectorial devuelva resultados significativos.

Response Groundedness (Fundamentación de Respuesta) determina si las respuestas del agente están realmente respaldadas por los contextos recuperados, previniendo alucinaciones incluso cuando la información correcta está disponible.

2. Evaluación de Calidad Conversacional

El notebook implementa varias métricas AspectCritic que evalúan aspectos matizados del comportamiento del agente:

from ragas.metrics import AspectCritic

# Evalúa la completitud de las respuestas
request_completeness = AspectCritic(
    name="Request Completeness",
    llm=evaluator_llm,
    definition=(
        "Devuelve 1 si el agente cumple completamente todas las solicitudes del usuario sin omisiones. "
        "de lo contrario, devuelve 0."
    ),
)

# Asegura voz de marca consistente
brand_tone = AspectCritic(
    name="Brand Voice Metric",
    llm=evaluator_llm,
    definition=(
        "Devuelve 1 si la comunicación de la IA es amigable, accesible, útil, clara y concisa; "
        "de lo contrario, devuelve 0."
    ),
)

# Evalúa el uso apropiado de herramientas
tool_usage_effectiveness = AspectCritic(
    name="Tool Usage Effectiveness",
    llm=evaluator_llm,
    definition=(
        "Devuelve 1 si el agente usó apropiadamente las herramientas disponibles para cumplir la solicitud del usuario "
        "(como usar retrieve para preguntas de menú y current_time para preguntas de tiempo). "
        "Devuelve 0 si el agente no usó herramientas apropiadas o usó herramientas innecesarias."
    ),
)

Estas métricas AspectCritic son poderosas porque te permiten definir exactamente qué significa "buen rendimiento" para tu caso de uso específico a través de definiciones en lenguaje natural.

3. Inteligencia de Recomendaciones con Rúbricas

Aquí es donde el sistema de evaluación se vuelve particularmente sofisticado. El notebook implementa un sistema de puntuación basado en rúbricas que evalúa qué tan bien los agentes manejan escenarios complejos:

from ragas.metrics import RubricsScore

# Define rúbrica para calidad de recomendación
rubrics = {
    "score-1_description": (
        """El artículo solicitado por el cliente no está presente en el menú y no se 
        hicieron recomendaciones."""
    ),
    "score0_description": (
        "O el artículo solicitado por el cliente está presente en el menú, "
        "o la conversación no incluye ninguna "
        "consulta de comida o menú (ej., reserva, cancelación). "
        "Este puntaje aplica independientemente de si se proporcionó alguna recomendación."
    ),
    "score1_description": (
        "El artículo solicitado por el cliente no está presente en el menú "
        "y se proporcionó una recomendación."
    ),
}

recommendations = RubricsScore(rubrics=rubrics, llm=evaluator_llm, name="Recommendations")

Esta rúbrica maneja un desafío común de agentes de restaurantes: ¿qué sucede cuando los usuarios preguntan por artículos que no existen? El sistema de puntuación:

Penaliza (-1) agentes que ignoran solicitudes no disponibles
Neutral (0) para artículos disponibles directos o consultas no relacionadas con comida
Recompensa (+1) agentes que ofrecen proactivamente alternativas

Esta puntuación matizada captura la diferencia entre una respuesta básica de "artículo no encontrado" y un enfoque útil de "no tenemos eso, pero aquí hay opciones similares".

🔄 El Pipeline Completo de Evaluación

La implementación procesa trazas de LangFuse en conjuntos de datos de evaluación compatibles con RAGAS a través de:

Extracción automática de entradas de usuario, respuestas del agente, contextos recuperados y patrones de uso de herramientas.
Vías de evaluación dual: RAG de un solo turno para interacciones con contextos recuperados y evaluación de conversación multi-turno usando métricas AspectCritic y RubricsScore.
Integración automática de puntajes de vuelta a LangFuse a través de la API create_score

📈 Impacto en el Mundo Real: Lo Que Verás

Después de implementar este sistema de evaluación, tendrás visibilidad sin precedentes sobre el rendimiento del agente:

Tendencias de Rendimiento: Rastrea cómo evoluciona el rendimiento de tu agente con el tiempo
Análisis de Correlación: Identifica patrones entre el comportamiento del usuario y el rendimiento del agente
Umbrales de Calidad: Establece umbrales automatizados para alertas inmediatas cuando el rendimiento baja
Base para Pruebas A/B: Compara diferentes configuraciones de agentes con métricas completas

🚀 Estrategia de Implementación

Comenzando

El notebook completo proporciona una implementación lista para usar. Los pasos clave involucran:

Configurar el juez LLM con la configuración simple LangchainLLMWrapper
Definir métricas RAGAS completas usando AspectCritic y RubricsScore
Implementar funciones de procesamiento de trazas para extraer datos de evaluación de LangFuse
Crear pipelines de evaluación que manejen evaluaciones tanto de RAG como conversacionales
Configurar reporte automático de puntajes de vuelta a LangFuse

Recuerda: el objetivo no son puntajes perfectos, sino mejora consistente y detección temprana de problemas antes de que impacten a los usuarios.

🛠️ Desafíos Comunes y Soluciones

Baja Relevancia de Contexto: Revisa tu configuración de base de datos vectorial, estrategias de fragmentación de documentos y selección de modelo de embeddings.
Voz de Marca Inconsistente: Mejora los prompts del sistema y proporciona guía de tono más clara en las definiciones de AspectCritic.
Problemas de Puntaje de Rúbricas: Asegura que cada nivel de puntaje sea claramente distinguible y cubra todos los escenarios posibles.

¡Gracias por Seguir Esta Serie!

¡Gracias por seguir esta serie completa sobre la construcción de Strands Agents con solo unas pocas líneas de código! A lo largo de estas cuatro partes, has aprendido a:

Construir agentes con herramientas personalizadas e integración MCP - Creando agentes potentes y extensibles que pueden interactuar con sistemas externos
Implementar comunicación agente-a-agente - Habilitando flujos de trabajo multi-agente sofisticados y colaboración
Agregar observabilidad completa con LangFuse - Obteniendo conocimientos profundos sobre el comportamiento y rendimiento de tu agente
Evaluar y mejorar el rendimiento con RAGAS - Implementando evaluación sistemática para asegurar calidad a escala

Ahora tienes un conjunto de herramientas completo para construir agentes de IA listos para producción que son observables, evaluables y mejoran continuamente.

¿Listo para construir tu próximo agente de IA? Comienza con el curso GRATUITO Getting Started with Strands Agents: Build Your First AI Agent y comienza a experimentar con estos poderosos patrones hoy!

📚 Recursos Esenciales

Strands Agents
Getting Started with Strands Agents: Build Your First AI Agent - Curso GRATIS
Documentación de RAGAS - Framework de evaluación completo
LangFuse Model-Based Evaluations - Mejores prácticas de integración
Implementación Completa en Notebook - Código listo para usar

¡Gracias!

🇻🇪🇨🇱 Dev.to Linkedin GitHub Twitter Instagram Youtube
Linktr

Elizabeth Fuentes L

AWS Developer Advocate specializing in AI/ML and Generative AI. I simplify complex cloud concepts through hands-on tutorials and real-world examples.

DEV Community

Evalúa y Mejora Tus Agentes: Evaluación Automatizada con RAGAS para Agentes de Producción

Elizabeth Fuentes L

🔗 De Monitoreo a Evaluación: Cerrando el Ciclo

🎯 Por Qué Importa la Evaluación de Agentes

El Problema con las Pruebas Manuales

Presentando LLM-as-a-Judge

🤖 Configurando el LLM-Judge

📊 RAGAS: Más Allá de las Métricas Básicas

1. Métricas Específicas de RAG

2. Evaluación de Calidad Conversacional

3. Inteligencia de Recomendaciones con Rúbricas

🔄 El Pipeline Completo de Evaluación

📈 Impacto en el Mundo Real: Lo Que Verás

🚀 Estrategia de Implementación

Comenzando

🛠️ Desafíos Comunes y Soluciones

¡Gracias por Seguir Esta Serie!

📚 Recursos Esenciales

Elizabeth Fuentes L

Top comments (0)

Elizabeth Fuentes LFollow

🔗 De Monitoreo a Evaluación: Cerrando el Ciclo

🎯 Por Qué Importa la Evaluación de Agentes

El Problema con las Pruebas Manuales

Presentando LLM-as-a-Judge

🤖 Configurando el LLM-Judge

📊 RAGAS: Más Allá de las Métricas Básicas

1. Métricas Específicas de RAG

2. Evaluación de Calidad Conversacional

3. Inteligencia de Recomendaciones con Rúbricas

🔄 El Pipeline Completo de Evaluación

📈 Impacto en el Mundo Real: Lo Que Verás

🚀 Estrategia de Implementación

Comenzando

🛠️ Desafíos Comunes y Soluciones

¡Gracias por Seguir Esta Serie!

📚 Recursos Esenciales

Elizabeth Fuentes LFollow

Elizabeth Fuentes L

Elizabeth Fuentes L