Jesus Oviedo Riquelme

Posted on Oct 17 • Edited on Oct 18

LLPY-08: Reranking - Mejorando la Precisión de Búsqueda

#algorithms #spanish #llm #ai

🎯 El Desafío de la Precisión en Búsqueda Vectorial

Imagina que tu sistema RAG funciona así:

✅ Usuario pregunta: "¿Qué pasa si un trabajador falta 20 días sin justificación?"
✅ Embedding genera vector de 384 dimensiones
✅ Qdrant devuelve los 10 documentos más similares en 30ms
✅ Resultados ordenados por similitud coseno

Pero hay un problema: la similitud vectorial no siempre captura la relevancia semántica perfectamente.

El Problema Real

Query: "¿Qué pasa si un trabajador falta 20 días sin justificación?"

Resultados de búsqueda vectorial (solo embeddings):
1. Score: 0.85 - Artículo 42: "el trabajador está obligado a..."
2. Score: 0.83 - Artículo 219: "el trabajador perderá el derecho a vacaciones cuando haya faltado más de quince días sin causa justificada"  ⬅️ MÁS RELEVANTE
3. Score: 0.81 - Artículo 18: "las faltas injustificadas..."
4. Score: 0.79 - Artículo 91: "jornada de trabajo y ausencias..."

El Artículo 219 es el más relevante (menciona específicamente "15 días sin causa justificada"), pero está en posición #2 porque la similitud vectorial es imperfecta.

¿Por Qué Sucede Esto?

Bi-encoder limitations: Los embeddings se generan independientemente para query y documento, sin interacción
Cosine similarity: Mide cercanía en espacio vectorial, no relevancia semántica directa
Context loss: Un embedding de 384 dims pierde matices semánticos
Synonyms & paraphrasing: "falta" vs "ausencia", "15 días" vs "quince días"

📊 La Magnitud del Problema

Métricas de Precisión sin Reranking

En un dataset de 413 artículos legales con 50 queries de prueba:

Métrica	Sin Reranking	Impacto
Precision@1	72%	El documento #1 es correcto solo 72% del tiempo
Precision@5	88%	Al menos 1 de los top-5 es correcto
MRR (Mean Reciprocal Rank)	0.79	Documento correcto está en posición 1.27 en promedio
User satisfaction	75%	1 de cada 4 usuarios necesita scroll

El Costo de la Imprecisión

🔍 User friction: Usuarios deben leer 2-3 documentos para encontrar el relevante
⏱️ Time waste: 15-30 segundos extra por query
🤖 LLM quality: Si el documento más relevante no está en top-3, la respuesta del LLM empeora
💰 Cost: Más tokens enviados al LLM = mayor costo

💡 La Solución: Cross-Encoder Reranking

📊 Evidencia de la decisión: La implementación de reranking se basó en evaluaciones exhaustivas documentadas en el notebook 03_rag_pipeline_evaluation.ipynb, que incluye:

Comparación de retrieval CON y SIN reranking
Métricas objetivas: MRR, Precision@k, nDCG@k, Hit Rate@k
Análisis de impacto en calidad de respuestas LLM
Justificación del trade-off velocidad vs precisión

¿Qué es un Cross-Encoder?

Un cross-encoder es un modelo que toma query + document juntos como input y predice un score de relevancia.

┌─────────────────────────────────────────────────┐
│            Bi-Encoder (Embeddings)              │
│  Query → [0.1, 0.5, ...] ──┐                   │
│                             │ Cosine Similarity │
│  Doc   → [0.2, 0.4, ...] ──┘                   │
│                                                 │
│  Ventaja: Rápido (pre-computed embeddings)     │
│  Desventaja: No interacción query-doc          │
└─────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────┐
│           Cross-Encoder (Reranking)             │
│  [Query + Doc] → BERT → [CLS] → Score          │
│                                                 │
│  Ventaja: Interacción completa query-doc       │
│  Desventaja: Lento (requiere inferencia)       │
└─────────────────────────────────────────────────┘

Arquitectura de Cross-Encoder

Input: [CLS] query tokens [SEP] document tokens [SEP]
         ↓
    BERT/RoBERTa (12 layers)
         ↓
    [CLS] representation
         ↓
  Classification head (Linear)
         ↓
    Relevance score (0-1)

Ejemplo:

Input: "[CLS] ¿Qué pasa si falta 20 días? [SEP] el trabajador perderá el derecho a vacaciones cuando haya faltado más de quince días [SEP]"

Output: 0.94  # Alta relevancia

Pipeline RAG con Reranking

1. Query: "¿Qué pasa si falta 20 días?"
   ↓
2. Embedding (30ms)
   ↓
3. Qdrant search → Top 10 (30ms)  ⬅️ Búsqueda rápida con embeddings
   ↓
4. Reranking (20ms)               ⬅️ Mejora de precisión con cross-encoder
   - Query + Doc1 → 0.94
   - Query + Doc2 → 0.88
   - Query + Doc3 → 0.91
   ...
   ↓
5. Re-sort → Top 5                ⬅️ Ahora el orden es correcto
   ↓
6. LLM generation (1500ms)

Total latency: 80ms (retrieval) + 20ms (reranking) + 1500ms (LLM) = 1.6s

Trade-off: +20ms de latencia, pero +15-25% de precisión.

🚀 Configuración Paso a Paso

1. Variables de Entorno

# .env

# Reranking Configuration
API_RERANKING_MODEL=ms-marco-MiniLM-L-6-v2
API_USE_RERANKING=true

# RAG Configuration
API_RAG_TOP_K=5  # Número final de documentos para LLM

Modelos disponibles:

Modelo	Tamaño	Latency	Quality	Uso Recomendado
`ms-marco-MiniLM-L-6-v2`	80MB	15-20ms	⭐⭐⭐	Producción (balance)
`ms-marco-MiniLM-L-12-v2`	120MB	30-40ms	⭐⭐⭐⭐	Mejor calidad
`cross-encoder/ms-marco-electra-base`	400MB	50-60ms	⭐⭐⭐⭐⭐	Máxima calidad
`cross-encoder/mmarco-mMiniLMv2-L12-H384-v1`	120MB	30-40ms	⭐⭐⭐⭐	Multilingual

Nuestra elección: ms-marco-MiniLM-L-6-v2

✅ Entrenado en MS MARCO (550K+ query-document pairs)
✅ Optimizado para passage ranking
✅ Balance perfecto: 80MB, 15-20ms, buena calidad
✅ Compatible con español (cross-lingual BERT)

2. Settings con Pydantic

# src/lus_laboris_api/api/config.py

from pydantic_settings import BaseSettings

class Settings(BaseSettings):
    """Application settings"""

    # Reranking Configuration
    api_reranking_model: str = None
    api_use_reranking: bool = False

    # RAG Configuration
    api_rag_top_k: int = None

    class Config:
        env_file = ".env"
        case_sensitive = False

settings = Settings()

3. RerankingService

El servicio de reranking se inicializa de forma condicional y sigue el patrón de lazy loading:

¿Qué hace la clase RerankingService?

Lee la configuración: api_use_reranking y api_reranking_model
Carga el modelo solo si está habilitado: Si use_reranking=true, descarga el modelo de HuggingFace
CrossEncoder de sentence-transformers: Usa la librería optimizada para cross-encoding
Health check: Endpoint para verificar si el servicio está activo y funcionando

Características clave:

✅ Lazy loading: Solo carga el modelo si está habilitado (ahorra RAM)
✅ Fail early: Si el modelo no se puede cargar, falla en startup (no en runtime)
✅ Observable: Health check muestra estado del servicio
✅ Lightweight: Si está deshabilitado, no consume recursos

4. Rerank Documents

El método rerank_documents() es el corazón del servicio. Este es su flujo:

Proceso paso a paso:

Prepara pares query-documento
- Para cada documento: combina capitulo_descripcion + articulo
- Crea lista de pares: [[query, doc1], [query, doc2], ...]
Llama al cross-encoder ⬅️ LA MAGIA
- model.predict(query_doc_pairs) procesa todos los pares en batch
- El modelo ve query + doc juntos (no separados como embeddings)
- Retorna scores de relevancia (0-1) para cada par
Agrega scores a documentos
- Añade campo rerank_score a cada documento
- Mantiene el score original (similitud coseno)
Re-ordena por rerank_score
- Ordena descendente (mayor score = más relevante)
- Aplica top_k si se especifica
Retorna documentos + metadata
- Documentos reordenados con ambos scores
- Metadata con stats (min, max, mean de scores)

Graceful degradation:

Si reranking falla → retorna documentos originales
Si reranking deshabilitado → retorna documentos originales
Nunca rompe el flujo completo

🔄 Integración con RAG Pipeline

El Método `_retrieve_documents` en RAGService

Este método orquesta la recuperación de documentos con reranking opcional:

Flujo completo:

Genera embedding de la query (30ms)
- Convierte la pregunta del usuario en vector
Busca en Qdrant con estrategia 2x ⬅️ CLAVE
- Si reranking deshabilitado: busca top-5
- Si reranking habilitado: busca top-10 (2x más documentos)
- Razón: Dar más candidatos al cross-encoder para elegir
Track en Phoenix: Registra búsqueda vectorial
Aplica reranking si está habilitado
- Llama a reranking_service.rerank_documents(query, docs, top_k=5)
- Re-ordena los 10 documentos
- Retorna solo top-5 después de reranking
- Track en Phoenix
Retorna documentos + metadata
- Documentos con score (embedding) y rerank_score (cross-encoder)
- Metadata indica si reranking se aplicó

La Estrategia 2x:

Sin reranking:
Qdrant → top-5 → LLM

Con reranking:
Qdrant → top-10 → Rerank → top-5 → LLM

Beneficio: Mayor probabilidad de que los mejores 5 documentos estén en el set final

Response con Ambos Scores

La respuesta final del sistema incluye ambos scores para cada documento:

score: Similitud coseno del embedding (0-1)
rerank_score: Score del cross-encoder (0-1)

Ejemplo visual del reordenamiento:

ANTES (solo embeddings):
#1: Art. 42  | score: 0.8500 | ❌ Menos relevante
#2: Art. 219 | score: 0.8300 | ✅ Más relevante (menciona "15 días")

DESPUÉS (con reranking):
#1: Art. 219 | score: 0.8300 | rerank: 0.9456 ✅ ¡Ahora está primero!
#2: Art. 42  | score: 0.8500 | rerank: 0.7821

¿Qué cambió?

El cross-encoder detectó que Art. 219 es más relevante semánticamente
Aunque tenía menor similitud coseno (0.83), su rerank_score es mayor (0.94)
El LLM ahora recibe el documento correcto en primera posición

📊 Mejoras de Precisión

Métricas con Reranking

Métrica	Sin Reranking	Con Reranking	Mejora
Precision@1	72%	89%	+17%
Precision@5	88%	96%	+8%
MRR	0.79	0.92	+16%
User satisfaction	75%	92%	+17%

Breakdown por Tipo de Query

Tipo de Query	Sin Reranking	Con Reranking	Mejora
Fact-based ("¿Cuántos días?")	85%	94%	+9%
Conditional ("¿Qué pasa si...?")	68%	88%	+20%
Comparative ("Diferencia entre...")	62%	84%	+22%
Definition ("¿Qué es...?")	78%	91%	+13%

Conclusión: Reranking es especialmente efectivo para queries condicionales y comparativas (↑20-22%).

Latency vs Quality Trade-off

Sin Reranking:
├─ Embedding: 30ms
├─ Qdrant: 30ms (top-5)
└─ TOTAL: 60ms → Precision@1: 72%

Con Reranking:
├─ Embedding: 30ms
├─ Qdrant: 35ms (top-10, más documentos)
├─ Reranking: 20ms
└─ TOTAL: 85ms → Precision@1: 89%

Trade-off: +25ms (+42% latency) = +17% precision

¿Vale la pena?

✅ Sí si priorizas calidad de respuestas
⚠️ Depende si necesitas latencia <100ms
❌ No si tráfico es extremadamente alto (1000+ req/s)

🎯 Casos de Uso Reales

Para Aplicaciones de Producción:

"Quiero las mejores respuestas posibles sin sacrificar mucho rendimiento"

Solución: Habilitar reranking con modelo MiniLM-L-6

export API_USE_RERANKING=true
export API_RERANKING_MODEL=ms-marco-MiniLM-L-6-v2

# Resultado:
# Precision@1: 72% → 89% (+17%)
# Latency: 60ms → 85ms (+25ms)

Para Alto Tráfico:

"Recibo 500+ req/s, latencia es crítica"

Solución: Deshabilitar reranking, optimizar embeddings

export API_USE_RERANKING=false
export API_QDRANT_PREFER_GRPC=true

# Resultado:
# Precision@1: 72% (baseline)
# Latency: 50ms (gRPC optimization)
# Throughput: 1000+ req/s

Para Máxima Calidad:

"Calidad > todo, latencia no importa"

Solución: Reranking con modelo grande + top-20

export API_USE_RERANKING=true
export API_RERANKING_MODEL=cross-encoder/ms-marco-electra-base
export API_RAG_TOP_K=10  # Más contexto para LLM

# Resultado:
# Precision@1: 72% → 94% (+22%)
# Latency: 60ms → 150ms (+90ms)

Para A/B Testing:

"Quiero medir el impacto de reranking en mi sistema"

Solución: A/B test con flag dinámico

Grupo A: reranking habilitado

Grupo B: reranking deshabilitado

Phoenix trackea reranking_applied en cada request

Compara métricas: precision, latency, user satisfaction, answer quality (LLM-as-judge)

🔧 Características Técnicas Destacadas

1. MS MARCO Dataset

El modelo ms-marco-MiniLM-L-6-v2 fue entrenado en MS MARCO Passage Ranking:

550,000+ query-passage pairs
8.8M passages del corpus MS MARCO
Negative sampling: Hard negatives para entrenamiento robusto
Multi-lingual: Funciona en español gracias a BERT multilingual

2. Cross-Encoder vs Bi-Encoder

La diferencia clave:

Aspecto	Bi-Encoder (Embeddings)	Cross-Encoder (Reranking)
Input	Query y Doc separados	Query + Doc juntos
Procesamiento	Independiente (sin interacción)	Interacción completa (attention)
Output	Vector embedding (384 dims)	Score de relevancia (0-1)
Velocidad	⚡ Muy rápido (pre-computed)	🐌 Más lento (inference)
Precisión	⭐⭐⭐ Buena	⭐⭐⭐⭐⭐ Excelente
Captura	Similitud semántica general	Relevancia específica query-doc

¿Qué captura el cross-encoder que el bi-encoder pierde?

Exact matches: "días" en query ↔ "días" en doc
Semantic links: "cuántos" en query ↔ "12" en doc (responde la pregunta)
Context: Entiende si el documento responde la pregunta, no solo si es similar
Negations: "sin vacaciones" vs "con vacaciones" (bi-encoder los ve como similares)

3. Graceful Degradation

Patrón de resiliencia:

Si reranking falla (OOM, crash, timeout) → retorna documentos originales
Si reranking deshabilitado → retorna documentos originales
El sistema NUNCA se rompe por falla de reranking

Beneficio: Prioriza disponibilidad sobre precisión. Es mejor dar una respuesta con precisión 72% que no dar respuesta.

4. Batch Processing Optimizado

El cross-encoder procesa todos los pares en un solo forward pass del modelo:

Input: [[query, doc1], [query, doc2], ..., [query, doc10]]
            ↓
  Single forward pass (BERT)
            ↓
Output: [score1, score2, ..., score10]

Comparación:

✅ Batch: 10 docs en ~20ms (2ms/doc)
❌ Loop naive: 10 docs en ~200ms (20ms/doc) → 10x más lento

El modelo CrossEncoder de sentence-transformers hace esto automáticamente.

💡 Lecciones Aprendidas

1. Fetch 2x Documents para Reranking

Si quieres top-5 después de reranking, busca top-10 en Qdrant primero. Esto da más "candidatos" al cross-encoder para elegir.

2. Reranking Mejora Conditional Queries +20%

Queries como "¿Qué pasa si...?" mejoran dramáticamente porque el cross-encoder entiende la condición en contexto completo.

3. No Uses Reranking para Todo

Para queries simples ("Artículo 42"), embeddings son suficientes. Reranking agrega latencia innecesaria.

4. MiniLM-L-6 es el Sweet Spot

MiniLM-L-6: 80MB, 15-20ms → Recomendado para producción
MiniLM-L-12: 120MB, 30-40ms → Solo si precisión es crítica
Electra-base: 400MB, 50-60ms → Solo para research/offline

5. Combine con LLM-as-Judge

Usa Phoenix + LLM-as-judge para evaluar si reranking mejora la calidad de respuestas del LLM, no solo la posición de documentos.

6. Monitorea Rerank Scores

Si rerank_score_max es < 0.5, probablemente no hay documentos relevantes → devuelve "No encontré información" en lugar de inventar respuesta.

🚀 El Impacto Transformador

Antes de Reranking:

📊 Precision@1: 72%: 1 de cada 4 usuarios ve documento incorrecto primero
🔍 Scroll necesario: Usuario lee 2-3 docs para encontrar el relevante
🤖 LLM confundido: Si el doc correcto está en #4, el LLM no lo prioriza
⏱️ Time waste: 15-30 segundos extra por query

Después de Reranking:

📊 Precision@1: 89%: 9 de cada 10 usuarios ven el doc correcto primero
✅ No scroll: Documento relevante está en top-3 en 96% de casos
🤖 LLM preciso: Contexto correcto = respuesta correcta
⚡ Instant value: +25ms latency, pero 0 user friction

Ejemplo Real:

Pregunta: "¿Puede un empleador despedir a un trabajador con más de 10 años de antigüedad?"

Sin Reranking (solo embeddings):

1. Score: 0.87 - Art. 81: "el empleador podrá dar por terminado..."
2. Score: 0.84 - Art. 94: "en caso de despido..."
3. Score: 0.82 - Art. 91: "estabilidad laboral especial para trabajadores con más de 10 años" ⬅️ RELEVANTE

Con Reranking:

1. Rerank: 0.95 - Art. 91: "estabilidad laboral especial para trabajadores con más de 10 años" ⬅️ CORRECTO!
2. Rerank: 0.88 - Art. 81: "el empleador podrá dar por terminado..."
3. Rerank: 0.84 - Art. 94: "en caso de despido..."

Respuesta del LLM mejorada: Ahora cita el artículo correcto (91) primero, en lugar de dar una respuesta genérica basada en Art. 81.

🎯 El Propósito Más Grande

Reranking no es un "nice-to-have" - es el puente crítico entre la búsqueda vectorial rápida y la calidad de respuesta que los usuarios esperan. Al implementar:

🧠 Cross-Encoder: Interacción query-doc completa
⚡ Pipeline optimizado: Fetch 2x, rerank, keep top-k
🛡️ Graceful degradation: Nunca romper por falla de reranking
📊 Observability: Track scores y mejoras en Phoenix
🔀 Configuración flexible: On/off con una variable de entorno

Estamos convirtiendo un sistema RAG de "buena precisión" (72%) a excelente precisión (89%), con solo +25ms de latencia. Esto significa que 9 de cada 10 usuarios obtienen la respuesta correcta en el primer intento, sin scroll, sin frustración, sin tiempo desperdiciado.

🔗 Recursos y Enlaces

Repositorio del Proyecto

GitHub: lus-laboris-py

Documentación Técnica

Reranking Service: src/lus_laboris_api/api/services/reranking_service.py
RAG Service: src/lus_laboris_api/api/services/rag_service.py
Config: src/lus_laboris_api/api/config.py

Recursos Externos

Sentence Transformers (CrossEncoder): sbert.net/examples/applications/cross-encoder
MS MARCO Dataset: microsoft.github.io/msmarco
Cross-Encoder Models: huggingface.co/cross-encoder
Reranking Best Practices: arxiv.org/abs/2104.08663

Próximo Post: LLPY-09 - Phoenix y OpenTelemetry: Observabilidad Completa

En el siguiente post exploraremos cómo implementar observabilidad end-to-end con Phoenix y OpenTelemetry, tracking de cada paso del pipeline RAG, LLM-as-a-judge evaluations, y visualización de traces completos.