Abdessamad Ammi

Posted on Dec 4, 2025 • Originally published at bcloud.consulting

Cómo Construir un Chatbot RAG con LangChain en 5 Días (Guía Práctica 2025)

Originalmente en bcloud.consulting

TL;DR

Chatbot RAG funcional en 5 días (30 horas)
Stack: LangChain + OpenAI + Pinecone
94% accuracy, <2s latencia
Coste: ~$500/mes para 15k queries/día
Código production-ready incluido

Por Qué 5 Días es Suficiente

El 82% de empresas tarda 3-6 meses en sacar un chatbot a producción.

¿La razón? Over-engineering.

No necesitas la arquitectura perfecta desde el día 1. Necesitas un MVP funcional que puedas iterar.

El Plan: Día por Día

DÍA 1: Arquitectura y Setup (4 horas)

Decisiones clave:

# Stack definitivo
STACK = {
    "framework": "LangChain",
    "embeddings": "OpenAI text-embedding-3-small",
    "llm": "GPT-4-turbo",
    "vector_store": "Pinecone",
    "backend": "FastAPI",
    "cache": "Redis"
}

Setup inicial:

# config.py
import os
from dotenv import load_dotenv

load_dotenv()

class Config:
    OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
    PINECONE_API_KEY = os.getenv("PINECONE_API_KEY")
    PINECONE_ENV = os.getenv("PINECONE_ENV")
    REDIS_URL = os.getenv("REDIS_URL", "redis://localhost:6379")

    # Optimizaciones
    CHUNK_SIZE = 500
    CHUNK_OVERLAP = 50
    TOP_K_RESULTS = 5
    CONFIDENCE_THRESHOLD = 0.7

DÍA 2: Ingesta de Documentos (6 horas)

El 70% del éxito está en cómo procesas los datos.

# document_processor.py
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader, TextLoader, UnstructuredWordDocumentLoader
import hashlib

class DocumentProcessor:
    def __init__(self, chunk_size=500, chunk_overlap=50):
        self.splitter = RecursiveCharacterTextSplitter(
            chunk_size=chunk_size,
            chunk_overlap=chunk_overlap,
            separators=["\n\n", "\n", ".", "!", "?", ",", " ", ""]
        )

    def process_documents(self, file_paths):
        all_chunks = []

        for file_path in file_paths:
            # Load basado en tipo
            if file_path.endswith('.pdf'):
                loader = PyPDFLoader(file_path)
            elif file_path.endswith('.txt'):
                loader = TextLoader(file_path)
            elif file_path.endswith('.docx'):
                loader = UnstructuredWordDocumentLoader(file_path)
            else:
                continue

            # Load y split
            documents = loader.load()
            chunks = self.splitter.split_documents(documents)

            # Add metadata
            for chunk in chunks:
                chunk.metadata['source'] = file_path
                chunk.metadata['chunk_id'] = self.generate_chunk_id(chunk.page_content)

            all_chunks.extend(chunks)

        return all_chunks

    def generate_chunk_id(self, content):
        return hashlib.md5(content.encode()).hexdigest()

Generación de embeddings:

# embeddings_generator.py
from langchain.embeddings import OpenAIEmbeddings
from pinecone import Pinecone
import time

class EmbeddingsGenerator:
    def __init__(self):
        self.embeddings = OpenAIEmbeddings(
            model="text-embedding-3-small"
        )
        pc = Pinecone(api_key=Config.PINECONE_API_KEY)
        self.index = pc.Index("chatbot-index")

    def generate_and_store(self, chunks, batch_size=100):
        for i in range(0, len(chunks), batch_size):
            batch = chunks[i:i+batch_size]

            # Generate embeddings
            texts = [chunk.page_content for chunk in batch]
            embeddings = self.embeddings.embed_documents(texts)

            # Prepare for Pinecone
            vectors = []
            for j, (chunk, embedding) in enumerate(zip(batch, embeddings)):
                vectors.append({
                    "id": chunk.metadata['chunk_id'],
                    "values": embedding,
                    "metadata": {
                        "text": chunk.page_content,
                        "source": chunk.metadata['source']
                    }
                })

            # Upsert to Pinecone
            self.index.upsert(vectors)

            # Rate limiting
            time.sleep(1)

        print(f"Processed {len(chunks)} chunks")

DÍA 3: RAG Pipeline (8 horas)

El corazón del sistema.

# rag_pipeline.py
from langchain.vectorstores import Pinecone
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
import redis
import json

class RAGPipeline:
    def __init__(self):
        # Initialize components
        self.embeddings = OpenAIEmbeddings(
            model="text-embedding-3-small"
        )

        self.vectorstore = Pinecone.from_existing_index(
            index_name="chatbot-index",
            embedding=self.embeddings
        )

        self.llm = ChatOpenAI(
            model="gpt-4-turbo-preview",
            temperature=0.3,
            max_tokens=500
        )

        self.redis_client = redis.from_url(Config.REDIS_URL)

        self.setup_chain()

    def setup_chain(self):
        # Prompt optimizado
        prompt_template = """Eres un asistente experto y amigable.
        Usa ÚNICAMENTE la información del contexto proporcionado para responder.

        Contexto:
        {context}

        Pregunta del usuario: {question}

        Instrucciones importantes:
        1. Si la respuesta no está en el contexto, responde: "No tengo información sobre eso en mi base de conocimientos."
        2. Sé conciso pero completo
        3. Usa un tono profesional pero cercano
        4. Si es relevante, menciona la fuente de la información

        Respuesta:"""

        PROMPT = PromptTemplate(
            template=prompt_template,
            input_variables=["context", "question"]
        )

        self.qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            chain_type="stuff",
            retriever=self.vectorstore.as_retriever(
                search_type="similarity",
                search_kwargs={"k": Config.TOP_K_RESULTS}
            ),
            return_source_documents=True,
            chain_type_kwargs={"prompt": PROMPT}
        )

    def query(self, question: str):
        # Check cache
        cache_key = f"chatbot:query:{hashlib.md5(question.encode()).hexdigest()}"
        cached = self.redis_client.get(cache_key)

        if cached:
            return json.loads(cached)

        try:
            # Execute chain
            result = self.qa_chain({"query": question})

            # Calculate confidence
            confidence = self.calculate_confidence(
                result['result'],
                result['source_documents']
            )

            # Prepare response
            response = {
                "answer": result['result'],
                "confidence": confidence,
                "sources": [
                    {
                        "content": doc.page_content[:200] + "...",
                        "source": doc.metadata.get('source', 'Unknown')
                    }
                    for doc in result['source_documents'][:3]
                ]
            }

            # Cache result (1 hour)
            self.redis_client.setex(
                cache_key,
                3600,
                json.dumps(response)
            )

            return response

        except Exception as e:
            print(f"Error in query: {e}")
            return {
                "answer": "Lo siento, ocurrió un error procesando tu pregunta.",
                "confidence": 0,
                "sources": []
            }

    def calculate_confidence(self, answer, documents):
        # Simple confidence basado en similarity scores
        if not documents:
            return 0.0

        # Aquí podrías implementar lógica más sofisticada
        # Por ahora, usamos un threshold simple
        if "No tengo información" in answer:
            return 0.0

        return 0.85  # Default confidence para respuestas válidas

DÍA 4: Optimización y Fine-tuning (6 horas)

Donde la magia ocurre.

# optimizations.py
from sentence_transformers import CrossEncoder
import numpy as np

class RAGOptimizer:
    def __init__(self):
        self.cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')

    def rerank_documents(self, query, documents, top_k=3):
        """
        Re-ranking con cross-encoder para mejor precisión
        """
        if not documents:
            return documents

        # Prepare pairs
        pairs = [[query, doc.page_content] for doc in documents]

        # Get scores
        scores = self.cross_encoder.predict(pairs)

        # Sort by score
        sorted_indices = np.argsort(scores)[::-1]

        # Return top-k
        return [documents[i] for i in sorted_indices[:top_k]]

    def add_semantic_cache(self, query, response):
        """
        Cache semántico - cachea queries similares
        """
        # Generate embedding para query
        query_embedding = self.embeddings.embed_query(query)

        # Store en Redis con embedding
        cache_data = {
            "query": query,
            "response": response,
            "embedding": query_embedding
        }

        # Lógica para encontrar queries similares
        # y devolver respuesta cacheada si similarity > threshold
        pass

    def implement_streaming(self):
        """
        Streaming para mejor UX
        """
        from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

        streaming_llm = ChatOpenAI(
            model="gpt-4-turbo-preview",
            streaming=True,
            callbacks=[StreamingStdOutCallbackHandler()],
            temperature=0.3
        )

        return streaming_llm

DÍA 5: Deployment (6 horas)

Production-ready.

# main.py
from fastapi import FastAPI, HTTPException
from fastapi.responses import StreamingResponse
from pydantic import BaseModel
import uvicorn

app = FastAPI(title="RAG Chatbot API")

# Initialize pipeline
rag_pipeline = RAGPipeline()
optimizer = RAGOptimizer()

class QueryRequest(BaseModel):
    question: str
    stream: bool = False

class QueryResponse(BaseModel):
    answer: str
    confidence: float
    sources: list

@app.post("/chat", response_model=QueryResponse)
async def chat(request: QueryRequest):
    try:
        # Get response
        response = rag_pipeline.query(request.question)

        # Optimize if confidence is low
        if response['confidence'] < Config.CONFIDENCE_THRESHOLD:
            # Try re-ranking
            reranked_docs = optimizer.rerank_documents(
                request.question,
                response.get('source_documents', [])
            )
            # Re-generate response with better docs
            response = rag_pipeline.query_with_documents(
                request.question,
                reranked_docs
            )

        return QueryResponse(**response)

    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

@app.get("/health")
async def health_check():
    return {"status": "healthy"}

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000)

Docker deployment:

FROM python:3.11-slim

WORKDIR /app

# Install dependencies
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# Copy app
COPY . .

# Run
CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]

Resultados Reales

Cliente: EdTech con 50k estudiantes
Timeline: 5 días
Documentos: 10k páginas

Métricas después de 3 meses:

15k queries/día
94% accuracy
1.8s latencia promedio
92% satisfacción
80% reducción tickets

Costes Mensuales

OpenAI API:     $300
Pinecone:       $70
Redis Cloud:    $30
AWS ECS:        $100
Total:          ~$500/mes

Key Takeaways

→ No over-engineer el MVP
→ Data quality > model complexity
→ Test con usuarios día 3
→ Cache agresivamente
→ Monitor desde día 1

Recursos Completos

Guía completa con:

Código Python completo
Templates de prompts
Configuración AWS
Dashboard de monitoring

👉 Accede a la guía completa

¿Has construido un chatbot RAG? Comparte tu experiencia 👇

DEV Community