Local Embeddings para Private Memory Search
Por default, el memory search de OpenClaw envía texto a un embedding API externo (típicamente Anthropic u OpenAI) para generar vector embeddings para semantic search. Esto funciona bien, pero tiene dos downsides: cuesta dinero por query, y tu memory content sale de tu máquina.
Si quieres memory search completamente local, gratis y privado, puedes configurar OpenClaw para usar local embeddings vía node-llama-cpp con un embedding model GGUF pequeño. Esto corre totalmente en tu Mac Mini — sin API calls, sin data saliendo de la máquina.
Setup
# Enable memory search
openclaw config set memory.search.enable true
# Set the embedding provider to local
openclaw config set memory.search.provider local
# Restart the gateway to apply
openclaw gateway restart
OpenClaw descargará automáticamente un lightweight GGUF embedding model y empezará a indexar tus memory files. Con 16GB de RAM en la Mac Mini base, esto corre cómodamente — los embedding models son tiny comparados con full LLMs.
Que esperar
- El first-time indexing de 1,000+ files toma unos minutos. Después, los nuevos files se indexan incrementalmente.
- La search quality es muy buena para keyword y topic matching. No va a igualar la calidad de frontier embedding APIs para queries semánticas sutiles, pero para búsquedas tipo “what did I decide about X”, es más que suficiente.
- Zero ongoing cost. Zero data leaving your machine. Cuándo usar Local vs. API Embeddings
- Local (recomendado para la mayoría): Gratis, privado, suficientemente rápido. Ideal si estás air-gapping tu setup o manteniendo costos al mínimo.
- API-based (Anthropic, OpenAI o Gemini): Mejor calidad semántica para memory stores grandes. Úsalo si tienes miles de files y necesitas recall preciso en queries matizadas, y no te molesta el costo o que la data salga de tu máquina.
- Gemini free tier: Un punto medio — si ya tienes una Gemini API key configurada, es el fallback API-based más barato con calidad decente.
Top comments (0)