lu1tr0n

Posted on May 10 • Originally published at elsolitario.org

Gemini API File Search ahora es multimodal con metadata y citas por página

#tutorial #ai #machinelearning #programming

Google anunció el 5 de mayo de 2026 una actualización mayor a Gemini API File Search, su herramienta para construir sistemas de Retrieval-Augmented Generation (RAG) gestionados. El paquete incluye tres cambios concretos: soporte multimodal sobre imágenes y texto con el modelo Gemini Embedding 2, filtros con metadata personalizada y citas a nivel de página en los documentos fuente.

Para los equipos que llevan dos años armando pipelines RAG con Pinecone, Weaviate o pgvector, esto reordena el tablero. Google se queda con la infraestructura completa de chunking, embedding e indexado, y deja al desarrollador concentrarse en la lógica de la aplicación. El precio que se paga es vendor lock-in.

TL;DR

Google actualizó Gemini API File Search el 5 de mayo de 2026 con tres cambios mayores: multimodal, metadata y page citations.
El nuevo modelo Gemini Embedding 2 indexa imágenes y texto en el mismo espacio vectorial, sin pipelines duales tipo CLIP+texto.
Custom metadata permite etiquetar documentos con pares clave-valor (department, status, region) y filtrar al momento de la query.
Cada respuesta del modelo incluye el número de página exacto del PDF fuente, clave para auditoría legal, médica o financiera.
Compite directo con OpenAI File Search, Pinecone, Weaviate y los stacks caseros pgvector + Postgres.
Google maneja chunking, embeddings e indexado: el dev sube archivos y consulta. Hay vendor lock-in a cambio.
Disponible vía Gemini API y Google AI Studio; el costo se reparte entre almacenamiento, embedding al indexar y queries.

Qué anunció Google exactamente

El post oficial firmado por Ivan Solovyev (Product Manager en Google DeepMind) y Kriti Dwivedi (Software Engineer) en el blog de Google describe tres features para Gemini File Search: procesamiento nativo de imágenes y texto en una misma búsqueda, etiquetado con metadata custom y citas que apuntan al número de página del documento fuente.

Cada uno ataca un dolor específico que los equipos de RAG encontraron en producción durante 2024 y 2025. El primero responde a la realidad de que la mayoría de los datasets corporativos no son texto puro: hay PDFs con diagramas, screenshots de dashboards, fotos de productos, slides de presentaciones. Indexar solo el texto OCR pierde la mitad del contexto.

El segundo aborda el problema de escala. Cuando el corpus crece a decenas de miles de documentos, traer los top-k por similaridad pura genera ruido: la búsqueda semántica es muy buena para conceptos similares, pero pésima para distinguir un PDF de 2019 de su versión de 2026. El tercero atiende el requisito de auditoría que viene cada vez más fuerte desde equipos legales, de cumplimiento y de seguridad.

Gemini Embedding 2 unifica imagen y texto en un mismo espacio vectorial.

Búsqueda multimodal: cómo funciona Gemini Embedding 2

La pieza central del anuncio es Gemini Embedding 2, el modelo que procesa imágenes y texto generando vectores en el mismo espacio. Esto significa que una query en lenguaje natural —por ejemplo, «foto de producto con tono melancólico y paleta fría»— puede recuperar imágenes relevantes aunque no estén etiquetadas con esas palabras específicas en metadata ni en el nombre del archivo.

Antes de esta actualización, hacer RAG multimodal con Gemini requería un pipeline de dos modelos: uno para embedear imágenes (típicamente CLIP de OpenAI o variantes open source como SigLIP) y otro para texto. Mantener ambos espacios vectoriales alineados es no trivial: cada modelo entrena con datasets distintos, las distancias coseno no son directamente comparables y la calidad de los resultados depende mucho de cómo se hicieran los chunks.

Con el modelo unificado, el flujo se simplifica drásticamente. Subís un PDF con texto e imágenes mezcladas, File Search detecta los assets visuales, los embeddings van al mismo store, y al momento de la query la similaridad se calcula contra todos los items independientemente de su modalidad de origen. Para un equipo que necesitaba mantener dos servicios separados, esto es un cambio operativo importante.

El caso que destacó Google en su demo fue una agencia creativa buscando assets visuales en su archivo. En vez de depender de keywords o nombres de archivo —siempre incompletos cuando los archivos los suben distintos diseñadores con criterios distintos— la app puede buscar por descripción libre del briefing. Lo mismo aplica a equipos legales con expedientes que contienen evidencias visuales, o a soporte técnico con manuales que mezclan diagramas y prosa.

💭 Clave: El embedding multimodal unificado no es solo conveniencia de API. Es una mejora de calidad: la similaridad cross-modal funciona mejor cuando ambos vectores se entrenan en el mismo modelo, no en dos modelos pegados con cinta.

Custom metadata: el filtro que le faltaba al RAG

Indexar archivos en un vector store es la parte fácil. Lo difícil es encontrar el archivo correcto cuando el corpus crece más allá de unos pocos miles de documentos. La búsqueda semántica pura es excelente para encontrar conceptos similares, pero pésima para distinguir contextos: una política de RR.HH. de 2019 y la de 2026 generan embeddings casi idénticos, y el modelo recupera ambas con confianza similar. El usuario recibe la versión obsoleta sin saberlo.

Custom metadata resuelve esto con pares clave-valor que se aplican a cada documento al momento de la indexación. Algunos ejemplos típicos del anuncio:

department: legal, engineering, hr, finance
status: draft, in_review, final, archived
region: latam, na, eu, apac
year: 2024, 2025, 2026
language: es, en, pt

Al momento de la query, podés pasar un filtro que reduce el universo de búsqueda antes del cálculo de similaridad. Esto baja la latencia —hay menos vectores que comparar— y sube la precisión, porque eliminás de raíz la chance de traer un documento obsoleto, de otra región o de un departamento que no corresponde.

Para los que vienen de SQL, el patrón mental es directo: pensá la metadata como una WHERE clause y la búsqueda semántica como el ORDER BY similarity. La diferencia con armar esto a mano sobre pgvector es que en File Search el filtro y el cálculo de similaridad están integrados en el mismo pipeline optimizado.

Citas por página: auditoría y confianza

Cuando un sistema RAG responde con un párrafo extraído de un PDF de 200 páginas, el usuario necesita saber exactamente dónde verificar la afirmación. Sin esa trazabilidad, el LLM se convierte en una caja negra que no se puede auditar, y para casos de uso regulados —salud, finanzas, derecho— eso es un blocker para producción.

La nueva feature captura el número de página de cada chunk indexado, y lo devuelve en la respuesta junto con el texto citado. El usuario hace clic en la cita y aterriza en la página exacta del documento fuente. Para un asistente legal sobre jurisprudencia, un copiloto médico sobre guías clínicas o un analista financiero sobre reportes anuales, esto es la diferencia entre un prototipo demo y un producto que un equipo de cumplimiento aprueba.

El detalle técnico que importa: la página viaja en los metadatos del chunk, no se infiere a posteriori. Esto evita el problema clásico de pedirle al LLM que «adivine» la cita, que en la práctica termina alucinando referencias.

⚠️ Ojo: Page citations resuelve la trazabilidad de chunks de texto en PDFs paginados. Para fuentes web sin paginación o documentos con estructura compleja (notebooks, presentaciones con animaciones), la granularidad de la cita varía y conviene probar con tu corpus específico antes de prometer auditoría completa.

Ejemplo práctico: indexar y consultar

El SDK oficial mantiene la simplicidad que Google viene cultivando en Gemini API. Subir un set de archivos con metadata se ve así:

from google import genai
from google.genai import types

client = genai.Client()

store = client.file_search.create_store(
    name="docs-empresa",
    description="Manuales y politicas internas",
)

client.file_search.upload(
    store=store.name,
    file="manuales/instalacion.pdf",
    metadata={
        "department": "engineering",
        "region": "latam",
        "year": "2026",
        "status": "final",
    },
)

response = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="Cual es el procedimiento de rollback en caso de fallo?",
    config=types.GenerateContentConfig(
        tools=[types.Tool(file_search=types.FileSearch(
            store_names=[store.name],
            metadata_filter='department = "engineering" AND year = "2026"',
        ))]
    ),
)

for citation in response.citations:
    print(f"Pagina {citation.page}: {citation.text[:120]}...")

Tres cosas a notar. Primero, el filtro de metadata viene como un mini-DSL parecido a SQL, no como un dict de Python; esto permite operadores lógicos. Segundo, las citas vienen pobladas en la respuesta con número de página, sin parseo manual. Tercero, no hay paso explícito de chunking, embedding ni indexado: todo eso lo maneja Google del lado del servidor.

Comparación con alternativas en el mercado

Gemini File Search compite directamente con varios stacks que dominaron 2024-2025:

OpenAI File Search (vía Assistants API): mismo concepto pero atado al ecosistema GPT. La calidad de embeddings es comparable y el pricing similar. Hace meses que soporta multimodal con GPT-4o.
Pinecone + framework de embeddings: control total sobre el pipeline, pero requiere mantener dos servicios (embedder + vector store) y resolver chunking a mano. Sigue siendo la opción para corpus muy grandes.
pgvector + Postgres: barato y sencillo si ya tenés Postgres en producción. Pierde rendimiento a partir de unos pocos millones de vectores, y el multimodal hay que armarlo por separado.
Weaviate / Qdrant: open source, bueno para deploys self-hosted o on-prem por requisitos regulatorios. Multimodal requiere configurar modelos externamente.
LlamaIndex / LangChain encima de cualquiera: capa de orquestación que muchos equipos arman para no atarse a un proveedor. Ahora compite con la abstracción que Google ya ofrece nativamente.

La decisión deja de ser técnica pura y se vuelve estratégica. Si tu app ya consume otros modelos de Gemini, File Search reduce mucho el código de glue. Si tenés requisitos de soberanía de datos, on-prem o multi-cloud, el stack open source sigue siendo la jugada.

El mercado de RAG en 2026: managed vs. self-hosted vs. híbrido.

Flujo end-to-end del nuevo File Search

El siguiente diagrama resume el camino que recorre una query desde el usuario hasta la respuesta con citas:

sequenceDiagram
    participant U as Usuario
    participant App as App cliente
    participant API as Gemini API
    participant FS as File Search
    participant LLM as Gemini 2.5
    U->>App: "pregunta en lenguaje natural"
    App->>API: query + metadata_filter
    API->>FS: "buscar top-k filtrado"
    FS-->>API: chunks + paginas + scores
    API->>LLM: contexto + pregunta
    LLM-->>API: respuesta + citas
    API-->>App: JSON con texto y citations
    App-->>U: "respuesta con links a paginas"

Lo importante es ver dónde se aplica el filtro de metadata: antes del cálculo de similaridad, no después. Eso es lo que hace que el costo y la latencia bajen cuando el corpus es grande.

Impacto para desarrolladores en LATAM

La región tiene casos de uso particulares donde esto pega fuerte. Asistentes legales sobre legislación local en español, donde los PDFs gubernamentales son la regla y suelen mezclar texto con escaneos de planos, formularios y firmas. Análisis de catastros con planos como imágenes embebidas. Soporte técnico sobre manuales de productos importados que llegan en PDF con diagramas. Plataformas de educación con material que mezcla texto, ilustraciones y capturas de pantalla.

En todos estos casos el contenido visual y la trazabilidad importan tanto como el texto. Antes de esta actualización, había que armar pipelines duales que casi nadie tenía recursos para mantener bien.

El precio en USD sigue siendo una barrera para proyectos de startups latinoamericanos en fase temprana, pero el costo total puede salir comparable a self-hosting cuando se computan las horas de DevOps que se ahorran. La latencia desde LATAM mejoró con las regiones nuevas que Google sumó en Brasil y Chile durante 2025.

💡 Tip: Antes de migrar un pipeline RAG existente a File Search, corré tu set de evaluación contra ambos sistemas con las mismas queries. Las diferencias en chunking pueden dar resultados sorpresivamente distintos en corpus específicos del dominio.

Limitaciones y consideraciones

Hay varios puntos que conviene tener en mente antes de comprometerse:

Vendor lock-in: los embeddings generados por Gemini Embedding 2 no son portables. Migrar a otro proveedor implica reindexar todo el corpus.
Modelo de costos: se paga por almacenamiento, por queries de embedding al indexar y por cada query de búsqueda. Para corpus muy grandes y queries muy frecuentes, conviene modelar el costo antes.
Tamaño máximo de archivos: hay límites por archivo y por store que conviene revisar en la documentación oficial antes de subir terabytes.
Privacidad y soberanía de datos: los archivos viajan a infraestructura de Google. Para casos regulados, hay que validar las políticas de retención y procesamiento.
Customización del chunking: al ser managed, perdés control fino sobre cómo se cortan los documentos. Para corpus con estructura muy específica (código, tablas complejas), puede no ser óptimo.

Qué viene después

El movimiento encaja en una tendencia clara de 2026: los proveedores de modelos están internalizando capas que antes eran de terceros. Webhooks para jobs largos, file search managed, agentes con herramientas built-in. Cada uno reduce la superficie de código que el desarrollador escribe y aumenta la dependencia del proveedor.

Para los próximos meses esperá ver respuestas de Anthropic y OpenAI ampliando sus propias capacidades de retrieval. También una migración natural de muchos POCs hechos con LangChain hacia las APIs nativas de los modelos, simplemente por economía de mantenimiento.

Para los equipos open source la oportunidad sigue siendo grande: control, portabilidad, on-prem y costo predecible son ventajas que no van a desaparecer. Pero el listón para justificar la complejidad subió.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Qué es exactamente Gemini File Search?

Es una herramienta de la Gemini API que actúa como un vector store gestionado. Subís archivos, Google los procesa (chunking, embedding, indexado) y los expone como una herramienta que el modelo Gemini puede consultar para responder preguntas con contexto de tus documentos.

¿En qué se diferencia el RAG multimodal del RAG tradicional?

El RAG tradicional indexa solo texto, ignorando o pasando por OCR las imágenes. El multimodal con Gemini Embedding 2 procesa imágenes y texto en el mismo espacio vectorial, permitiendo recuperar assets visuales con queries de lenguaje natural sin necesidad de etiquetarlos manualmente.

¿Las citas por página funcionan en cualquier formato?

Funcionan en formatos paginados como PDF, donde el chunk se asocia a un número de página concreto. En documentos sin estructura paginada (HTML, Markdown extenso, notebooks), la granularidad de la cita varía según cómo File Search haga el chunking.

¿Cuánto cuesta usar Gemini File Search?

El pricing combina tres componentes: almacenamiento del corpus indexado, costo de embedding al subir archivos nuevos y costo de las queries en runtime. Los precios exactos están en la documentación oficial de la Gemini API y conviene modelar el escenario propio antes de comprometerse a producción.

¿Conviene migrar un pipeline RAG existente sobre Pinecone o pgvector?

Depende del caso. Si la app ya consume otros modelos de Gemini, File Search reduce código de mantenimiento y agrega multimodal de forma nativa. Si tenés requisitos de soberanía de datos, control fino del chunking o necesitás portabilidad entre proveedores, el stack open source sigue siendo la mejor opción.

¿Sirve para idiomas distintos del inglés?

Sí. Gemini Embedding 2 es multilingüe y maneja español, portugués y otros idiomas LATAM con calidad razonable. Para corpus mixtos en idiomas, sigue siendo buena práctica etiquetar con metadata language y filtrar en runtime para evitar cross-matching no deseado.

Referencias

Blog oficial de Google — anuncio original de Ivan Solovyev y Kriti Dwivedi sobre la actualización de File Search.
Documentación de la Gemini API — referencia técnica oficial con guías y SDK para Python, JavaScript y otros lenguajes.
Retrieval-Augmented Generation en Wikipedia — contexto general sobre la técnica de RAG y su evolución desde el paper original de Lewis et al. (2020).

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

DEV Community