Francy Hernandez Vega

Posted on Jan 18

Creacion de una base de conocimiento en Bedrock con Amazon OpenSearch Service.

#ai #aws #rag #spanish

Amazon Bedrock es el servicio de AWS que revolucionó la forma en que podemos acceder, interactuar y probar modelos fundacionales (FM) de las principales empresas de IA.

Amazon Bedrock nos permite conectarnos con los principales modelos funcionales (FM) y la creación de bases de conocimiento que conectan las aplicaciones a fuentes de datos que contienen la información en diversos recursos como textos, imágenes, videos o recursos externos como base para la generación de los datos que respondan a casos de uso como creación de asistentes virtuales, flujo entre agentes o creación de nuevo contenido, logrando experimentar de forma rápida las ideas de los equipos de trabajo.

Conceptos previos:

Embedding: En este proceso el modelo convierte el texto o datos en una serie de números (vector) que permite a Bedrock entender el significado de los datos.
Almacenamiento: Estos vectores se guardan en una base de datos vectorial como Amazon OpenSearch Service. Allí los datos se organizan para crear un índice que permita su búsqueda y recuperación.
Búsqueda: Al realizar una consulta o pregunta sobre estos datos, se convierte en un nuevo vector que se usará para encontrar en la base de datos los vectores más cercanos a dicha consulta.
Creción: El modelo seleccionado en Amazon Bedrock utilizará los datos recuperados por los vectores para generar una respuesta precisa.

En el siguiente Demo probaremos las ventajas de Amazon Bedrock Knowledge Bases integrado al servicio de Amazon Open Search como base de datos vectorial para la recuperación de información a partir de una fuente de texto.

Paso 1: Crear el bucket en S3 que contendrá el archivo .pdf con la información que se tomará como base para responder a las consultas.

Paso 2: Crear Base de Conocimiento con almacenamiento de vector.
Ingresamos al servicio de Amazon Bedrock, en el menú izquierdo en la sección Build seleccionados Knowledge Bases y en la opción crear seleccionamos Knowledge Bases with vector store.

Paso 3: Configurar almacenamiento y procesamiento.
Seleccionamos el modelo embebido para convertir los datos a vectores. Adicional seleccionar el tipo de almacenamiento en este caso Amazon OpenSearch Serverless.

Recomendación: Consultar previamente la información sobre el costo de Amazon OpenSearch

Una vez terminado se mostrará la creacion de la base de conocimiento, la seleccionamos y damos clic en Sync para sincronizar la fuente de datos S3 con Amazon OpenSearch:

Ahora ingresamos al servicio de Amazon Opensearch: en el menú izquierdo seleccionamos Servelresss y damos clic en Dashboard.

Allí vemos la colección creada para la base de conocimientos que usará Bedrock. Ingresamos al link del tablero donde crearemos el índice que identificara la partición de la información.

Este enlace nos direccionara al tablero de OpenSearch, damos clic en la opción de “Explore on my own”. Para ver nuestros datos en el menú izquierdo damos clic en “Discover”.

Creamos el nuevo indice.

Nuevamente en la sección de Discover veremos el detalle de los vectores. Allí el documento fuente almacenado en S3, fue dividido en porciones de texto(chunk) que luego fueron convertidos a su representación en vectores creados por el modelo embebido en Bedrock.

¡Hora de Probar!

Regresamos a Amazon Bedrock, seleccionamos la base de conocimiento creada y damos clic en “Test Knowledge Base”

Seleccionamos el modelo fundacional que tomará la información para generar las respuestas. En la sección “Test” ingresamos la primera pregunta que enviaremos al modelo.

En la respuesta se mostrará la información encontrada, la referencia de la fuente consultada, las secciones o chunk de donde fueron extraídos los datos y el detalle de cada uno de ellos.

Recordatorio: Una vez terminado nuestro laboratorio eliminar los recursos creados: la Base de comocimientos en Bedrock y la coleccion de Amazon OpenSearch Service.

Top comments (1)

Pablo Gonzalez Robles • Jan 19

Gracias por compartir. Hace un par de meses intenté esto pero con esto que explicaste acá, veo puntos de mejora