DEV Community: Jean Alvarez

Revolucionando el Web Scraping con IA

Jean Alvarez — Wed, 03 Jan 2024 01:03:17 +0000

I. Introducción

Nunca deja de sorprenderme lo bueno que es chatGPT (OpenAI) cada vez ofreciendo diferentes funcionalidades como Dall-e 3 o los GPT's personalizados. Ahora siguiendo poniendo a prueba el nuevo modelo de gpt-4 Turbo veremos como la IA puede scrappear páginas web, específicamente parseando resultados de páginas de libros y resultados de google Maps.

Todos sabemos lo "tedioso" que es hacer web scrapping, entender la estructura de un sitio web para que nuestro código pueda obtener resultados, estar en constante mantenimiento por si el sitio web cambia su estructura o si agregan funcionalidad con java script para cargar dinámicamente la información. Pero ¿Que pasaría si hubiera una manera de convertir este "tedioso" proceso en uno muy sencillo, adaptable a cualquier estructura?

II. Requisitos

Para seguir estos casos de uso, necesitarás:

1. Python 3.9+
2. Acceso al API de OpenAI

Como objetivo tenemos:

Empezamos scrappeando directamente el contenido HTML raw para una página de venta de libros y locales en GoogleMaps
Retornar resultados orgánicos
Antes de que ejecuten este código les comento que hay un costo por utilización de token, a continuación les comparto lo que me costó realizar este experimento.

1.21 dólares.

Pueden descargar todo el código clonando el repo de github:

https://github.com/JPierr3/openai-webscrapping/tree/main

III. Contenido

Introducción langchain
Scrapper un sitio web estructurado sobre Libros con IA
Scrapper resultados orgánicos de Google Maps con IA
Notas Finales

1. Introducción langchain

Ya he hablado sobre langchain en otros artículos, en resumen es un Framework Open Source que nos permite combinar información externa con modelos de lenguaje natural LLM como ChatGPT. Langchain abre una puerta a un mundo de posibilidades. Y dese la salida de chatgpt 3.5 en marzo del 2023 ha tomado popularidad por su versatilidad en diferentes casos de uso.

2. Scrapper un sitio web estructurado sobre Libros con IA

Para calentar, utilizaremos el sitio web https://www.buscalibre.pe para scrappear que tiene una estructura interesante.

Nuestro experimento de IA no hará web scrapping como tal, solo tendrá la tarea de parsear la data HTML.
Empezamos instalando las librerías que necesitaremos:

pip install requests langchain==0.0.312 pydantic==1.10.8 openai==0.28.1 selenium

Utilizaremos pydantic para agregar decoradores a las clases y puedan ser interpretados de manera sencilla por OpenAI

Selenium y Requests nos permitirá obtener la data en HTML del sitio web

A continuación es el código base para obtener el HTML crudo:

para fines prácticos definimos en el mismo archivo el token de OpenAI, y la URL del sitio web que vamos a enfocarnos y mediante el método get obtenemos el HTML crudo.

La parte de regex es para limpiar algunas cosas del HTML para no excedernos en los token de OpenAI, recodemos que nos cobran por token enviados y respondidos.

A continuación el código para extraer la información usando OpenAI

Empezamos creando las clases 'Libro' y 'LibroScrapper' donde definimos los atributos que necesitaremos y utilizamos Pydantic para definir una descripción de cada atributo y clase, por ejemplo 'Libro' con la descripción """Información acerca de un libro""" , le estamos asignando al modelo que esta clase tendrá ese propósito así mismo los atributos dentro de él.
Utilizamos 'convert_pydantic_to_openai_function(LibroScrapper)' para convertir esa clase a una función que openAI pueda procesar, por eso es que langchain es tan popular, nos ayuda a realizar este tipo de tareas, ya que la alternativa sería definir toda la estructura de la función como lo requiere OpenAI Function Calling OpenAI
Utilizamos el modelo pt-4-1106-preview (gpt4 Turbo)
Utilizamos el prompt "Eres un experto en hacer web scraping y analizar HTML crudo, si no se proporciona explícitamente no supongas" y le pasamos el HTML crudo para que lo analice.
Finalmente creamos la cadena (chain) con nuestros elementos prompt + model + json parser , e imprimimos el resultado de los libros.

Logramos obtener el título, puntuación y precio de cada libro exactamente lo que definimos en la clase de 'Libro', con esto podemos asignarle cualquier sitio web y la IA se encargará de extraer la información que necesitemos adaptándose a cualquier estructura

Tiempo en finalizar aprox 45s

3. Scrapper resultados orgánicos de Google Maps con IA

Ahora vamos a scrapear los datos que se encuentran en google maps, utilizaremos la siguiente URL:

https://www.google.com/maps/search/ceviche/@-8.1090524,-79.0215336,14z?hl=es

Podemos definir palabras de búsqueda luego de 'search/' en este caso buscamos lugares que vendan ceviche y también nos enfocamos en una región en especifico usando coordenadas de latitud y longitud, para este ejemplo la ciudad de Trujillo,Perú.

Como observas, hay mucha información de cada local, como nombre, puntuación, precio, dirección, horario de atención, servicios etc.

Bueno empecemos pero antes, mencionar que google funciona de forma diferente a las páginas web tradicional ya que carga la información utilizando Javascript, por ese motivo ya no utilizaremos la librería de 'requests' en su lugar usaremos 'selenium'
El código base utilizando selenium, reducimos la cantidad de caracteres, ya que mi cuenta tiene un limite de tokens que puedo enviar, ese limite puede aumentar dependiendo del uso que tengas con las API's y lo que hayas consumido hasta la fecha.

Le agregamos el método 'implicity_wait(2)' para que espere 2 segundos en cargar la data y este lista para scrapearlo.

Tuve que recortar la cantidad de caracteres para ahorrar tokens porque eran demasiados los que se enviaban a OpenAI. Quedaría de la siguiente manera: 'html_text_truncado = html_text[800000:]'

Ahora el código utilizando el llamado de funciones de langchain+OpenAI

Definimos la clase de Local, que contendrá datos de los restaurantes, como nombre, calificación, dirección entre otros datos.

Usamos el mismo proceso anterior con ayuda a Pydantic y langchain para procesar el HTML crudo y obtener los datos.

definimos el prompt ´Eres un experto en el web scraping de restaurante de Google Maps. Extrae todos los datos de los resultados de restaurantes locales. Si no se proporciona información explícitamente, no supongas´

y finalmente obtenemos los resultados de los restaurantes donde venden ceviche en la ciudad de Trujillo.

Como podemos observar, todos los datos del local fueron capturados exitosamente. Probamos con otro restaurante.

Cada atributo definido en la clase de local fue extraído del HTML crudo de google maps, con esto podemos utilizarla para tener una base de datos estructurada con datos actualizados de lo que necesitemos buscar.

Tiempo finalizar aprox. 34 segundos

4. Notas Finales

Sin duda OpenAI mejora con el tiempo, con esto podemos recolectar información relevante de sitios web con la seguridad de que extraer la información correcta.

Estas nuevas tecnologías nos facilitan algunas tareas que vienen a ser tediosas como lo es el web scrapping.
Se puede utilizar los custom GPT para lograr esta tarea de openai.
Se logró realizar web scrapping de sitios web para obtener resultados organicos y devolverlos en formato JSON.
Realizamos el caso de uso con data de google maps con ayuda de selenium para cargar el HTML y enviarlo a OpenAI.
Como estamos enviando todo el HTML crudo, conlleva un gasto alto de token por lo que hacerlo de manera frecuente podría llevar a costos elevados, se puede intentar con LLM gratuitas para reducir costos.

Este articulo tiene fines educativo pero espero pueda servir de inspiración para grandes ideas! Si tienen alguna sugerencia o duda con este proyecto me lo comentan!.

Gracias por leer este post, felices fiestas! :)

Los resultados de tu query NO se guardan en memoria en SQL Server!

Jean Alvarez — Mon, 08 Aug 2022 02:57:35 +0000

Holaa, este es el primero post sobre una serie de temas relacionados a SQL Server para Business Inteligence en el 2022, (si eres alguien experto en SQL, estoy seguro que al menos algo nuevo aprenderas de esto) ya que practicamente casi cualquier
sistema que existe en todo el mundo, se mueve por alguna base de datos asi que esta serie de post ayudarà aquellos que les interese incursionarse en este mundo.

Para esto estoy utilizando la base de datos que brinda Microsoft
AdventureWorks2019.

Observamos la tabla FackProductInventory, tiene dos primary key (ProductKey, DateKey) que tambien es un clustered index y de acuerdo a cómo definas este índice, se guardará la información en el disco.

Como mencioné en el título del post, SQL no guarda ni filas ni columnas, lo que guarda son solo páginas de 8 KB, ordenado según el clustered index creado por el primary key.

En teoría en cada una de estas páginas de 8kb guarda todas las columnas de la tabla, sin embargo a veces tenemos campos con el tipo de dato nvarchar(max) donde el contenido de ese campo no se puede guardar en una pagina de 8k asi que lo que hace SQL es guardar un puntero de ese campo y lo guarda en otra pagina de 8 kb.

Entonces, la base de datos no es mas que una agrupación de estas paginas de 8kb, asi que SQL Server no busca "una fila" ni " una columna" y cuando quiere encontrar, insetar, actualizar algo en especifico, SQL Server debe "descubrir" en qué pagina 8kb
la data esta guardada, lo pone en memoria, hace el cambio que se solicita al registro y lo regresa nuevamente al disco.

En un mundo ideal, SQL Server sabe exactamente donde se guarda la informacion y solo lee esa única pagina. Pero la realidad es otra y SQL tiene que scanear toda la tabla para realizar todo el trabajo.

Usualmente nuestras querys no son fáciles de entender (a veces no usan la clausulas where y traen toda la data)
Tenemos desordenada la informacion en diferentes paginas
SQL tiene que lidiar con diferentes operaciones como agroupamientos, joins, ordenamientos entre otros.

CASO PRÁCTICO

Ejecutamos el siguiente comando para activar cuantos bytes lee la query en memoria y disco.

SETSTATISTICS IO ON;

Vemos que la query lee 3860 logicalreads que son las lecturas que realiza en memoria y 574 physical reas que son lecturas que realiza en disco y todo esto es al rededor de 35.3MB data que lee para ejecutar esta query.

Generalmente, mientras mas data tu query tiene que leer más lento hace tus querys en este caso como no hay ningun filtro SQL tiene que leer cada fila e ir gritando en voz alta (SELECT) el campo DateKey, en este caso fueron 776,286 registros

Ahora agregamos un simple filtro a la consulta y vemos nuevamente el plan de ejecución:

Un segundo.. ¿es elmismo plan de ejecución de la consulta anterior?

Asi la consulta devuelva MENOS data, no significa que SQL haga menos trabajo y antes de que se ejecuté la query, SQL tiene que "predecir" cuanto esfuerzo se va a requerir y para ello utiliza uno de los indicadores "Estimated Subtree Cost" basado
en IO y CPU; para esta query, SQL estima que costará 3.7 querySoles

Agregarmos un ordenamiento por el campo MovementDate, y ahora detenganse un momento para pensar en la siguiente imagen y preguntensé, como ser humanos, ¿cómo realizarían la siguiente consulta?

En cristiano, como ser humano, leeriamos cada página e iriamos anotando en otra los DateKey y MovementDate que encontremos, una vez terminada esa tarea, empezariamos a ordenarlos por la fecha. En el plan de ejecución cada operador es como si fuera
un microservicio que generalmente solo realizan una tarea.

En este caso observamos que por agregar el ordenamiento el costo total se multiplicó x6 !! Eso es criminal. Todo se debe a que SQL necesita mas paginas 8KB para escribir los resultados para ordenarlos y en un mundo perfecto lo hace todo en memoria pero
en un mundo imperfecto no habrá suficiente memoria y lo hace en disco, por eso es importante que nuestras querys sean lo mas humanamente entendibles para que SQL pueda predecir cuanta memoria le asignará a tu consulta. Por que una vez SQL le asigna
memoria al inicio de la ejecución ese número se queda grabado en piedra.

En ocasiones cuando SQL no estima bien cuanta memoría va a necesitar, aparecen advertencias en el plan de ejecución donde SQL derrama data en tempdb para poder ordernar o realizar el resto de operaciones de la query.

Cómo último reto, sin mirar el plan de ejecución, la siguiente query demorá más en leer data? o en escribir la data? o en ordenar la data? o en mostrar los resultados?

Ya que ahora estamos trayendo todos los campos de la query eso significa que vamos a leer mas paginas 8KB y a su vez tendremos que escribir en más páginas 8KB y como será mas data en memoría, el ordenamiento también se volverá pesado.

Y para ser honestos personalmente, no importa si utilizas SELECT * siempre y cuando no uses ORDER BY, ya que en SQL es el segundo lugar más caro para ordernar data.

Ahora imagina que cientos de usuarios esten ejecutando esa misma query una y otra vez al mismo tiempo, va a generar una sobrecarga en RAM del servidor y SQL no podra guardar todo en cache y todo explotará (más o menos)

EN RESUMEN, HEMOS APRENDIDO

Para ver cuantas paginas 8KB utiliza nuestra query, debemos activar SET STATISTICS IO ON; (No hace daño activarlo)
Filtrar un campo sin que este indexado, SQL siempre hará un table scan.
La sentencia ORDER BY sin soporte de indices, terminará consumiendo mas ram de lo estimado.
SQL no pone en memoria los resultados de la query pero si pone en memoria las paginas 8KB.

EN EL SIGUIENTE POST

Veremos como solucionar el problema de costos con nonclustered indexes y la diferencia entre los operadores index seek & scans table.