Caching Best Practices

W.Sousa — Thu, 09 Feb 2023 21:13:14 +0000

Lazy caching
When an user request a data, the application will check if the data exists in cache(cache hit), if so, user receives cache data, but when the data do not exist in cache(cache miss), so the data its created for next requests.

Write-through
Following this, cache its set always a data is updated, ex:
if I update the user profile from my app, the cache will updated as well.
Time-to-live

Why choose Nodejs for your nextjs webscraping project ✔

W.Sousa — Sun, 21 Aug 2022 22:57:06 +0000

Something I never understood, was why people forget about NodeJS to web scraping to use Python instead.

It seems it's forgotten JavaScript it's the language for the web, and always have great libraries been released for good or bad.

On my experience with Web scraping and Web automation, each project has it own issue, and it seems NodeJS has always the tool for what it needs.

If you have to scrape a simple page, just use libraries to make requests, or maybe even the native Fetch module can fit.
When scraping a page "JS Rendered"(React, Svelte, Vue) use Puppeteer/Selenium or Playwright the new Browser Automation lib written by Google
Sometimes when scraping, even using a Browser Automation Lib, websites may block you, using bot detection. Well, that was the main point that you should consider yourself replacing Python by NodeJS for some cases, simple because NodeJS has a great tooling to avoid bot detections when scraping, such as:

1.Puppeteer-extra that comes with great plugins for Puppeteer, and more recently they are updating to use playwright as well. You can use puppeteer-stealth to avoid detection.

2.To avoid bot detection with simple requests scraping, just try to replace the user -agents and other tiny things, libs like Axios, got can make this work totally fine with just some adjustments.

3.And of course, now we have Crawlee, "A full-featured library that helps you build reliable crawlers with NodeJS", think in Scrapy but for NodeJS, this for sure will facilitate the work for all of us, because this lib can handle with Bot detections, Storage, Proxy Management, and other problems related with web scraping out of the box, which can be great for the majority of use cases.

This post do not intend to claim the NodeJS use for web scraping over python, but let the people know about how NodeJS can be not only suitable, but a great decision for your next scraping project 😁

Desenvolvendo WebCrawlers performáticos com Puppeteer 🤖🚀

W.Sousa — Sun, 03 Oct 2021 05:20:14 +0000

Introdução

Você provavelmente já desenvolveu alguma solução de webscraping que percorria várias páginas de algum site, e percebeu um gargalo de desempenho enorme até aquela magnifica mensagem de confirmação no console printar na sua tela. Se sim, tenho certeza que este post vai lhe ajudar.

Pretendo demonstrar neste texto algumas técnicas que aprendi enquanto desenvolvia softwares de automação em meus projetos particulares e alguns freelas por aí, heheh.

obs. (Este post considera que você esteja minimamente familiarizado com o conceito básico de webcraping e requisições http)

O que pode dar errado ?

Para começar quero demonstrar uma situação onde você está fazendo
webscraping em um site qualquer, porém acaba percebendo que o site não é tão simples assim, porque o tempo de carregamento do seu programa para buscar dados de uma única página dele simplesmente não termina, bom, pra esse caso existem 2 possíveis causas:

A primeira é que se o programa apesar da demora, retorna os dados, então o problema deve estar relacionado com a sua conexão com a internet, ou o próprio site pode estar passando por problemas, então não há muito o que fazer. Tente realizar o scraping em outro momento.
A segunda e mais plausível na maioria dos casos acontece quando seu robozinho🤖 busca muito mais do que apenas os dados necessários para o webscraping.

Para entender como isso termina dessa forma, precisamos assumir que nossa requisição para o site, não é a única sendo feita, pois para que sua página seja mostrada bonita e gloriosa no seu browser ela necessita de alguns resources externos como arquivos css, fontes, imagens para ser formada, ou seja, a página precisa criar uma nova requisição pra cada um desses recursos.

Show me the code

Chega de teoria, a melhor maneira de demonstrar como diminuir o overload de requisições no seu crawler com Puppeteer é com código:

Considerando que você tem o Puppeteer instalado no seu projeto em nodejs, primeiro inicie o browser do puppeter e crie uma nova página para sua aplicação

Dica: Na verdade eu não criei uma nova página, apenas usei pequeno hack pra pegar a primeira página que é aberta com o Browser, assim economizo memória e o debug da aplicação fica mais fácil.

Agora para bloquear as requisições de recursos dentro da página faremos o seguinte

Com este trecho de código interceptamos cada requisição da página e bloqueamos sempre que esta for do tipo Fonte, Css Stylesheet ou imagem(considere qualquer um destes bloqueios caso necessite, cada um é interdependente). Com isto na maioria dos casos o tempo de carregamento da página vai ser drasticamente reduzido.

Como buscar dados de 10k de produtos com Puppeteer

Agora imagine que você esteja realizando webscraping em uma loja virtual em busca de preço dos produtos, só que para capturar os dados precisa acessar a página de cada produto um por um, então você vai lá e desenvolve um bot com puppeteer que visita cada página de produto e captura os dados

Caso a loja tenha 100 produtos em estoque tudo bem certo ?, porém e se aumentarmos o escopo do problema, e agora você tiver que buscar dados de 10.000 páginas diferentes ?, isto parece cansativo até mesmo para um bot, certo ?. Então vou lhe dar uma dica para casos assim

A primeira vista nossa solução pra resolver o problema poderia ser criar várias instâncias do browser e encontrar algum algoritmo para dividir o trabalho entre eles. Várias instâncias do chrome manipulados por software, já sente sua memória ram se esgotando ?. Pois é, isso não funciona tão bem quanto parece a primeira vista.

Mas para nossa salvação, com Puppeteer temos a capacidade de manipular múltiplas páginas ao mesmo tempo, soa bem melhor certo ?
Para exemplificar como utilizaremos isso podemos dizer que ao invés de carregar uma página de produto por vez, vamos criar várias páginas e carregar ambas ao mesmo tempo, quando carregadas, capturamos nossos dados e saímos de cada página.

Vamos ao código >>

Aqui uma versão em gist do code >-<

Para iniciar consideramos que já temos uma lista de urls dos produtos, para que possamos dividir as tarefas temos que limitar quantas páginas serão carregadas ao mesmo tempo por vez, neste exemplos faremos com 5 páginas simultâneas, logo iremos dividir nossa lista/array com as urls dos produtos em pequenos arrays de 5 valores, para isso usaremos o método chunk da biblioteca lodash:
Com nossa lista de urls divididas, realizamos um for para acessar um conjunto de urls por vez, e a cada interação transformamos este conjunto em uma lista de Promises, que irão retornar os dados do crowler executado utilizando uma nova página, e irão fechar a página ao final, independente de existir ou não
algum erro, para se livrar de páginas inutilizadas.
Agora a parte principal do algoritmo já foi executado, agora resta executar as promises, buscar seu resultado e incluir onde desejar, neste caso foi usado uma variável que aponta array com o nome DATA e boom, seu algoritmo agora tem capacidade de realizar scraping de centenas ou milhares de páginas em alguns minutos.

Com esta dica finalizo o post, este é meu primeiro texto publicado, e me diverti tanto que pretendo continuar com essa prática. Espero de coração que você tenha gostado, e que minhas dicas lhe ajudem de alguma forma, até mais amigos! 🧐😎