DEV Community

Cover image for peviitor.ro - scraper[3]
Boga Sebastian Nicolae
Boga Sebastian Nicolae

Posted on

3 1

peviitor.ro - scraper[3]

Pasii care vor trebui implementati pentru a realiza un scraper pentru o companie, sunt:

  1. sterge datele din index
  2. extrage locurile de munca din website-ul companiei
  3. pregateste datele pentru a putea fi trimise prin API
  4. trimite datele= locurile de munca spre index

Acesta este algoritmul care va trebui scris pentru fiecare companie in parte. In ce limbaj scri scraperul nu este important, insa ce e important?

  1. scraperul trebuie sa fie cat mai rapid
  2. scraperul nu are voie sa preia de foarte multe ori pe zi date de pe website (acceptabil o data pe zi sau de doua ori pe zi)
  3. datele care se trimit spre index trebuie sa aibe sens, si aici ne referim la faptul ca oamenii de HR s-ar putea sa introduca date gresite sau care nu au corespondent la noi in index.

Validarea datelor

Ne propunem ca inainte de a pune scraperul la lucru zilnic sa ne validam aceste locuri de munca pe un environment de test.

Nu are sens ca datele din productie sa fie partial valide sau in proces de a fi corectate, astfel pana cand nu suntem siguri ca scraperul extrage corect datele, toate datele vor fi trimise catre un server de test.
Odata ce scraperul este validat, putem sa il programam printr-un proces sa se ruleze zilnic sau de doua ori pe zi.

Propunere de implementare scraper

Propunem spre implementare scraper cu tehnologiile: JMeter, RegEx, JSON extractor si pentru automatizarea de a se instantia o data pe zi: GitHUB Actions

In articolul urmator venim cu o solutie in care am implementat un scraper pentru o anumita firma.

Sentry image

Hands-on debugging session: instrument, monitor, and fix

Join Lazar for a hands-on session where you’ll build it, break it, debug it, and fix it. You’ll set up Sentry, track errors, use Session Replay and Tracing, and leverage some good ol’ AI to find and fix issues fast.

RSVP here →

Top comments (0)

Billboard image

The Next Generation Developer Platform

Coherence is the first Platform-as-a-Service you can control. Unlike "black-box" platforms that are opinionated about the infra you can deploy, Coherence is powered by CNC, the open-source IaC framework, which offers limitless customization.

Learn more

👋 Kindness is contagious

Please leave a ❤️ or a friendly comment on this post if you found it helpful!

Okay