Como pensar em modelagem de dados em um ambiente de big data?

#database #bigdata #datascience #sql

Uma visão pessoal de um estudante da área que tem muuuuito a aprender:

O ponto central nesse quesito é pensar de fato na única fonte da verdade, confiável, onde a partir dela seriam geradas tabelas e consultas para responder as perguntas de negócios, treinar modelos de machine learning, identificar fraudes e etc. O segundo ponto seria a alta disponibilidade desses dados, pois a ponta consumidora muitas vezes precisa dessa única fonte da verdade de forma rápida e com possibilidade de integração/consumo com diferentes plataformas e ferramentas.

Em dias em que cada vez mais dados são gerados em diversos formatos, o papel do engenheiro de dados está intimamente ligado ao tratamento desses dados, seja estruturados, semi estruturados e não estruturados, em diferentes formatos, de diferentes fontes, a modelagem é a base para organizar nossa matéria-prima.

Atualmente já existem novas arquiteturas de dados, delta lake, data lakehouse, data mesh e muitas outras que buscam a eficiência do pipeline de dados de acordo com cada necessidade do negócio.

Após definir a arquitetura utilizada e as ferramentas que irão compor o fluxo de dados, podemos pensar na modelagem numa forma de mapear os dados e alocá-los em diferentes tabelas, para isso precisaremos entender conceitos de tabela fato, tabela dimensão, star schema, snowflake, as formas de normalização para reduzir a redundância de dados, aumentar a integridade e a eficiência que estamos buscando. Conceitos de cubos OLAP para disponibilizar consultas analíticas assertivas e ricas para nossos analistas e cientistas e muito mais.

Entendendo esses conceitos e com nossa arquitetura e ferramentas definida, podemos de fato modelar nossa única fonte da verdade e criar todo nosso pipeline de dados.

DEV Community

Como pensar em modelagem de dados em um ambiente de big data?

Top comments (0)

Read next

New ML Compiler Uses Pattern Matching to Speed Up AI Code, Verified with Formal Proofs

How to Define AI Agents with Cloudformation and SAM: A Builder's Guide

Detecting and Analyzing Comment Quality Using Vector Search

Simple SGD Method Matches Adam's Performance While Using Half the Memory