Uma visão pessoal de um estudante da área que tem muuuuito a aprender:
O ponto central nesse quesito é pensar de fato na única fonte da verdade, confiável, onde a partir dela seriam geradas tabelas e consultas para responder as perguntas de negócios, treinar modelos de machine learning, identificar fraudes e etc. O segundo ponto seria a alta disponibilidade desses dados, pois a ponta consumidora muitas vezes precisa dessa única fonte da verdade de forma rápida e com possibilidade de integração/consumo com diferentes plataformas e ferramentas.
Em dias em que cada vez mais dados são gerados em diversos formatos, o papel do engenheiro de dados está intimamente ligado ao tratamento desses dados, seja estruturados, semi estruturados e não estruturados, em diferentes formatos, de diferentes fontes, a modelagem é a base para organizar nossa matéria-prima.
Atualmente já existem novas arquiteturas de dados, delta lake, data lakehouse, data mesh e muitas outras que buscam a eficiência do pipeline de dados de acordo com cada necessidade do negócio.
Após definir a arquitetura utilizada e as ferramentas que irão compor o fluxo de dados, podemos pensar na modelagem numa forma de mapear os dados e alocá-los em diferentes tabelas, para isso precisaremos entender conceitos de tabela fato, tabela dimensão, star schema, snowflake, as formas de normalização para reduzir a redundância de dados, aumentar a integridade e a eficiência que estamos buscando. Conceitos de cubos OLAP para disponibilizar consultas analíticas assertivas e ricas para nossos analistas e cientistas e muito mais.
Entendendo esses conceitos e com nossa arquitetura e ferramentas definida, podemos de fato modelar nossa única fonte da verdade e criar todo nosso pipeline de dados.
Top comments (0)