DEV Community

Richardson
Richardson

Posted on

Guia arquitetônico de ponta para a construção de uma plataforma de dados

Etapa 1: A Conexão Fundamental - Modelo Lógico/Físico e a Arquitetura Medalhão

A Arquitetura Medalhão é a estrutura que nos permite aplicar a modelagem de dados de forma estratégica, conectando o caos da origem à clareza do consumo. A separação entre o modelo lógico e o físico se manifesta de forma clara no fluxo entre as camadas.

  • Camada Bronze para Prata (Foco na Criação do Modelo Lógico Normalizado): A transformação fundamental aqui é a imposição de sentido, integridade e governança. Pegamos dados brutos (um modelo físico simples, mas logicamente caótico) e os forjamos em um modelo lógico e normalizado que representa as entidades e processos de negócio de forma clara e consistente. Metodologias baseadas em Modelagem de Entidade-Relacionamento (ER) ou Terceira Forma Normal (3FN) são ideais para essa camada de integração, visando a verdade semântica, a integridade e a redução da redundância de dados.

  • Camada Prata para Ouro (Foco na Otimização do Modelo Físico Desnormalizado): Com a verdade lógica já estabelecida na camada Prata, o foco muda completamente para a entrega de performance e simplicidade para o usuário final. Pegamos o modelo lógico normalizado (que é ótimo para integridade, mas ruim para performance de BI devido aos JOINs) e criamos uma representação física otimizada para casos de uso específicos. Aqui aplicamos estratégias de desnormalização, cuja manifestação mais comum é a Modelagem Dimensional (Star Schema) ou, em sua forma mais extrema, a One Big Table (OBT). O sucesso dessa estratégia é garantido pela natureza do armazenamento colunar do BigQuery, que assegura que as consultas leiam apenas os dados relevantes, superando a ineficiência dos JOINs para o consumidor final.


Etapa 2: A Estrutura Detalhada das Camadas no Google Cloud

Apresento a estrutura detalhada revisada, incorporando as melhores práticas e as nuances discutidas.

Camada Bronze: O Data Lake Bruto e Imutável

Categoria Detalhes e Conceitos
Propósito Principal Ingestão e persistência de dados brutos, imutáveis e históricos. É o "backup" auditável da realidade da fonte.
Abstração Envolvida "Aterrissagem de Dados" (Data Landing Zone). É um repositório que aceita dados em qualquer formato e velocidade.
Estrutura (Modelo) Schema-on-Read O modelo físico é simples: uma linha por registro. O modelo lógico é indefinido.
Metodologias e Padrões Ingestão Imutável: Nunca alterar um dado na Bronze.• Ingestão Desacoplada (CDC/Streaming): Prioriza a replicação de logs (via Datastream) ou a captura de eventos (via Pub/Sub) para minimizar o impacto nos sistemas de origem (OLTP).
Formatos de Arquivo Otimizados: Priorizar formatos colunares como Apache Parquet ou baseados em esquema como Apache Avro.
Design Partners Engenheiros de Dados: Construtores dos pipelines.• Auditores e Equipes de Conformidade: Utilizam a Bronze para rastrear a linhagem.
Tecnologias Google Cloud Cloud Storage (GCS): O repositório primário e ideal para o Data Lake Bruto.• BigQuery: Atua como componente de apoio (sink para streaming/CDC ou motor de consulta via tabelas externas).• Dataplex: Para catalogação de dados, descoberta de metadados e governança centralizada desde a ingestão.
Pub/Sub, Datastream: Serviços de ingestão (o "E" e "L" do ELT).• Cloud Composer (Airflow): Orquestrador principal para agendar e gerenciar o fluxo de ingestão.
Desafios Comuns Schema Drift: A estrutura dos dados na fonte muda.• Governança (Data Swamp): Risco de se tornar um "pântano de dados". Mitigado pela catalogação proativa com Dataplex para garantir linhagem, documentação e detecção de PII (via integração com DLP).• Gerenciamento de Custos: Implementar políticas de ciclo de vida (Lifecycle Management) no GCS para mover dados para classes de armazenamento mais frias.
Exemplo Prático Arquivos Avro armazenados no GCS em gs://ecommerce-bronze/..., com metadados gerenciados pelo Dataplex.

Camada Prata: A Fonte da Verdade Normalizada e Confiável

Categoria Detalhes e Conceitos
Propósito Principal Limpar, validar, enriquecer e integrar os dados brutos. É a "Fonte Única da Verdade" (SSOT) e o local de implementação da governança de dados de baseline.
Abstração Envolvida "Hub de Integração" (Integration Hub) Aqui criamos um modelo de dados corporativo consistente.
Estrutura (Modelo) Modelo Lógico Normalizado (3FN, Modelo ER). A prioridade é a integridade. O modelo físico é otimizado com Particionamento e Clustering para acelerar as operações de integração.
Metodologias e Padrões Modelagem de Entidade-Relacionamento (ER) / 3FN: Para garantir a integridade.• Data Vault: Metodologia robusta para ambientes com alta variação de esquema.• Regras de Qualidade de Dados (DQ): Implementação de testes automatizados.
Design Partners Engenheiros de Dados: Construtores do modelo.• Analistas e Cientistas de Dados: Consumidores para explorações profundas.
Tecnologias Google Cloud BigQuery: O coração da camada Prata, executando as transformações.• Dataform / dbt: Ferramentas para orquestrar as transformações SQL-first e injetar testes de validação (DQ).• Cloud Composer (Airflow): Orquestra o pipeline ponta-a-ponta, acionando os jobs do Dataform/dbt.
Desafios Comuns Lógica de Negócio Complexa: Traduzir regras de negócio em um modelo normalizado.• Custo e Complexidade dos JOINs: A normalização exige JOINs computacionalmente caros.• Manutenção do Modelo: Atualizar o modelo à medida que o negócio evolui.
Exemplo Prático Um conjunto de tabelas normalizadas em ecommerce_silver: clientes, produtos, pedidos, etc.

Camada Ouro: Os Produtos de Dados Focados no Negócio

Categoria Detalhes e Conceitos
Propósito Principal Fornecer dados prontos para consumo, agregados, desnormalizados e otimizados para casos de uso específicos com máxima performance.
Abstração Envolvida "Produto de Dados" (Data Product) Cada tabela na Ouro é um produto curado, que inclui dados, metadados, governança e testes, tornando-o self-service e confiável.
Estrutura (Modelo) Modelo Físico Desnormalizado e Otimizado. O objetivo é eliminar JOINs em tempo de consulta. A estrutura utiliza Particionamento e Clustering e recursos nativos como STRUCTs e ARRAYs.
Metodologias e Padrões Modelagem Dimensional (Star Schema): Padrão para data marts de BI.
Criação de Tabelas Amplas (OBT): Para dashboards de alta performance.• MLOps (Feature Engineering): Orquestração do ciclo de vida de modelos de ML, desde a featurização até o treinamento e a predição.
Design Partners Analistas de Negócio, Executivos (via dashboards): Consumidores finais.• Aplicações e APIs: Consomem dados da camada Ouro.• Engenheiros de ML: Utilizam o Ouro para MLOps.
Tecnologias Google Cloud BigQuery: O motor de serviço serverless perfeito.
Looker / Looker Studio: Ferramentas de BI que se conectam à camada Ouro.• Vertex AI (incluindo Pipelines): Consome tabelas da Ouro para MLOps. Vertex AI Pipelines orquestra o ciclo de vida do ML.• Cloud Composer (Airflow): Orquestra a execução dos jobs que atualizam esta camada.
Desafios Comuns Explosão de Marts: Criar dezenas de tabelas Ouro sem governança, levando à inconsistência.• Balanceamento da Granularidade: Decidir a agregação correta.• Custo Computacional Alto: A construção da camada Ouro envolve JOINs e agregações custosas.
Exemplo Prático ecommerce_gold.dm_vendas: Um Star Schema para análise de BI.
ml_gold.customer_features: Uma tabela de features para um modelo de churn.

Etapa 3: Práticas Transversais Essenciais

Além da estrutura em camadas, práticas de engenharia de ponta são cruciais para o sucesso da plataforma.

  1. Governança Proativa com Catálogo de Dados: Para mitigar o risco de "pântano de dados", a integração com o Dataplex deve ser implementada desde a camada Bronze. Isso garante que metadados, linhagem de dados e detecção de PII (via integração com o Cloud DLP) sejam implementados desde o início, aumentando a governança e a capacidade de descoberta de todos os ativos de dados.

  2. Gestão Estratégica de Custos no BigQuery: O controle de custos vai além do design das tabelas. É fundamental utilizar features específicas do BigQuery para otimizar o processamento, como a alocação de capacidade com BigQuery Editions/Reservations para cargas de trabalho previsíveis e o uso de dry-run (simulação) para estimar o volume de dados lidos antes da execução de consultas complexas.


Etapa 4: A Síntese Revisada - O Fluxo de Valor Orquestrado

A jornada de um dado através desta arquitetura representa um fluxo contínuo de agregação de valor, orquestrado de ponta a ponta:

  1. Um pipeline de dados, orquestrado pelo Cloud Composer, é iniciado. Ele usa o Datastream para capturar mudanças e aterrissá-las como arquivos Avro no Cloud Storage (Camada Bronze), com seus metadados sendo registrados no Dataplex.
  2. O Composer aciona um job do Dataform. Este job lê os arquivos da Bronze, executa SQLs que limpam, validam, aplicam testes de qualidade (DQ) e inserem os dados em um modelo normalizado (3FN) na camada Prata do BigQuery.
  3. Com a conclusão da Prata, o Composer aciona um segundo job do Dataform que lê as tabelas normalizadas, executa os JOINs e agregações necessários para desnormalizar os dados, e constrói os "Produtos de Dados" (ex.: um Star Schema) na camada Ouro.
  4. Em paralelo, o Composer pode acionar um pipeline do Vertex AI, que consome uma tabela da camada Ouro para retreinar um modelo de ML, orquestrando todo o ciclo de vida do MLOps.
  5. Finalmente, o Looker se conecta aos Produtos de Dados da camada Ouro, permitindo que os usuários de negócio explorem informações atualizadas e confiáveis com altíssima performance.

Top comments (0)