DEV Community

Lucas Cruz
Lucas Cruz

Posted on

Primeiros Passos com Databricks para Data Warehousing

Anotações do curso de databricks provido pela por databricks academy -

Databricks é uma plataforma de dados unificada e inteligente, que implementa o conceito de Lakehouse. A plataforma unifica o armazenamento de dados tanto brutos quanto estruturados, permite a transformação desses dados, com notebooks (que aceitam linguagens como python, scala e R) ou SQL.A plataforma também permite a criação de rotinas de dados e dashboards. Por fim ela tem diversos pontos que usam IA para execução de ações com dados.

Sumário

Ingestão de dados

  • Componentes centrais da plataforma -- Lakeflow -- Databricks SQL -- Mosaic AI -Funcionalidades e para quem são destinadas -Data warehousing -- Explicação de 'nó de computação' -- Arquitetura de medallion

Ingestão de dados

Formas de criar/ inserir dados no databricks:

  • Create table: Usando SQL
  • Upload UI: Subir os dados pela interface
  • Copy into: Usando a função de COPY do SQL
  • Autoloader: Um processo de carregar dados de forma automatica de alguma fonte.
  • Streaming tables: tabelas atualizadas em tempo real

Componentes centrais

  • Componentes centrais da plataforma: Lakeflow, Databricks SQL, AI/BI, Mosaic AI

Lakeflow

O Lakeflow tem três componentes principais:

  • lakeflow connect que conecta com várias fontes de dados.
  • Lakeflow DLT - (DLT, que significa Delta Live Tables, é uma funcionalidade do Databricks que simplifica a criação e o gerenciamento de pipelines de dados.)
  • Lakeflow Jobs: Job = tarefa automatizada e agendada

O Databricks SQL

  • Ferramenta para análise exploratória.
  • O Databricks SQL, junto com os Dashboards, centraliza consultas e visualizações. A plataforma infunde essas ferramentas com IA através de recursos como o Databricks Assistant e o Genie

O Mosaic AI

É uma ferramenta que oferece suporte end-to-end para IA tradicional e generativa.

Funcionalidades

Para equipe de dados o databricks fornece -
Notebooks
Editor SQL
Assistente de IA para geração de código
Metadados - Com descrição gerada por IA
Sistema de busca de arquivos

Para equipe de negocios

IA/BI Dashboard - Espaço para geração de dashboards com ferramenta de IA
IA/BI Genie - Espaço de chat conversasional com acesso a informação dos dados, pode-se "perguntar diretamente para os dados"

Data Warehousing

Solução centralizada para Relatórios, Análises e insights

SQL warehouses no databricks é um recurso computacional escalável e otimizado para executar SQL queries, análise de dados, criação de visualizações de dados.

Cluster size:
Refere-se ao poder computacional alocado ao SQL warehouse

Expresso em "tamanhos de camiseta", como Pequeno (Small), Médio (Medium), Grande (Large) e Extra Grande (X-Large).

Cada tamanho define o número de nós de computação e a capacidade para
processamento paralelo.

Scaling:
Garante que o SQL Warehouse aloque recursos de forma adaptativa e dinâmica.
Permitindo configurar o mínimo de clusters e o máximo
Os benefícios são que um custo eficiente - Onde só se paga pelo que se usa
E uma performance otimizada prevenindo gargalos.

Um cluster é formado por um conjunto de nós de computação.

Explicação sobre 'nó de computação'/'worker'

Cada nó de computação é uma instância de servidor na nuvem
Um ‘nó de computação’ é uma máquina virtual (VM) que possui um conjunto de recursos dedicados como CPU, Memória RAM, armazenamento, e em alguns casos GPU

O gasto computacional é calculado com DBU - Databricks Unit

Arquitetura de Medallion

  • É recomendado que com databricks se use a arquitetura de Medallion

Existem três camadas:

Bronze - Dados brutos, sem tratamento, aqui temos uma cópia exata dos dados de origem.

Prata - Dados tratados, limpos e organizados

Ouro - Dados prontos para uso, em aplicativos, dashboard e etc. Preparados para a area de negócios já agrupados.

A arquitetura de medallion pode ser considerada um padrão de projeto de dados.


Para acessar o curso completo: https://customer-academy.databricks.com/learn/courses/3603/get-started-with-databricks-for-data-warehousing?hash=42b6834df6bded2a210c444fa1982f59f1ec9831&generated_by=1192585

Top comments (0)