Primeiros Passos com Databricks para Data Warehousing

#databricks #cloud #data #learning

Anotações do curso de databricks provido pela por databricks academy -

Databricks é uma plataforma de dados unificada e inteligente, que implementa o conceito de Lakehouse. A plataforma unifica o armazenamento de dados tanto brutos quanto estruturados, permite a transformação desses dados, com notebooks (que aceitam linguagens como python, scala e R) ou SQL.A plataforma também permite a criação de rotinas de dados e dashboards. Por fim ela tem diversos pontos que usam IA para execução de ações com dados.

Sumário

Ingestão de dados

Componentes centrais da plataforma -- Lakeflow -- Databricks SQL -- Mosaic AI -Funcionalidades e para quem são destinadas -Data warehousing -- Explicação de 'nó de computação' -- Arquitetura de medallion

Ingestão de dados

Formas de criar/ inserir dados no databricks:

Create table: Usando SQL
Upload UI: Subir os dados pela interface
Copy into: Usando a função de COPY do SQL
Autoloader: Um processo de carregar dados de forma automatica de alguma fonte.
Streaming tables: tabelas atualizadas em tempo real

Componentes centrais

Componentes centrais da plataforma: Lakeflow, Databricks SQL, AI/BI, Mosaic AI

Lakeflow

O Lakeflow tem três componentes principais:

lakeflow connect que conecta com várias fontes de dados.
Lakeflow DLT - (DLT, que significa Delta Live Tables, é uma funcionalidade do Databricks que simplifica a criação e o gerenciamento de pipelines de dados.)
Lakeflow Jobs: Job = tarefa automatizada e agendada

O Databricks SQL

Ferramenta para análise exploratória.
O Databricks SQL, junto com os Dashboards, centraliza consultas e visualizações. A plataforma infunde essas ferramentas com IA através de recursos como o Databricks Assistant e o Genie

O Mosaic AI

É uma ferramenta que oferece suporte end-to-end para IA tradicional e generativa.

Funcionalidades

Para equipe de dados o databricks fornece -
Notebooks
Editor SQL
Assistente de IA para geração de código
Metadados - Com descrição gerada por IA
Sistema de busca de arquivos

Para equipe de negocios

IA/BI Dashboard - Espaço para geração de dashboards com ferramenta de IA
IA/BI Genie - Espaço de chat conversasional com acesso a informação dos dados, pode-se "perguntar diretamente para os dados"

Data Warehousing

Solução centralizada para Relatórios, Análises e insights

SQL warehouses no databricks é um recurso computacional escalável e otimizado para executar SQL queries, análise de dados, criação de visualizações de dados.

Cluster size:
Refere-se ao poder computacional alocado ao SQL warehouse

Expresso em "tamanhos de camiseta", como Pequeno (Small), Médio (Medium), Grande (Large) e Extra Grande (X-Large).

Cada tamanho define o número de nós de computação e a capacidade para
processamento paralelo.

Scaling:
Garante que o SQL Warehouse aloque recursos de forma adaptativa e dinâmica.
Permitindo configurar o mínimo de clusters e o máximo
Os benefícios são que um custo eficiente - Onde só se paga pelo que se usa
E uma performance otimizada prevenindo gargalos.

Um cluster é formado por um conjunto de nós de computação.

Explicação sobre 'nó de computação'/'worker'

Cada nó de computação é uma instância de servidor na nuvem
Um ‘nó de computação’ é uma máquina virtual (VM) que possui um conjunto de recursos dedicados como CPU, Memória RAM, armazenamento, e em alguns casos GPU

O gasto computacional é calculado com DBU - Databricks Unit