Anotações do curso de databricks provido pela por databricks academy -
Databricks é uma plataforma de dados unificada e inteligente, que implementa o conceito de Lakehouse. A plataforma unifica o armazenamento de dados tanto brutos quanto estruturados, permite a transformação desses dados, com notebooks (que aceitam linguagens como python, scala e R) ou SQL.A plataforma também permite a criação de rotinas de dados e dashboards. Por fim ela tem diversos pontos que usam IA para execução de ações com dados.
Sumário
Ingestão de dados
- Componentes centrais da plataforma -- Lakeflow -- Databricks SQL -- Mosaic AI -Funcionalidades e para quem são destinadas -Data warehousing -- Explicação de 'nó de computação' -- Arquitetura de medallion
Ingestão de dados
Formas de criar/ inserir dados no databricks:
- Create table: Usando SQL
- Upload UI: Subir os dados pela interface
- Copy into: Usando a função de COPY do SQL
- Autoloader: Um processo de carregar dados de forma automatica de alguma fonte.
- Streaming tables: tabelas atualizadas em tempo real
Componentes centrais
- Componentes centrais da plataforma: Lakeflow, Databricks SQL, AI/BI, Mosaic AI
Lakeflow
O Lakeflow tem três componentes principais:
- lakeflow connect que conecta com várias fontes de dados.
- Lakeflow DLT - (DLT, que significa Delta Live Tables, é uma funcionalidade do Databricks que simplifica a criação e o gerenciamento de pipelines de dados.)
- Lakeflow Jobs: Job = tarefa automatizada e agendada
O Databricks SQL
- Ferramenta para análise exploratória.
- O Databricks SQL, junto com os Dashboards, centraliza consultas e visualizações. A plataforma infunde essas ferramentas com IA através de recursos como o Databricks Assistant e o Genie
O Mosaic AI
É uma ferramenta que oferece suporte end-to-end para IA tradicional e generativa.
Funcionalidades
Para equipe de dados o databricks fornece -
Notebooks
Editor SQL
Assistente de IA para geração de código
Metadados - Com descrição gerada por IA
Sistema de busca de arquivos
Para equipe de negocios
IA/BI Dashboard - Espaço para geração de dashboards com ferramenta de IA
IA/BI Genie - Espaço de chat conversasional com acesso a informação dos dados, pode-se "perguntar diretamente para os dados"
Data Warehousing
Solução centralizada para Relatórios, Análises e insights
SQL warehouses no databricks é um recurso computacional escalável e otimizado para executar SQL queries, análise de dados, criação de visualizações de dados.
Cluster size:
Refere-se ao poder computacional alocado ao SQL warehouse
Expresso em "tamanhos de camiseta", como Pequeno (Small), Médio (Medium), Grande (Large) e Extra Grande (X-Large).
Cada tamanho define o número de nós de computação e a capacidade para
processamento paralelo.
Scaling:
Garante que o SQL Warehouse aloque recursos de forma adaptativa e dinâmica.
Permitindo configurar o mínimo de clusters e o máximo
Os benefícios são que um custo eficiente - Onde só se paga pelo que se usa
E uma performance otimizada prevenindo gargalos.
Um cluster é formado por um conjunto de nós de computação.
Explicação sobre 'nó de computação'/'worker'
Cada nó de computação é uma instância de servidor na nuvem
Um ‘nó de computação’ é uma máquina virtual (VM) que possui um conjunto de recursos dedicados como CPU, Memória RAM, armazenamento, e em alguns casos GPU
O gasto computacional é calculado com DBU - Databricks Unit
Arquitetura de Medallion
- É recomendado que com databricks se use a arquitetura de Medallion
Existem três camadas:
Bronze - Dados brutos, sem tratamento, aqui temos uma cópia exata dos dados de origem.
Prata - Dados tratados, limpos e organizados
Ouro - Dados prontos para uso, em aplicativos, dashboard e etc. Preparados para a area de negócios já agrupados.
A arquitetura de medallion pode ser considerada um padrão de projeto de dados.
Para acessar o curso completo: https://customer-academy.databricks.com/learn/courses/3603/get-started-with-databricks-for-data-warehousing?hash=42b6834df6bded2a210c444fa1982f59f1ec9831&generated_by=1192585
Top comments (0)