Francisco Júnior

Posted on Feb 17

Arquitetura de Alta Performance: O "Sob o Capô" da Modern Data Stack

#python #dataengineering #uv #polars

Muitos desenvolvedores adotam Polars ou uv apenas porque "ouviram dizer que é rápido". Mas entender a engenharia por trás dessas ferramentas é o que separa um usuário comum de um Engenheiro de Dados Sênior capaz de processar Terabytes.

Vamos dissecar os três pilares da eficiência: Computação (CPU), Memória (RAM) e Tempo (Developer Experience).

1. Eficiência de Computação: Saturando o Apple Silicon com Rust

O problema fundamental do Pandas (e do Python clássico) é o GIL (Global Interpreter Lock). Em termos simples, o Python padrão só permite que uma única thread execute bytecode por vez.

Se você tem um MacBook Pro com chip M4 Max de 16 núcleos:

Pandas: Usa 1 núcleo (6% da sua CPU). Os outros 15 núcleos ficam ociosos.
A "Taxa" do Python: Cada operação numérica no Pandas precisa converter dados de C (NumPy) para objetos Python e voltar, gerando overhead de CPU.

A Solução Rust e SIMD

O Polars (e o motor do uv) são escritos em Rust, que não possui Garbage Collector e permite "concorrência sem medo" (fearless concurrency).

O Mecanismo de Aceleração:

Paralelismo de Dados: O Polars divide seu DataFrame em "chunks" (pedaços). Se você tem 10 milhões de linhas e 10 núcleos, ele processa 1 milhão de linhas em cada núcleo simultaneamente.
Instruções SIMD (Single Instruction, Multiple Data): Os chips Apple Silicon (ARM64) possuem instruções vetoriais avançadas (NEON). O Polars é compilado para usar essas instruções. Em vez de somar dois números por vez (a + b), a CPU soma vetores inteiros ([a1, a2, a3, a4] + [b1, b2, b3, b4]) em um único ciclo de clock.

Como verificar isso na prática:
Ao rodar uma query pesada no Polars, abra o monitor de atividade (htop ou Activity Monitor). Você verá o uso de CPU saltar para 100% em todos os núcleos. Isso é eficiência de computação: você pagou pelo chip todo, use o chip todo.

2. Eficiência de Memória: O Paradigma Zero-Copy e Apache Arrow

A maior mentira que contaram para nós foi que "memória é barata". Em Big Data local, a memória é o gargalo mais frequente.

O Problema da Serialização (O "Imposto" do Legado)

No modelo antigo, conectar ferramentas significava copiar dados.

Lê CSV com Pandas (Cópia 1).
Passa para uma biblioteca de ML (Converte para Float32 -> Cópia 2).
Salva em Banco SQL (Serializa para texto/bytes -> Cópia 3).

Cada cópia duplica o consumo de RAM e queima ciclos de CPU.

A Solução: O Padrão Apache Arrow

O Polars, DuckDB e BigQuery DataFrames falam a mesma língua na memória: Apache Arrow. É um formato colunar padronizado.

O Conceito Zero-Copy:
Imagine que o Polars carrega um arquivo Parquet de 5GB na memória. Você quer consultar esses dados com SQL usando DuckDB.

Antigamente: O DuckDB teria que ler os dados novamente ou o Polars teria que exportar e o DuckDB importar.
Hoje (2026): O Polars simplesmente passa o ponteiro de memória (o endereço onde os dados começam) para o DuckDB.
Tempo de transferência: Instantâneo (microssegundos).
Custo de memória adicional: Zero bytes.

Demonstração Técnica (Python):

import polars as pl
import duckdb

# 1. Polars aloca memória (Formato Arrow)
df_polars = pl.scan_parquet("dados_gigantes.parquet").collect()

# 2. DuckDB acessa a MESMA memória sem copiar
# O 'df_polars' é tratado como uma tabela virtual view
relacao_duck = duckdb.arrow(df_polars.to_arrow())

# 3. Query SQL roda sobre a memória alocada pelo Polars
resultado = relacao_duck.query("duckdb", "SELECT avg(valor) FROM relacao_duck").fetchall()

Isso permite analisar datasets que ocupam 80-90% da sua RAM sem estourar o limite (Out-Of-Memory Error).

3. Eficiência de Tempo: Como o `uv` resolve dependências em milissegundos

O uv não é apenas um "pip mais rápido". Ele muda como os arquivos são armazenados no seu disco (Filesystem Layout).

Cache Global e Hardlinks

Quando você cria 10 projetos com Pandas usando pip/venv:

Você tem 10 cópias físicas do Pandas no seu SSD.
Você baixou o Pandas 10 vezes.

Quando você usa uv:

O uv baixa o Pandas uma vez e armazena em um Cache Central Global (~/.cache/uv).
Ao criar um novo ambiente virtual, o uv não copia o arquivo. Ele cria um Hardlink (ou Reflink no APFS do macOS).
O que é um Hardlink? É como se o arquivo estivesse em dois lugares ao mesmo tempo, mas ocupa espaço físico no disco apenas uma vez.
Resultado: Criar um ambiente virtual com 500 bibliotecas leva menos de 100ms porque nenhuma operação de I/O pesada (escrita de disco) é realizada.

O Resolvedor (Resolver) PubGrub

O pip usa um algoritmo de resolução de dependências que faz "backtracking" (tentativa e erro) de forma ineficiente. Se houver conflito de versões, ele pode levar minutos testando combinações.
O uv implementa o algoritmo PubGrub (usado também pelo Dart/Flutter) em Rust. Ele modela a árvore de dependências matematicamente e encontra a solução ótima quase instantaneamente.

4. Estratégia de Migração: Refatorando Mentalmente

Não basta mudar a ferramenta, é preciso mudar a mentalidade de codificação.

Passo 1: Abandone a Iteração por Linhas (`iterrows` is dead)

Se você ver for row in df.iterrows(): no seu código, pare. Isso força o Python a processar linha por linha, anulando qualquer ganho do Rust.

Substitua por: Expressões (Expressions).
Use .apply() apenas como último recurso. Prefira as funções nativas do Polars (pl.col("a").str.to_uppercase()), que rodam em Rust/C++.

Passo 2: Deixe de ser "Ansioso" (Eager vs Lazy)

No Pandas, nós depurávamos imprimindo o df.head() a cada três linhas. Isso força a execução do código.
No Polars, você constrói um Plano de Execução. Acostume-se a encadear 10 ou 20 operações e chamar .collect() apenas no final.

Vantagem: O otimizador de query (Query Optimizer) pode remover etapas redundantes que você escreveu sem perceber.

Passo 3: Tipagem Estrita

O Pandas tenta "adivinhar" tipos e frequentemente erra (transformando números em objetos/strings). O Polars é estrito.

Defina schema ao ler arquivos.
Isso previne erros silenciosos e melhora a performance de leitura em até 2x, pois o parser não precisa inferir tipos a cada linha.

Resumo da Filosofia 2026:
Nós paramos de tentar otimizar código Python lento. Nós passamos a usar Python apenas como uma camada de API (cola) para orquestrar motores de alta performance escritos em Rust e C++. O Python comanda, o Rust executa.

DEV Community

Arquitetura de Alta Performance: O "Sob o Capô" da Modern Data Stack