Como construí uma ferramenta open source de auditoria LGPD com IA local (sem enviar dados para a nuvem)

#ai #security #python #opensource

O problema: conformidade LGPD é cara e expõe dados sensíveis

A Lei Geral de Proteção de Dados (LGPD) entrou em vigor em 2020 e exige que empresas brasileiras mapeiem fluxos de dados pessoais, nomeiem um DPO, documentem atividades de tratamento e respondam a solicitações de titulares em até 15 dias.

O problema? Consultorias cobram de R$ 25.000 a R$ 250.000 por projeto. E a ironia: para auditar dados pessoais, a maioria das ferramentas envia esses dados para servidores em nuvem — potencialmente violando o Art. 33 da própria LGPD (transferência internacional de dados).

Decidi construir algo diferente: LGPD Sentinel AI, uma ferramenta open source que roda inteiramente na sua máquina.

A arquitetura: local-first do início ao fim

Nenhum dado sai da sua máquina. O modelo de linguagem roda via Ollama localmente. Stack: FastAPI + Streamlit + SQLite + Ollama/llama3.1.

Por que IA local e não GPT-4?

1. Compliance by design — O Art. 33 da LGPD restringe transferências internacionais de dados. Enviar PII de clientes para a OpenAI para fazer auditoria LGPD é uma contradição legal explícita.

2. Custo zero de inferência — llama3.1 8B roda em qualquer máquina com 8GB de RAM. Zero custo por token.

3. Reproducibilidade — Auditorias precisam de resultados determinísticos. Modelos de produção na nuvem mudam sem aviso.

Como o scanner de PII funciona

O scanner usa uma abordagem em camadas com padrões regex para CPF, CNPJ, e-mail, telefone, RG — seguidos de análise semântica via LLM para reduzir falsos positivos e gerar justificativa de risco em português.

O pipeline de auditoria completo

Ingestão — Aceita código-fonte, dumps de banco, logs, documentos
Scan — Detecta PII por padrão + contexto semântico via LLM
Classificação — Categoriza por base legal (Art. 7 LGPD): consentimento, legítimo interesse, obrigação legal
Mapeamento — Gera o Registro de Operações de Tratamento (ROPA)
Relatório — PDF/HTML com linguagem jurídica pronta para DPO

Deploy e automação sem custo

Toda a infraestrutura de growth roda no GitHub Actions (gratuito para repos públicos):

Drip de e-mail — Sequência de boas-vindas via Brevo (6 templates, 21 dias)
Star milestone — Tweet automático a cada marco de estrelas
Métricas semanais — Relatório de stars/forks/subscribers toda segunda-feira

Os e-mails são capturados via formulário nativo do Brevo — nenhuma chave de API exposta no código público.

Resultados

Ferramenta funcional em 3 semanas de desenvolvimento solo
Pipeline de email marketing 100% automatizado
Custo de infraestrutura: R$0/mês
100% open source (MIT License)

DEV Community