DEV Community: Alberto Luiz Souza

Entidades finas e composição: o design que escolhi para a nova plataforma

Alberto Luiz Souza — Mon, 25 May 2026 00:01:06 +0000

Disclaimer

Este texto foi inicialmente concebido pela IA Generativa em função da transcrição de um vídeo do Dev Eficiente. Se preferir acompanhar por vídeo, é só dar o play.

Introdução

Quando você começa a desenhar as entidades de um sistema novo, é fácil cair no padrão que aprendemos cedo na carreira: uma entidade principal, com seus atributos óbvios, e relacionamentos diretos com outras entidades. Com o tempo, novas necessidades aparecem e essas entidades vão ganhando atributos, estados nulos, exceções e regras contextuais. O resultado costuma ser o mesmo: God Classes, complexidade espalhada e fricção para evoluir.

Neste post, mostro a decisão de design que tomei na nova plataforma onde estou servindo os conteúdos do Dev + Eficiente. Em vez de seguir o caminho clássico de entidades robustas, me inspirei na arquitetura de Content Management Systems como Drupal e WordPress, onde tudo é plugável. O objetivo foi criar entidades muito finas e mover a complexidade para peças de composição reutilizáveis.

O padrão clássico e seu envelhecimento

Pensa numa plataforma de cursos. O caminho mais natural seria modelar algo como:

class Trilha {
    String titulo;
    String descricao;
    Set<Curso> cursos;
}

class Curso {
    String titulo;
    String descricao;
    Trilha trilha;
    Set<Aula> aulas;
    int posicaoNaTrilha;
}

class Aula {
    String titulo;
    String resumo;
    Curso curso;
    List<String> videos;
    List<String> documentosParaDownload;
    List<String> referencias;
    int posicaoNoCurso;
}

Funciona. Eu mesmo já modelei assim várias vezes. O problema aparece com o tempo. Surge a necessidade de uma pessoa responsável pela trilha. Adiciona o atributo, mas só algumas trilhas têm responsável, então o campo precisa ser nullable. Em seguida vem o pedido de que aulas tenham professores ministrantes. Adiciona uma referência para usuário. Aí surge a regra de que cursos podem ter um período de visibilidade. Adiciona uma data de entrada e uma de saída. Para cursos que existem para sempre, alguém faz uma migration com data de mil anos no futuro.

Esse acúmulo acontece regularmente, e não só nas entidades principais. À medida que o contexto evolui, novos atributos e estados se acumulam dentro das classes mais centrais, aumentando o nível de complexidade delas e desviando a atenção de quem precisa entender o domínio.

A inspiração: nós em CMS

Em sistemas como Drupal e WordPress, a necessidade de dinamicidade é extrema. As pessoas querem usar essas ferramentas para construir qualquer tipo de site, com qualquer combinação de plugins. A consequência é que a entidade central é mínima.

No Drupal, por exemplo, você tem a ideia de um nó (ou item). Esse nó tem quase nada: talvez um ID e um título. Se você quer que ele tenha conteúdo, adiciona um campo. Se você quer que ele tenha periodicidade, decora ele com esse estado. É como o padrão Decorator aplicado ao estado da entidade. O código não é nada elegante, mas é extremamente extensível.

Essa foi a primeira referência. Depois pensando, percebi também uma inspiração indireta em tabelas de relacionamento de bancos relacionais. Muitas vezes, quando o sistema cresce, aquela tabela que só ligava duas chaves ganha semântica: um instante em que a associação aconteceu, um tipo de relação, atributos próprios. Ela deixa de ser uma cola e passa a ser uma entidade. Esse foi o ponto de partida para o design.

O design que escolhi

A pergunta que orientou as decisões foi simples: o que de fato é parte essencial dessa entidade, e o que está aqui só por uma necessidade contextual?

Aplicando essa pergunta:

class Trilha {
    String nome;
    String descricao;
}

class Curso {
    String nome;
    String descricao;
}

class Aula {
    String titulo;
    String resumo;
    List<String> videos;
    List<String> textos;
    List<String> referencias;
}

Note o que não está mais ali. A trilha não tem mais cursos. O curso não pertence a uma trilha nem tem aulas. A aula não conhece o curso. E nenhuma das três tem posição, período de visibilidade, comentários ou professor responsável. Esses atributos saem de cena porque não são inerentes a essas entidades: são necessidades de contextos específicos.

Composição via peças orthogonais

A composição passa a ser feita por entidades dedicadas. Olha como ficam alguns conceitos.

Itens de trilha

Em vez da trilha ter uma coleção de cursos, ela passa a ter itens:

class ItemDaTrilha {
    Long id;
    Trilha trilha;
    Long idDoItem;
}

O idDoItem é uma referência fraca. Pode apontar para um curso, pode apontar para uma aula, pode apontar para outra coisa. Eu aceitei essa perda de integridade referencial para ganhar flexibilidade. Em uma linguagem orientada a objetos, dá para extrair uma interface para fazer essa referência polimórfica, semelhante ao que ORMs como Active Record do Rails já suportavam há muito tempo, com uma coluna a mais que indica o tipo do ID referenciado. Só que, neste momento, decidi nÃo ir por esse caminho.

Contexto de ordenação

A posição também sai das entidades. Ela vira parte de um contexto de ordenação:

class ContextoOrdenacao {
    Long id;
    Long idDono;
    String nome;
}

class ItemOrdenavel {
    Long id;
    Long idItem;
    ContextoOrdenacao contexto;
    int posicao;
}

Por que separar assim? Porque a posição não é uma característica do curso. A posição existe porque, em algum momento, eu preciso ordenar uma lista de coisas para exibir. Essa é uma característica do contexto onde estou usando o curso, não do curso em si.

Sem contar que agora eu ganhe capacidade de criar contextos de ordenação para o que eu quiser.

Comentários

Mesma lógica:

class ContextoComentarios {
    String nome;
    String descricao;
    Long idDono;
}

class Comentario {
    ContextoComentarios contexto;
    Usuario autor;
    String texto;
}

O contexto de comentários pode ser aplicado a uma aula, a um curso, a uma trilha como um todo, ou a qualquer outra coisa. Posso ter um contexto de comentários globais no dashboard sem precisar criar um modelo novo.

Períodos de visibilidade

A nova plataforma também importa vagas de um job board. Algumas dessas vagas expiram. Em vez de adicionar campos de início e fim na entidade Vaga, criei uma entidade Periodo que referencia qualquer coisa:

class Periodo {
    LocalDateTime entrada;
    LocalDateTime saida;
    Long idDoItem;
}

A entidade Vaga não foi alterada. A vaga não precisa saber que tem um período. O fluxo que carrega vagas é quem combina os dois.

Como uma trilha é carregada na prática

Para servir os cursos de uma trilha como a Especialização em Engenharia de IA, o fluxo passa a ser:

Carrega a trilha
Carrega o contexto de ordenação daquela trilha
Carrega os itens ordenáveis daquele contexto
Para cada item ordenável, usa o idItem para carregar o curso

Já na Jornada Dev + Eficiente, que tem categorias dentro da trilha (Design de Código, Arquitetura, Aprendizagem, e por aí vai), o fluxo ganha mais um nível:

Carrega a trilha
Carrega o contexto de ordenação de categorias daquela trilha
Para cada categoria, carrega o contexto de ordenação interno
Para cada contexto interno, carrega os itens ordenáveis
Para cada item ordenável, carrega o curso

A modelagem fica como peças de lego. Eu monto a hierarquia que quero, sem precisar mudar nenhuma das entidades base.

A inspiração em programação orientada a aspectos

Depois de implementar, percebi outra referência além do CMS e das tabelas de relacionamento. Há mais de 20 anos, a programação orientada a aspectos virou tema de pesquisa, e o Spring até hoje mantém essa funcionalidade com anotações como @Aspect. A ideia original era separar comportamentos ortogonais ao código de negócio: logging, controle de transação, métricas. Você podia escrever um aspecto que logava todos os métodos de um pacote sem mexer nos métodos em si.

O que fiz aqui é parecido, mas em outra dimensão. Em vez de transformar comportamentos em aspectos, transformei estados. A ordenação virou ortogonal. Os comentários viraram ortogonais. O período de visibilidade virou ortogonal. As entidades em si ficaram mais finas, com menos lógica, e a complexidade se moveu para os pontos de negócio onde acontece a composição.

Trade-offs

Esse design tem ganhos e perdas claras. Vale listar para que você possa avaliar se faz sentido no seu contexto.

Ganhos:

Entidades base ficam pequenas e estáveis
Características novas (períodos, comentários, ordenações) podem ser adicionadas a qualquer entidade sem alterar nenhuma delas
A complexidade fica visível nos fluxos de negócio, em vez de escondida dentro das entidades

Perdas:

Integridade referencial mais fraca, já que as chaves são genéricas e o banco não consegue garantir consistência
Mais queries para carregar uma hierarquia completa
Risco de dados órfãos, que precisam ser tratados na aplicação

O banco de dados é muito mais confiável do que código de aplicação para garantir consistência. Quando você abre mão de parte desse apoio, está aceitando que o sistema vai precisar tratar essas falhas em outro nível. Para o cenário da nova plataforma, esse trade-off me pareceu valer a pena, e é o que estou rodando em produção com as pessoas alunas usando.

Conclusão

Design de código não é sobre encontrar o desenho perfeito. É sobre escolher como o sistema vai envelhecer. Quando você decide praticar uma atividade física, está apostando que ela vai te ajudar a envelhecer melhor. Quando você toma uma decisão de design, está apostando que ela vai fazer o sistema lidar melhor com mudanças que você previu e com mudanças que ainda não previu.

Nessa nova plataforma escolhi entidades muito finas e composição via peças ortogonais inspiradas em CMS, tabelas de relacionamento e programação orientada a aspectos. Aceitei perder integridade referencial e ganhar flexibilidade. Pode ser que daqui a algum tempo eu reveja parte dessas decisões. Por enquanto, está funcionando bem, e a estabilidade das entidades base tem me dado liberdade para evoluir o resto do sistema sem mexer no que já está consolidado.

Dev + Eficiente

Desenvolva software de alta qualidade e domine Engenharia de IA com o Dev + Eficiente. Cursos práticos, acesso vitalício, comunidade ativa e acesso a vagas remotas exclusivas em diversas empresas de tecnologia. Sua jornada para se tornar um dev mais eficiente pode começar agora.

IA e eficiência em atividades de código: atividades, métricas e limitações

Alberto Luiz Souza — Mon, 13 Apr 2026 01:18:39 +0000

Contexto

A incorporação de ferramentas de Inteligência Artificial (IA) ao desenvolvimento de software tem ampliado a discussão sobre seus efeitos na eficiência das atividades de código. Os estudos reunidos neste trabalho mostram que a IA já vem sendo aplicada em tarefas como codificação, depuração, testes, documentação, revisão de código e operações de CI/CD (PINTO et al., 2024; PEREIRA et al., 2025). Em atividades mais estruturadas e repetitivas, como geração de código, testes simples e documentação, os ganhos de eficiência tendem a ser mais evidentes, principalmente pela redução do esforço manual, do tempo de busca por informação e da carga cognitiva do desenvolvedor (PANDEY et al., 2024; PINTO et al., 2024).

Por outro lado, os mesmos dados mostram que a IA também pode diminuir a eficiência em determinadas situações. Isso ocorre quando a ferramenta produz sugestões incompletas, genéricas ou incorretas, exige intensa revisão humana ou falha em captar o contexto do projeto (FORTES et al., 2025; WINCKLER et al., 2025). Essas limitações aparecem com mais força em tarefas complexas e contextuais, na depuração de defeitos difíceis e na validação do código gerado, casos em que parte do tempo economizado na geração inicial pode ser consumida pelo esforço de checagem, correção e adaptação das saídas produzidas pela ferramenta (STRAY et al., 2024; DAVILA et al., 2024).

Este evidence briefing sintetiza evidências recentes da literatura sobre três eixos: as atividades de código em que a IA é utilizada, as métricas empregadas para avaliar essa eficiência e as limitações relatadas, com foco em aplicações na Engenharia de Software e em sistemas corporativos.

Atividades de código e seus efeitos na eficiência

As atividades onde a IA é mais utilizada para ganho de eficiência são codificação, testes de software e depuração de código, com ganhos que envolvem geração de novo código, autocompletar, criação de boilerplate, elaboração de testes de unidade e apoio à correção de erros simples (PINTO et al., 2024; PEREIRA et al., 2025; PANDEY et al., 2024).

Os estudos também indicam ganhos em documentação, apoio ao conhecimento e compreensão de código, especialmente pela redução do tempo gasto com buscas por exemplos, APIs, sintaxe e trechos de código legado. Esse uso sugere que parte da eficiência promovida pela IA não está apenas na produção de código, mas também na redução de fricções cognitivas e informacionais no trabalho diário (FORTES et al., 2025; STRAY et al., 2024).

As perdas de eficiência aparecem com mais força em tarefas como mudanças distribuídas em múltiplos arquivos, atividades dependentes de regras de negócio específicas, depuração de defeitos difíceis e validação do código gerado (SHANUKA; WIJAYANAYAKE; VIDANAGE, 2025; PANDEY et al., 2024; SANTOS et al.). A Tabela 1 detalha esses efeitos por atividade.

Tabela 1 -- Atividades de código e efeitos da IA na eficiência

Atividade de código	Aumenta a eficiência	Diminui a eficiência
Codificação / escrita de código	geração de código, autocompletar, boilerplate, snippets contextuais	sugestões incorretas, perda de contexto, revisão excessiva
Depuração e correção de código	sugestão de correções, apoio ao debugging, erros simples	loops de erro, correções superficiais, retrabalho
Testes de software	geração de testes, automação, regressão	testes superficiais, baixa aderência ao domínio, necessidade de reescrita
Documentação e apoio ao conhecimento	comentários, documentação técnica, acesso rápido a exemplos e APIs	respostas inconsistentes, documentação genérica, falta de contexto
Compreensão de código / código legado	explicação de código, apoio à leitura de código legado	explicações rasas, falha em captar contexto, necessidade de validação
Manutenção / modificação de código existente	ajustes pontuais, extensão de funcionalidades, mudanças simples	dificuldade com múltiplos arquivos, retrabalho de integração
Refatoração e otimização	reorganização de código, melhoria de legibilidade	perda de desempenho, baixa confiabilidade em cenários complexos
Revisão de código e garantia de qualidade	feedback inicial, detecção de problemas, apoio à revisão	comentários irrelevantes, sobrecarga de validação, atraso no PR
Entrega, CI/CD e operações	scripts de deployment, análise de logs, automação operacional	necessidade de validação humana, baixa autonomia, dependência de contexto

Métricas utilizadas para avaliar a eficiência

A eficiência do uso de IA em atividades de código vem sendo avaliada por diferentes grupos de métricas que vão além da velocidade de execução. No material analisado, destacam-se as categorias tempo, produtividade / entrega, qualidade do código, qualidade dos testes, uso / aceitação da ferramenta, experiência do desenvolvedor e custo / precisão operacional.

As métricas de tempo e produtividade / entrega aparecem com maior frequência, com indicadores como cycle time, lead time, throughput, frequência de implantação e tarefas concluídas. Mas os estudos também recorrem a métricas de qualidade e experiência do desenvolvedor, como readability, maintainability, cobertura de testes, taxa de aceitação de sugestões, cognitive load e flow state. Esse conjunto mostra que a eficiência da IA é tratada como um conceito multidimensional, que envolve rapidez, qualidade das entregas e impacto no trabalho humano.

Tabela 2 -- Métricas utilizadas para medir a eficiência

Métrica	Foco da avaliação	Exemplos de indicadores
Tempo	Mede se a IA acelera a execução das atividades de código	tempo para concluir tarefas, time to first test, tempo médio por caso de teste, cycle time, lead time, MTTR
Produtividade / entrega	Avalia se a IA amplia a capacidade de produção e entrega	task completion efficiency, task completion time, throughput, deployment frequency, tarefas concluídas, LOC/day, requisitos implementados
Qualidade do código	Verifica se o ganho de velocidade mantém ou melhora a qualidade técnica	readability, maintainability, code health, correctness, performance, defect density, change failure rate
Qualidade dos testes	Mede a efetividade da IA na geração e execução de testes	bug detection rate, false positive rate, test coverage, success rate, step accuracy, automated test coverage
Uso / aceitação da ferramenta	Observa o quanto as sugestões da IA são realmente aproveitadas	number of prompts, number of suggestions, acceptance rate, line-level acceptance rate, percentual de comentários aceitos
Experiência do desenvolvedor	Analisa o impacto da IA no fluxo e na carga cognitiva do trabalho	feedback loops, cognitive load, flow state, dimensões do framework SPACE
Custo / precisão operacional	Avalia custo de uso e precisão em testes e operações	custo por caso de teste, proporção entre tokens gerados e tokens inseridos, precision, alert precision, false positive rate

Limitações do uso de IA nas atividades de código

Embora a IA possa acelerar parte do trabalho, os estudos relatam limitações recorrentes que reduzem ou anulam os ganhos de eficiência. Essas limitações não se restringem à geração de código em si -- muitas delas estão na interação com a ferramenta, como a dependência de prompts bem elaborados, a configuração adequada e a integração com o ambiente de desenvolvimento (SALEM et al., 2024; WINCKLER et al., 2025; PANGAVHANE et al., 2025; FORTES et al., 2025; PINTO et al., 2024; SHANUKA; WIJAYANAYAKE; VIDANAGE, 2025; HOUCK et al., 2025).

Tabela 3 -- Limitações com a utilização da IA

Limitação relatada	Exemplo
Baixa qualidade e inconsistência das sugestões	A IA pode gerar respostas imprecisas, incompletas, redundantes ou inconsistentes, reduzindo a confiabilidade do uso.
Dependência de prompts bem elaborados	Os ganhos de eficiência dependem da capacidade do usuário de formular prompts e configurar corretamente a ferramenta.
Perda ou insuficiência de contexto	A IA ainda apresenta dificuldades para recuperar e manter o contexto específico do projeto, do código e da organização.
Baixa efetividade em tarefas complexas	O desempenho da IA tende a cair em atividades que envolvem múltiplos arquivos, arquitetura, segurança ou regras de negócio específicas.
Problemas de integração e suporte técnico	São relatados desafios de instalação, configuração, estabilidade, compatibilidade com IDEs e adaptação ao ambiente de desenvolvimento.
Necessidade contínua de supervisão humana	Mesmo quando acelera tarefas, a IA ainda exige revisão, validação e controle constantes por parte do desenvolvedor.
Riscos de segurança e confiabilidade	O uso da IA pode introduzir vulnerabilidades, respostas pouco confiáveis e problemas éticos ou de precisão.
Sobrecarga cognitiva	A interação com a ferramenta pode aumentar o esforço mental, interromper o fluxo de trabalho e gerar custo adicional de validação.

Interpretação das evidências

A presença de métricas de qualidade e experiência do desenvolvedor ao lado das métricas de tempo e produtividade mostra que produzir mais rápido não é suficiente se houver perda de qualidade (PEREIRA et al., 2025; WANG et al., 2024; SHANUKA; WIJAYANAYAKE; VIDANAGE, 2025). Métricas como acceptance rate, cognitive load e flow state indicam que a IA pode tanto apoiar o trabalho quanto gerar novos custos de revisão, validação e esforço cognitivo (FORTES et al., 2025; WINCKLER et al., 2025).

As limitações reforçam esse ponto: parte do esforço economizado na geração é deslocada para supervisão, validação e correção. Problemas como dependência de prompts bem elaborados, integração incompleta com o ambiente de desenvolvimento e revisão constante das saídas são recorrentes em diferentes estudos.

No conjunto, as evidências mostram que o impacto da IA na eficiência varia conforme o tipo de tarefa, o nível de complexidade, a qualidade da ferramenta e o quanto de supervisão humana é necessário.

Conclusão

A IA tem potencial para aumentar a eficiência em atividades de programação, mas seus benefícios não são uniformes. A eficiência resultante não depende apenas da velocidade de execução -- ela combina rapidez, qualidade, custo de uso e impacto no trabalho humano.

Em vez de substituir o desenvolvedor, a IA muda o seu papel, deslocando parte do trabalho para supervisão e controle do que é gerado. O uso mais eficaz depende da qualidade da ferramenta, do contexto em que ela é aplicada e da presença constante do julgamento humano ao longo do desenvolvimento.

Referências

DAVILA, Nicole et al. An Industry Case Study on Adoption of AI-based Programming Assistants. 2024.

FORTES, Luciane et al. The Productivity Paradox of AI-Powered Development. 2025.

HOUCK, Brian et al. The SPACE of AI: Real-World Lessons on AI's Impact on Developers. 2025.

KARUPPUCHAMY, Sureshkumar. AI-Augmented Software Engineering for Rapid Feature Delivery and Operations Automation. 2025.

PANDEY, Ruchika; SINGH, Prabhat; WEI, Raymond; SHANKAR, Shaila. Transforming Software Development: Evaluating the Efficiency and Challenges of GitHub Copilot in Real-World Projects. 2024.

PANGAVHANE, Shreyas et al. AI-Augmented Software Development: Boosting Efficiency and Quality. 2025.

PEREIRA, Guilherme Vaz et al. Exploring GenAI in Software Development: Insights from a Case Study in a Large Brazilian Company. 2025.

PINTO, Gustavo et al. Developer Experiences with a Contextualized AI Coding Assistant: Usability, Expectations, and Outcomes. 2024.

SALEM, Dina Omar et al. AI-Driven Continuous Integration: Automating Code Review and Deployment with LLMs. 2024.

SANTOS, Robson; SANTOS, Italo; MAGALHAES, Cleyton; SANTOS, Ronnie de Souza. Are We Testing or Being Tested? Exploring the Practical Applications of Large Language Models in Software Testing. [s.d.].

SHANUKA, K. A. Ashen; WIJAYANAYAKE, Janaka; VIDANAGE, Kaneeka. Analyzing the impact of prompt engineering on efficiency, code quality, and security in CRUD application development. 2025.

STRAY, Viktoria; MOE, Nils Brede; GANESHAN, Nivethika; KOBBENES, Simon. Generative AI and Developer Workflows: How GitHub Copilot and ChatGPT Influence Solo and Pair Programming. 2024.

WANG, Xuan et al. From Redundancy to Efficiency: Exploiting Shared UI Interactions towards Efficient LLM-Based Testing. 2024.

WEBER, Thomas; BRANDMAIER, Maximilian; SCHMIDT, Albrecht; MAYER, Sven. Significant Productivity Gains through Programming with Large Language Models. 2024.

WINCKLER, Sabrina C. et al. AI-assisted Collaboration: Exploring Developer Experience with GitHub Copilot and Windsurf. 2025.

Detecção de anomalias: do sensor ao dashboard

Alberto Luiz Souza — Mon, 30 Mar 2026 01:11:49 +0000

Disclaimer

Este texto foi inicialmente concebido pela IA Generativa em função da transcrição de um vídeo do canal de Daniel Romero (a pessoa que lidera nossa especialização em Engenharia de IA). Se preferir acompanhar por vídeo, é só dar o play.

Introdução

Detecção de anomalias é uma técnica de Machine Learning usada para encontrar padrões em dados que não estão de acordo com o comportamento esperado. Empresas de cartão de crédito e fintechs usam esse tipo de abordagem no combate a fraudes, mas a aplicação vai muito além do mundo financeiro. Neste post, vamos construir um sistema completo de detecção de anomalias para monitorar vibração em maquinário industrial, passando por coleta de dados com sensor, treinamento de modelo e inferência em tempo real.

A inspiração vem de empresas reais que fornecem sistemas de monitoramento preditivo para indústria, usando sensores que coletam dados de vibração e modelos de Machine Learning que analisam esses dados para prever problemas antes que eles aconteçam.

O plano geral do projeto

O projeto percorre toda a cadeia de um sistema de detecção de anomalias:

Montar um protótipo com sensor acelerômetro conectado a um microcontrolador ESP32
Coletar dados de vibração de um ar-condicionado em operação normal e com anomalia simulada
Analisar os dados coletados e extrair features relevantes
Treinar um modelo de Machine Learning para classificar operação normal versus anomalia
Criar uma API para inferência em tempo real
Construir um dashboard para monitorar o estado do sistema

Coleta de dados com acelerômetro e ESP32

Para coletar dados de vibração, o projeto usa um acelerômetro de 3 eixos (MPU6050) conectado a um ESP32 via protocolo I2C.

Como funciona um acelerômetro

Um acelerômetro detecta aceleração linear ao longo de um eixo. O sensor utilizado é uma IMU (unidade de medição inercial), que combina acelerômetros, giroscópios e magnetômetros em um chip microscópico, usando tecnologia MEMS (sistemas microeletromecânicos).

Internamente, o sensor possui uma massa sísmica em forma de H com extremidades sensoriais. Essa massa fica presa ao substrato nas extremidades, permitindo um movimento de vai e vem. Durante a movimentação, os dedos sensoriais se aproximam dos eletrodos, gerando detecção capacitiva. A mudança na capacitância entre os eletrodos fixos e a massa sísmica é usada para determinar a aceleração. Em termos práticos, o sensor detecta tanto forças estáticas como a gravidade quanto forças dinâmicas como vibrações.

Configuração do microcontrolador

O ESP32 conecta-se ao Wi-Fi e envia os dados do acelerômetro para uma API Python via requisições HTTP POST. O fluxo funciona assim:

O ESP32 faz uma requisição GET para verificar se o servidor está pronto
Se recebe resposta positiva, coleta 200 amostras por segundo (uma amostra a cada 5 milissegundos)
Os valores X, Y e Z da aceleração são organizados em JSON e enviados via POST
O servidor Python recebe os dados e salva em arquivos CSV

Na configuração do sensor, o range do acelerômetro fica em mais ou menos 4G (podendo medir até 16G) e a largura de banda do filtro em 260 Hz. O range define o tamanho da força que o sensor pode medir, enquanto a largura de banda determina o quão rápido ele consegue registrar mudanças de movimento. A combinação dos dois funciona quase como um ajuste de sensibilidade.

Introduzindo a anomalia

Para simular uma falha mecânica, um imã é fixado no cilindro metálico que faz o ar circular no ar-condicionado. Isso causa uma descalibragem proposital, fazendo o cilindro trepidar. Os dados são coletados em diferentes condições: operação normal em várias velocidades e operação com a anomalia inserida.

Análise exploratória dos dados

Com os dados coletados, a análise revela diferenças claras entre operação normal e anomalia.

Dados brutos

Na operação normal, o eixo Z mantém um nível constante em torno de 10g, enquanto os eixos X e Y ficam próximos de zero com linhas suaves. Na operação com anomalia, aparecem oscilações mais intensas em todos os eixos, com um padrão mais irregular.

Features estatísticas

Três características se destacam na separação entre normal e anomalia:

Média: mostra o valor central das medições ao longo do tempo. Há uma separação clara, indicando que o nível médio de vibração durante anomalias é consistentemente diferente
Variância: mede como os dados se dispersam em relação à média. As anomalias apresentam valores muito maiores, indicando vibrações mais intensas e irregulares
Curtose: indica o quanto os dados se concentram em torno da média. Valores mais altos sugerem picos de vibração mais intensos e frequentes

Cada feature fornece uma perspectiva diferente. A média entrega uma visão geral de vibração, a variância revela a intensidade das oscilações e a curtose indica a presença de eventos extremos.

Transformada rápida de Fourier (FFT)

A FFT decompõe um sinal em suas frequências constituintes. Diferentes problemas mecânicos geram padrões de vibração em frequências específicas. Um rolamento com defeito pode gerar vibrações em uma frequência, enquanto um desbalanceamento pode gerar outra.

Nos dados coletados, a operação normal mostra um perfil de frequência suave e com baixa magnitude. A anomalia mostra picos em certas frequências, especialmente no eixo Z, onde a magnitude chega a 16 vezes o valor normal.

Treinamento do modelo

Preparação dos dados

O processo de preparação inclui:

Carregar os CSVs de cada tipo de operação (normal e anomalia)
Remover o DC (valor médio do sinal) para centralizar os dados em torno de zero, eliminando viés constante e efeitos da gravidade
Adicionar ruído aleatório para aumentar a robustez durante o treino

Extração de features

Para cada eixo, cinco features são extraídas:

Desvio padrão: variabilidade do sinal
Curtose: formato da distribuição
Amplitude máxima absoluta: maior valor registrado
RMS (média quadrática): medida de energia do sinal
Range: diferença entre valores máximos e mínimos

Distância de Mahalanobis e threshold

O algoritmo escolhido usa a distância de Mahalanobis para calcular o quão distante um ponto está da distribuição normal dos dados. Essa distância produz uma medida de quão estranho é um ponto em relação ao comportamento esperado.

Uma função complementar encontra o melhor limiar (threshold) para separar normal de anomalia usando validação cruzada. A abordagem é conservadora: falsos positivos são penalizados 5 vezes mais que falsos negativos, priorizando evitar alarmes falsos.

Resultados do modelo

A distribuição das distâncias de Mahalanobis mostra:

Casos normais concentrados entre 2 e 6, com pico próximo a 3,5
Anomalias concentradas entre 8,5 e 14, com pico em torno de 10
Threshold definido em 5,71

Na matriz de confusão, o modelo acertou 86 de 100 predições: 47 verdadeiros normais, 39 verdadeiras anomalias, 3 falsos positivos e 11 falsos negativos. O modelo tende a ser mais conservador, preferindo classificar como normal os casos duvidosos.

No relatório de classificação:

Normal: precisão de 81%, recall de 94%, F1 de 87%
Anomalia: precisão de 93%, recall de 78%, F1 de 85%
Acurácia geral: 86%
AUC Score: 0,87

Inferência em tempo real

Atualização do sensor

Para a fase de inferência, o software do ESP32 é atualizado. A coleta passa para 100 amostras, organizadas como uma matriz 2D que corresponde ao formato de input esperado pelo modelo. Os dados são enviados para uma API de detecção de anomalias.

API com FastAPI

A API recebe os dados do acelerômetro, carrega o modelo treinado (contendo média, covariância e threshold) e executa o pipeline:

Pré-processamento dos novos dados e remoção do DC
Cálculo das features estatísticas por eixo
Cálculo da distância de Mahalanobis para a nova amostra
Cálculo de confiança considerando histórico recente
Classificação como normal ou anomalia

Vale destacar que a distância de Mahalanobis aparece tanto no treino quanto na inferência, mas com propósitos diferentes. No treino, ela é usada para definir o threshold com dados rotulados. Na inferência, é calculada para cada nova amostra e comparada com o threshold já definido. No treino se calibra o sistema; na inferência se usa essa calibração para classificar.

Dashboard de monitoramento

Uma aplicação em React exibe o status da classificação em tempo real, com três métricas:

Confidence: confiança do modelo na classificação atual
Distância de Mahalanobis: calculada para os dados recebidos
Threshold: limite constante que define quando algo é considerado anomalia

O gráfico mostra a evolução temporal dessas métricas, permitindo acompanhar o comportamento do sistema.

Possibilidades de evolução

O projeto demonstra um fluxo completo, mas várias evoluções são possíveis:

Treinar uma rede neural com mais dados para maior sofisticação
Mapear peças internas do equipamento para identificar a origem da anomalia
Combinar dados do acelerômetro com giroscópio para aumentar a precisão
Projetar hardware dedicado com PCB customizada
Separar os componentes da API de forma mais organizada

Conclusão

Um projeto assim não garante uma vaga de trabalho, mas funciona como treino e pode chamar a atenção em meio a milhares de candidaturas. O diferencial está em cobrir toda a cadeia do problema: desde o entendimento do hardware e coleta de dados, passando pela análise exploratória e treinamento do modelo, até a inferência em tempo real com dashboard de monitoramento.

Dev + Eficiente

Skills para agentes de código fazem diferença?

Alberto Luiz Souza — Sun, 22 Mar 2026 23:41:08 +0000

Disclaimer

Este texto foi inicialmente concebido pela IA Generativa em função da transcrição de um vídeo do canal Dev Mais Eficiente. Se preferir acompanhar por vídeo, é só dar o play.

Introdução

Existe uma discussão recorrente sobre o quanto configurar skills (no Claude Code), rules (no Cursor) ou arquivos semelhantes realmente melhora o resultado dos agentes de código. Para tentar responder isso com dados, um estudo chamado SkillBench montou um benchmark com 84 tarefas de domínios variados e testou múltiplos modelos em três cenários: sem skill nenhuma, com skills geradas pelo próprio agente e com skills escritas com participação humana.

Neste post, vamos analisar os principais achados do estudo, incluindo dados do apêndice sobre taxa de falha dos modelos que costumam passar despercebidos nas discussões.

O achado principal: skills escritas por humanos fazem diferença

O gráfico central do estudo compara a taxa de resolução de tarefas em três condições: sem skill, com skill auto-gerada pelo agente e com skill escrita em conjunto com um ser humano que domina o assunto.

O resultado mais relevante: skills escritas com participação humana consistentemente melhoram a taxa de resolução em relação às outras duas condições. Os modelos testados incluem Haiku 4.5, Sonnet 4.5, Opus 4.5, Gemini 3 Pro, GPT 5.2, Opus 4.6 e Gemini 3 Flash, e o padrão se repete em praticamente todos.

Já as skills geradas pelo próprio agente tiveram efeito quase nulo comparadas a trabalhar sem skill nenhuma. Em alguns casos, como GPT 5.2 e Sonnet 4.5, o agente sem skill teve resultado levemente melhor do que com skill auto-gerada.

Isso reforça algo que segue sendo verdade: o nível de expertise de quem direciona o agente continua fazendo diferença significativa.

Como o estudo foi montado

O repositório do SkillBench contém 84 tarefas de naturezas diversas. Cada tarefa tem a instrução para o agente, metadados, timeout, testes automatizados para verificar o output e uma proposta de solução determinística.

A execução funcionava assim: subia uma imagem Docker com o agente instalado (Claude Code, Codex, Gemini CLI), configurava com ou sem skill, apontava para a pasta com as instruções e deixava o agente trabalhar. Depois verificava o resultado contra os testes.

A variação por domínio e o que ela revela

O estudo traz uma tabela com a taxa de resolução por domínio. Alguns números:

Saúde: 86% com skill, 34% sem skill
Engenharia de software: 38,9% com skill, 34,4% sem skill

A diferença entre esses dois domínios é reveladora, mas precisa de contexto. Primeiro, o volume de tarefas era diferente: saúde tinha poucas tarefas, engenharia de software tinha mais de vinte. Segundo, e talvez mais importante, os modelos são muito mais bem treinados para engenharia de software do que para domínios como saúde.

Isso leva a uma conclusão prática: quanto menos treinado o modelo é para um domínio específico, maior o gap que o conhecimento humano precisa preencher. Em domínios onde o modelo já tem bastante conhecimento nos dados de treino, a diferença que uma skill faz tende a ser menor.

O esforço de setup pode não compensar

Existe uma tendência a montar setups elaborados para trabalhar com agentes de código: engenharia de contexto detalhada, troca de modelos por tipo de tarefa, controle granular de consumo de tokens. O estudo sugere que, pelo menos para tarefas mais padronizadas, esse esforço pode gerar diferença marginal.

Se a tarefa é de conhecimento relativamente público e o modelo já é bem treinado naquele domínio, a diferença entre um setup sofisticado e um prompt direto pode ser pequena. Isso não significa que skills são inúteis, mas que vale avaliar se o esforço de configuração está gerando retorno proporcional.

Para práticas de engenharia de software que são bastante padronizadas (separação de controllers e casos de uso, cálculos comuns, estilo funcional com imutabilidade), o modelo provavelmente já consegue operar bem sem instruções adicionais. A skill faz mais diferença quando o domínio é específico e não tão bem representado nos dados de treino.

A taxa de falha que ninguém comenta

O apêndice do estudo traz uma tabela com as tentativas e taxas de falha de cada modelo. Alguns números:

Opus 4.6: 1.245 tentativas, 67,1% de falha
Gemini 3 Pro: 61% de falha
Haiku e Sonnet: acima de 80% de falha

Esses números consideram todas as condições (com skill auto-gerada, com skill humana, sem skill). A maioria das tentativas falhou, mesmo em tarefas que envolvem conhecimento de domínio público.

Isso tem uma implicação direta para o fluxo de trabalho do dia a dia. Se a taxa de falha é essa em tarefas padronizadas, imagine dentro do contexto de negócio específico da sua empresa, com domínio que não é público e conexões que o modelo não tem como inferir. A taxa de falha provavelmente seria ainda maior.

Na prática, isso significa que o ciclo de gerar, revisar, direcionar e gerar novamente continua sendo o fluxo normal. Quanto mais aberta e ambígua a tarefa, maior a chance do modelo produzir algo diferente do esperado. A participação humana no direcionamento segue sendo importante para reduzir esse ciclo.

Analogia com VMs e otimização prematura

Uma maneira útil de pensar sobre isso é a analogia com máquinas virtuais. A JVM, por exemplo, faz otimizações sofisticadas em runtime. Na maioria dos casos, tentar micro-otimizar manualmente sem dados concretos pode até atrapalhar o trabalho da VM.

Com agentes de código pode estar acontecendo algo parecido. Em algum momento, tentar ajustar finamente o comportamento do agente com muitas regras e configurações pode ser contra-produtivo. Para a maioria das tarefas, apostar no comportamento padrão do modelo e iterar a partir do resultado pode ser mais eficiente do que montar um setup elaborado antes de começar.

Quando você tem dados concretos de que um ajuste específico faz diferença no seu contexto, aí sim vale configurar. Mas sem essa evidência, o default tende a funcionar razoavelmente bem.

Conclusão

O SkillBench traz dados úteis para calibrar expectativas. Skills escritas com participação de quem domina o assunto fazem diferença mensurável. Skills auto-geradas pelo agente praticamente não ajudam. A taxa de falha dos modelos ainda é alta mesmo em tarefas padronizadas, o que reforça que o direcionamento humano continua sendo parte essencial do fluxo.

Para quem trabalha com agentes de código no dia a dia, o ponto prático é: invista seu tempo no que você sabe sobre o problema, não na engenharia de contexto genérica. O conhecimento de domínio que você traz para a skill é o que faz a diferença, não a sofisticação do setup.

Dev + Eficiente

Estudo da Anthropic sobre IA e aprendizagem: o modo de uso importa mais do que a ferramenta

Alberto Luiz Souza — Mon, 16 Mar 2026 12:14:54 +0000

Este texto foi inicialmente concebido pelo Agente Marketing Dev + Eficiente em função da transcrição de um vídeo do canal Dev Eficiente. Se preferir acompanhar por vídeo, é só dar o play.

Introdução

A Anthropic publicou um estudo chamado "How AI Impacts Skill Formation". O experimento colocou pessoas para implementar funcionalidades usando uma biblioteca Python, dividindo-as em dois grupos: um com acesso a assistentes baseados em LLM e outro sem. Depois, aplicaram um quiz sobre os conhecimentos adquiridos durante a tarefa. O grupo que não usou IA tirou notas melhores.

O resultado gerou bastante repercussão -- posts no LinkedIn dizendo que IA "emburrece" e alertas sobre o futuro da profissão. Mas quando olhamos os dados com mais cuidado, a história é mais nuançada do que o título sugere.

O que o estudo de fato mostra

O experimento usou uma biblioteca Python chamada Trio, que permite operações assíncronas com composição de tarefas. Os participantes tinham 35 minutos para completar a implementação.

Dois resultados chamam atenção:

Sobre produtividade: a diferença de tempo entre quem usou IA e quem não usou não foi tão expressiva quanto se poderia imaginar. A pessoa mais rápida com IA completou em aproximadamente 18 minutos, enquanto a mais rápida sem IA demorou cerca de 21. Para essa tarefa específica, o ganho de produtividade não foi marcante.

Sobre aprendizado: aqui a diferença foi significativa. A pior nota de quem não usou IA foi melhor do que a melhor nota de quem usou. Quem não teve a opção de delegar precisou ler a documentação, entender os conceitos e resolver os problemas por conta própria -- e esse esforço se refletiu no quiz.

Os padrões de uso que explicam a diferença

O estudo identificou diferentes padrões de interação com a IA, e nem todos levaram ao mesmo resultado:

Delegação total: a pessoa simplesmente pediu para a IA resolver e colou o resultado. Completou rápido (cerca de 19 minutos), mas ficou com média de 39% no quiz. É o padrão mais intuitivo quando o objetivo é apenas terminar.

Delegação do debugging: quando apareceu um bug, a pessoa delegou a resolução completa para a IA. Esse foi o pior cenário -- demorou mais para terminar e ainda resultou em notas baixas. A oportunidade de entender o que deu errado, e se prevenir na próxima vez, se perdeu.

Geração seguida de compreensão: a pessoa usou a IA para gerar o código, mas depois leu e tentou entender o que foi produzido. Esse grupo demorou um pouco mais, mas tirou notas na casa dos 60% -- não tão boas quanto quem não usou IA, mas com um trade-off possivelmente aceitável entre velocidade e aprendizado.

O que isso significa na prática

O estudo é honesto sobre suas limitações. As tarefas do experimento são isoladas e curtas, bem diferentes de tarefas reais de desenvolvimento, onde existe contexto acumulado, interação com outras equipes, análise de código existente e decisões arquiteturais.

Um exemplo prático: ao precisar salvar currículos em um bucket da Cloudflare usando o R2, é perfeitamente razoável pedir para um agente gerar o código de integração. Se alguém perguntar depois como a API do R2 funciona em detalhe, a resposta honesta pode ser "não sei de cabeça". Isso não diz nada sobre a capacidade da pessoa como engenheira -- é um componente pontual, mapeado, que pode ser consultado quando necessário.

Agora, o estudo evidencia algo que vale a atenção: quando a prioridade é só terminar, o impulso natural é parar de refletir. E falta de reflexão afeta o entendimento, a capacidade de pensar em alternativas e de se preparar para problemas futuros.

Sensação de produtividade versus produtividade real

Escrever mais código não significa produzir mais valor. Se alguém fala mil palavras por minuto e outra pessoa fala trezentas, isso não diz nada sobre a qualidade do que foi dito.

Com ferramentas de IA, é fácil colocar mais tarefas no pipeline simplesmente porque agora é possível gerar mais código. Mas o número de tarefas entregues que de fato geram valor pode não ter mudado.

Existem cenários onde o ganho de produtividade é óbvio e não faz sentido questionar: quando a pessoa não sabia fazer aquilo antes. Se alguém que nunca escreveu Swift consegue entregar uma funcionalidade com ajuda de IA, é claro que ficou "mais produtiva" -- antes não fazia nada.

O cenário que ainda carece de evidências mais robustas é quando a pessoa já sabe fazer o trabalho, delega para a IA e depois confere o resultado. Estudos mais longitudinais seriam necessários para entender o impacto real nessa situação.

O papel de quem usa o agente

Enquanto não existirem agentes operando sem humanos no loop, a responsabilidade pelo resultado é de quem abre o PR. Se o agente entregou algo, você aprovou, e depois não consegue explicar o que aquele código faz, o problema é seu.

Usar ferramentas de IA para estudar e trabalhar faz sentido -- é uma tecnologia que fornece feedback como se houvesse alguém acompanhando o que você está fazendo. Mas o modo de uso importa. Gerar e entender é diferente de gerar e ignorar.

Conclusão

O estudo da Anthropic não traz uma revelação surpreendente: menos reflexão leva a menos entendimento. Mas quantifica isso de forma controlada e identifica padrões de uso que podem orientar como cada pessoa decide interagir com ferramentas de IA no dia a dia.

A decisão prática é sobre quando vale abrir mão de entendimento profundo (componentes pontuais, integrações que não são o core do sistema) e quando vale investir o tempo de compreender o que foi gerado (lógica de negócio, componentes críticos, áreas onde um bug futuro pode puxar seu pé).

Dev + Eficiente

Como o RAG está sendo usado na indústria de software: o que dizem 26 estudos

Alberto Luiz Souza — Mon, 09 Mar 2026 11:49:23 +0000

Disclaimer

Este texto foi gerado pelo Agente Marketing Dev + Eficiente a partir de um relatório técnico de revisão sistemática sobre RAG na Engenharia de Software, conduzido com análise assistida por IA. O conteúdo abaixo sintetiza as principais evidências encontradas na literatura e em relatos industriais.

Introdução

RAG (Retrieval-Augmented Generation) combina mecanismos de recuperação de informação com modelos generativos. Na prática, o sistema consulta bases de conhecimento externas -- documentação técnica, logs operacionais, código-fonte, histórico de incidentes -- antes de produzir uma resposta. O modelo passa a fundamentar suas saídas em evidências recuperadas, reduzindo alucinações e aumentando a precisão.

Uma revisão sistemática recente analisou 26 estudos (entre 2021 e 2025) para entender como o RAG está sendo aplicado na indústria de software. Os resultados mostram que a tecnologia já ultrapassou o estágio experimental e está presente em ambientes de produção em diversos setores.

Onde o RAG está sendo usado

A distribuição por indústria revela três padrões:

Estudos transversais dominam. A maior parte dos trabalhos (7 estudos) discute arquiteturas, técnicas e desafios de forma independente do domínio. Isso indica que a comunidade está consolidando padrões de engenharia de RAG que podem ser aplicados em diferentes contextos.

Cloud/DevOps e empresas de tecnologia concentram as aplicações mais maduras. Computação em nuvem e tecnologia da internet aparecem com 2 estudos cada, com foco em observabilidade, detecção de anomalias em logs e revisão automática de código. São cenários onde documentação operacional, logs e conhecimento histórico estão naturalmente dispersos -- exatamente o tipo de problema que o RAG resolve.

Segurança e testes estão crescendo. A necessidade de rastreabilidade, redução de alucinação e reutilização de conhecimento histórico torna o RAG atrativo para detecção de vulnerabilidades e automação de artefatos de teste.

Além desses, o RAG aparece em setores como automotiva, telecomunicações, construção naval, energia e PMEs, demonstrando versatilidade.

Em quais etapas do desenvolvimento

A etapa de desenvolvimento e testes concentra a maior parte das evidências (14 dos 26 estudos). Dentro dela, o RAG é usado para:

Complemento de código em repositórios fechados, como no caso do WeChat, onde o modelo recebe contexto do repositório interno antes de sugerir complementos.
Revisão automática de código, fornecendo contexto de chamadas entre arquivos para gerar comentários mais relevantes e reduzir sugestões inválidas
Geração de testes, incluindo scripts de teste de integração na indústria automotiva e automação de casos de teste em sistemas ERP com orquestração multiagente
Operacionalização do RAG em produção, incluindo governança, trade-offs de latência versus qualidade e avaliação contínua

Fora de desenvolvimento e testes, o RAG aparece em resolução de incidentes (redução de MTTR com troubleshooting baseado em evidências), CI/CD (diagnóstico de falhas em pipelines) e cibersegurança (detecção de vulnerabilidades ancorada em bases como CWE/MITRE).

Quais LLMs estão sendo usadas

A escolha do modelo depende do contexto:

Família GPT aparece com maior frequência, por maturidade de ecossistema e capacidade de seguir instruções ancoradas em evidências. É a escolha predominante em sistemas de gestão do conhecimento e diagnóstico de incidentes em tempo real.

Família LLaMA se destaca quando a prioridade é implantação on-premises, custo e governança. O caso da Ericsson é ilustrativo: um chatbot RAG para CI/CD usando Llama2-chat, onde até o custo de trocar de LLM por diferenças de estilo de prompt foi avaliado.

Família Qwen aparece associada a operações de nuvem, equilibrando capacidade e custo. Também é usada em indústria tradicional (construção naval), indicando que modelos open-weight entram como escolha por viabilidade.

Modelos especializados em código (CodeLlama, DeepSeek-Coder, Yi-Coder, Codestral) competem com modelos gerais quando o domínio é programação. Vários estudos comparam múltiplos modelos para equilibrar custo e desempenho.

Embeddings: o que a indústria está escolhendo

A família BGE (BAAI) foi a mais recorrente. Aparece em cenários que exigem alta precisão de recuperação, frequentemente combinada com rerankers para refinar os resultados antes de enviar ao LLM.

Sentence-Transformers (all-MiniLM-L6-v2, all-distilroberta-v1) aparecem como opção pragmática para implantação rápida e pipelines leves.

Embeddings da OpenAI (text-embedding-3-large) são usados quando o pipeline já está acoplado ao ecossistema OpenAI.

Para código, embeddings especializados como CodeBERT e UniXcoder tendem a superar embeddings genéricos em tarefas de similaridade de código.

Arquiteturas que estão emergindo

Além do pipeline RAG clássico (ingestão, chunking, vetorização, recuperação, geração), a revisão identificou padrões arquiteturais mais sofisticados:

RAG híbrido (lexical + semântico). A combinação de BM25 com recuperação semântica aparece consistentemente como a configuração mais efetiva. Reciprocal Rank Fusion (RRF) é uma técnica recorrente para fundir os sinais.

Recuperação em dois estágios (Retrieve + Rerank). Primeiro recupera um conjunto maior com alta revocação, depois aplica um reranker (tipicamente cross-encoder) para alta precisão. Esse padrão aparece em múltiplos estudos industriais.

RAG guiado por intenção. Classificação da consulta do usuário, extração de metadados e reescrita de query antes da recuperação. Resolve o problema de consultas incompletas ou ambíguas em ambientes operacionais.

RAG com grafos e Agentic RAG. Para tarefas com dependências estruturais (chamadas entre arquivos, rastreabilidade), a combinação de banco vetorial com banco em grafo e orquestração multiagente. Alguns estudos já incorporam aprendizado por reforço para melhoria contínua baseada em feedback.

RAG com base de conhecimento dinâmica. A base de conhecimento evolui via active learning: logs com baixa incerteza são incorporados automaticamente, casos incertos vão para rotulagem humana. Adequado para cenários onde os dados mudam rapidamente.

Conclusão

As evidências indicam que o RAG já é uma tecnologia em uso industrial, não apenas experimental. Seu principal valor está em permitir que LLMs utilizem conhecimento corporativo -- documentação, código, histórico de incidentes -- fundamentando respostas em evidências concretas.

A eficácia depende menos do modelo de linguagem escolhido e mais da qualidade do pipeline de recuperação: estratégia de chunking, escolha de embeddings, mecanismos de reranking e integração com os fluxos de trabalho existentes. Quem está implementando RAG em produção precisa tratar o pipeline de recuperação com o mesmo rigor que trata qualquer outro componente crítico do sistema.

Artigo completo

O artigo completo pode ser lido aqui

Especialização em Engenharia de IA

Na Especialização em Engenharia de IA, uma parceria com a Dev + Eficiente, abordamos RAG na prática: desde a construção do pipeline de recuperação até estratégias de avaliação e operacionalização em produção. O curso inclui Vector Search, Busca Híbrida, Agentes, Tools e muito mais, sempre com aulas 100% práticas.

Faça sua inscrição em https://deveficiente.com/especializacao-engenharia-ia .

CDD: como tornar a avaliação de complexidade de código mensurável

Alberto Luiz Souza — Tue, 03 Mar 2026 12:43:47 +0000

Disclaimer

Este texto foi inicialmente concebido por um Agente Dev + Eficiente especializado nos conteúdos da Jornada e foi revisado por Alberto

Introdução

Uma classe que começa com 40 linhas e termina o ano com 400. Acontece em praticamente todo projeto. O problema não é a classe ter crescido. É que ninguém percebeu quando ela começou a ficar difícil de entender.

Não existe um ponto de ruptura claro -- ela vai acumulando responsabilidades, condicionais e dependências até que qualquer alteração começa a pesar muito mais do que deveria. E aí você tem um time inteiro olhando para o mesmo arquivo e cada pessoa avaliando a dificuldade de um jeito diferente.

A maioria das práticas que tentam resolver isso são baseadas em princípios qualitativos. "Responsabilidade única", "código limpo", "baixo acoplamento". Importantes, mas difíceis de aplicar de forma consistente entre pessoas diferentes de um mesmo time. O que é "responsabilidade única" para uma pessoa pode não ser para outra.

O Cognitive Driven Development (CDD) parte de uma premissa diferente: é possível tornar a avaliação de complexidade de código algo mensurável e compartilhado.

Para não causar confusão: não estamos falando de sustituição de práticas e sim de trazer uma prática que pode facilitar o uso das outras.

O fundamento: carga cognitiva aplicada a código

A teoria da carga cognitiva vem da psicologia educacional. A ideia central é que seres humanos possuem um limite restrito de capacidade de absorção de informação em um determinado intervalo de tempo. Uma referência clássica é o trabalho de Miller (1956), que estabelece que uma pessoa consegue manter aproximadamente 7 itens simultâneos na mente.

O insight do CDD é tratar código como material de consumo cognitivo -- assim como um slide, uma apostila ou um vídeo. Se existe um limite para o que uma pessoa consegue processar, então faz sentido que unidades de código também respeitem esse limite.

A partir daí, o CDD sugere que a complexidade de uma unidade de código (um arquivo, por exemplo) tenha um limite definido. Passou deste limite? A complexidade está maior do que queremos, precisamos ajustar.

Como funciona na prática

O processo é direto. A equipe decide quais elementos de código ela julga que mais pesam na mente das pessoas. Não existe resposta certa -- isso varia de time para time e de projeto para projeto.

Por exemplo, em um projeto com Java, a equipe pode definir (apenas um exemplo) os seguintes elementos:

Condicionais
Acoplamentos com classes do projeto
Funções como argumento

Cada elemento desse, dentro do CDD, é chamado de Intrinsic Complex Point (ICP). Num projeto usando Clojure, os elementos vão mudar. Num projeto usando Python, podem mudar de novo. A teoria é agnóstica de linguagem -- o que muda é quais construções da linguagem a equipe considera relevantes para o entendimento.

Pode-se definir que cada elemento contabiliza um ponto e, a partir disso, já fica bem mais fácil avaliar a complexidade. Supondo que o limite é 10, basta contar.

Por que isso funciona melhor do que princípios qualitativos

Três ganhos práticos:

Uniformidade de avaliação. Quando todo mundo conta os mesmos elementos e usa o mesmo limite, a discussão sobre complexidade sai do campo não determinístico e vai para o campo determinístico. Pessoas com níveis de experiência diferentes passam a analisar complexidade sob a mesma ótica.

Automação. Algo que se resume a contar elementos e comparar com um limite é completamente entendível por um programa. Isso pode entrar no CI, num linter, ou até ser delegado a um LLM (aceitando as variações nas respostas). Não depende de julgamento humano subjetivo no momento da verificação.

Adaptabilidade. Nada é fixo. A equipe, depois de iterar, pode querer trocar os ICPs, aumentar o limite, reduzir. A métrica evolui junto com o contexto do time. Se os acoplamentos com classes do projeto pararam de ser um problema porque todo mundo já domina, a equipe pode remover esse item e adicionar outro que passe a ser mais relevante.

O experimento

Já há alguns anos, foi feito um experimento com mais de 20 pessoas, comparando refatoração convencional com refatoração guiada pelo CDD. O grupo que usou a métrica chegou a resultados mais uniformes e com complexidade menor -- independente do nível de experiência de quem refatorou.

O ponto mais interessante: pessoas menos experientes entregaram código menos complexo do que pessoas mais experientes que refatoraram sem a métrica. Quando existe um limite claro e uma forma objetiva de medir, a experiência deixa de ser o único fator determinante para a qualidade do resultado. Métodos bons fazem diferença para diminuir diferenças de experiência.

O que muda no dia a dia

Na prática, adotar o CDD significa que o code review ganha um critério a mais -- e um critério que não depende de quem está revisando. Se o arquivo passou do limite, precisa ser dividido. Se não passou, está dentro do aceitável.

Isso não substitui a análise qualitativa. Você ainda vai discutir naming, coesão, decisões de design. Mas a questão "esse arquivo está complexo demais?" deixa de ser uma discussão sem fim.

Para projetos novos, a sugestão é começar com um limite mais restritivo e ajustar conforme a equipe ganha experiência com a métrica. Para projetos existentes, o caminho é contabilizar primeiro e aplicar o limite apenas para código novo -- sem sair refatorando tudo de uma vez.

CDD dentro da Jornada Dev + Eficiente

CDD é um dos mais de 20 cursos da Jornada Dev + Eficiente. E não é um curso isolado: o controle de complexidade de código se conecta diretamente com os cursos de design de código, engenharia de requisitos e DDD. A complexidade do código que você escreve é consequência de como você refinou o requisito, modelou o domínio e organizou as responsabilidades.

A Jornada cobre de controle de complexidade de código até operação de sistemas em produção. Acesso vitalício, todas as perguntas respondidas pelos instrutores e comunidade no Discord.

Acesse https://deveficiente.com/oferta-10-por-cento para conhecer tudo que oferecemos.

O que acontece dentro do pipeline da sua aplicação LLM?

Alberto Luiz Souza — Mon, 23 Feb 2026 00:07:42 +0000

Disclaimer

Este texto foi inicialmente concebido pela IA Generativa em função da transcrição de um vídeo do canal de Daniel Romero (a pessoa que lidera nossa Especialização em Engenharia de IA). Se preferir acompanhar por vídeo, é só dar o play.

Introdução

Quando colocamos uma aplicação LLM em produção, entender o que está acontecendo internamente deixa de ser opcional. Qual prompt foi montado? Quantos tokens foram consumidos? Onde exatamente uma chamada falhou? LangSmith é uma plataforma de observabilidade do ecossistema LangChain projetada para responder essas perguntas em todos os estágios do ciclo de vida de uma aplicação LLM, da prototipagem à produção.

Um ponto relevante: apesar de fazer parte do ecossistema LangChain, o LangSmith funciona de maneira independente. Isso significa que você pode monitorar chains e agentes desenvolvidos com qualquer framework, incluindo DSPy, LlamaIndex, CrewAI, LangGraph e outros.

Configuração inicial

Para começar a utilizar o LangSmith, o processo é direto. Você cria uma conta em smith.langchain.com e, uma vez logado, tem acesso às principais seções da plataforma:

Projetos: coleções de rastreamento organizadas por aplicação
Annotations: para anotar e revisar execuções
Playground: ambiente para testes rápidos
Datasets: conjuntos de dados para avaliação de qualidade
Hub: funciona como um repositório compartilhado de prompts, ferramentas e chains, similar ao Docker Hub

A configuração no código também é simples. Você gera uma chave de API nas configurações da plataforma e define algumas variáveis de ambiente:

LANGCHAIN_TRACING_V2=true
LANGCHAIN_ENDPOINT=https://api.smith.langchain.com
LANGCHAIN_PROJECT=default
LANGSMITH_API_KEY=sua-chave-aqui

Com essas variáveis configuradas, toda a telemetria da sua aplicação é enviada automaticamente para o LangSmith. Se você já utiliza o LangChain, não precisa instalar nenhuma biblioteca adicional. O suporte ao LangSmith já vem embutido no pacote.

Exemplo 1: Monitorando uma chain do LangChain

No primeiro exemplo, temos uma chain simples que simula o comportamento de um RAG. Um system prompt orienta o assistente a responder com base apenas no contexto fornecido, e a pergunta do usuário recebe esse contexto como parâmetro.

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

prompt = ChatPromptTemplate.from_messages([
    ("system", "Você é um assistente útil. Responda a solicitação do usuário com base apenas no contexto fornecido."),
    ("user", "{question}\n\nContexto: {context}")
])

model = ChatOpenAI(model="gpt-4o-mini")
chain = prompt | model | StrOutputParser()

chain.invoke({"question": "Resuma o texto", "context": texto})

Ao executar essa chain, o LangSmith captura automaticamente todo o fluxo. No painel da plataforma, podemos ver:

RunnableSequence: um resumo completo da execução, com todo o input enviado ao LLM
ChatOpenAI: detalhes do modelo utilizado, parâmetros como temperatura (0.7 por padrão, quando não configurada explicitamente), provider e nome do modelo
Metadata: versão do LangChain, sistema operacional de origem, versão do Python e outros dados de contexto

Na lateral, o LangSmith exibe informações operacionais importantes: timestamp, latência da chamada, quantidade de tokens consumidos e um cálculo estimado de custo.

Rastreamento por etapas

Um dos recursos mais úteis é a visualização passo a passo de cada etapa da execução. Você consegue acompanhar desde a montagem do prompt com o ChatPromptTemplate, passando pelo envio para a OpenAI, até o retorno formatado pelo StrOutputParser. Cada etapa aparece separada, o que facilita a identificação de gargalos ou comportamentos inesperados.

Captura de erros

Para demonstrar a captura de erros, basta trocar o modelo para um que não existe, como "gpt-5". O LangSmith registra o erro e permite investigar exatamente em qual etapa a execução falhou. Nesse caso, o ChatPromptTemplate foi montado corretamente, mas a chamada para a OpenAI retornou um erro informando que o modelo não foi encontrado. A mensagem aparece de forma clara e direta no painel.

Exemplo 2: Monitorando aplicações sem LangChain

E se a sua aplicação LLM não utiliza o LangChain? O LangSmith também funciona nesse cenário, com algumas configurações adicionais.

No segundo exemplo, temos uma aplicação que usa diretamente o client da OpenAI, com uma função Retriever que simula a recuperação de contexto de um banco vetorial. Para habilitar o rastreamento, são necessários dois passos.

Passo 1: Wrapper do client OpenAI

O LangSmith oferece um wrapper para o client da OpenAI que habilita a coleta de métricas:

from langsmith.wrappers import wrap_openai
from openai import OpenAI

client = wrap_openai(OpenAI())

Com essa configuração, o LangSmith passa a rastrear as chamadas ao ChatOpenAI. Porém, como não há as abstrações do LangChain, o rastreamento mostra apenas a chamada ao LLM como um bloco único.

Passo 2: Rastreamento granular com @traceable

Para obter mais detalhes sobre o pipeline completo, o LangSmith fornece o decorator @traceable:

from langsmith import traceable

@traceable
def retriever(query):
    # Simula recuperação de contexto
    return "LangSmith serve para observabilidade"

@traceable
def rag(query):
    context = retriever(query)
    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[
            {"role": "system", "content": f"Responda com base no contexto: {context}"},
            {"role": "user", "content": query}
        ]
    )
    return response.choices[0].message.content

Com o @traceable aplicado nas funções, o LangSmith passa a rastrear cada etapa individualmente. No painel, a execução aparece hierarquicamente: a função RAG contém a chamada ao Retriever e, dentro dela, a chamada ao ChatOpenAI. A progressão fica visível: primeiro apenas o ChatOpenAI, depois a função RAG com o ChatOpenAI dentro, e por fim a cadeia completa com Retriever e ChatOpenAI.

Monitoramento e métricas

Em projetos com maior volume de execuções, a seção Monitor do LangSmith oferece gráficos com métricas operacionais:

Contagem de erros
Quantidade de chamadas ao LLM
Taxa de sucesso nas chamadas
Métricas de latência (p50, p95)
Tokens por segundo

Essas métricas ajudam a acompanhar a saúde da aplicação em produção e identificar degradações de performance ao longo do tempo.

Avaliação de qualidade com datasets

Além do monitoramento em tempo real, o LangSmith oferece recursos para avaliar a qualidade das respostas geradas pela sua aplicação. O fluxo funciona assim:

Você cria um dataset com pares de perguntas e respostas esperadas
Carrega o dataset na plataforma
Executa a avaliação contra diferentes versões da aplicação ou diferentes modelos

No exemplo apresentado, uma comparação entre GPT-4o Mini e GPT-3.5 Turbo mostra diferenças de verbosidade, consumo de tokens, latência e custo. É possível definir um baseline e comparar o desempenho de cada modelo contra ele. Na prática, isso permite implementar testes A/B entre versões da aplicação ou entre modelos diferentes, com dados concretos para embasar a decisão.

Conclusão

LangSmith resolve um problema prático de quem desenvolve aplicações LLM: saber o que está acontecendo dentro do pipeline. A configuração é simples, funciona com ou sem LangChain, e oferece desde rastreamento básico de chamadas até avaliação comparativa de modelos. Para quem está colocando aplicações LLM em produção, ter esse nível de visibilidade sobre o comportamento do sistema pode ser a diferença entre resolver um problema em minutos ou passar horas investigando logs.

Especialização em Engenharia de IA

Conheça a Especialização em Engenharia de IA Dev + Eficiente. O curso aborda RAG, Vector Search, Busca Híbrida, Agentes, Tools e muito mais, sempre com aulas 100% práticas e com exemplos reais.

Acesse https://deveficiente.com/especializacao-engenharia-ia .

Como expor sua API REST para um agente de código sem criar servidor MCP

Alberto Luiz Souza — Mon, 16 Feb 2026 11:48:37 +0000

Disclaimer

Este texto foi inicialmente concebido pela IA Generativa em função da transcrição de um vídeo do Dev Eficiente. Se preferir acompanhar por vídeo, é só dar o play.

Introdução

Servidores MCP se tornaram a maneira padronizada de expor APIs e funcionalidades para agentes de código como Claude Code, Cursor, Codex e outros. Mas existe uma discussão relevante no mercado sobre a complexidade que eles trazem. No fundo, em muitos casos, você está criando um wrapper da sua API que já existe para expor ela para o agente. E se existisse uma alternativa mais leve, que não exigisse criar um servidor novo em cima de algo que já funciona?

Neste post, mostro como usei a funcionalidade de Agent Skills do Claude Code para expor uma API REST existente para o agente, sem alterar nenhum código da API e sem construir um servidor MCP.

O contexto: MCP, complexidade e alternativas

Na Dev + Eficiente temos essa discussão internamente. Daniel Romero tem uma visão crítica de que o MCP nasceu inchado, trazendo complexidade desnecessária em cenários onde você já tem uma API funcionando. Do outro lado, existe o argumento de que o MCP é a maneira padrão de expor coisas para agentes, o que facilita a integração do ponto de vista de quem consome.

Existem alternativas mais leves surgindo, como o UTCP (Universal Tool Calling Protocol). Mas o caminho que explorei aqui foi diferente: usar a funcionalidade de Skills do Claude Code como ponte entre o agente e a API REST existente.

O que são Agent Skills

Agent Skills é uma funcionalidade do Claude Code que permite carregar instruções e scripts localmente. A própria Anthropic posiciona as Skills como algo mais local, que direciona o agente e pode inclusive orientar o consumo de serviços expostos via MCP ou qualquer outra fonte.

A estrutura é simples. Dentro da pasta .claude/skills/, você cria uma pasta com a sua skill contendo:

Um arquivo skill.md com nome, descrição e documentação dos endpoints
Scripts que o agente pode executar para consumir a API

Se você já criou uma tool para integrar com um agente, vai reconhecer a semelhança: a skill tem um nome e uma descrição que o LLM carrega no contexto. Quando você faz um pedido, o agente verifica se existe uma skill que pode ajudar a resolver e, se houver, carrega e executa.

O experimento: Contrate um Dev Eficiente

Para testar essa abordagem, usei a plataforma Contrate um Dev Eficiente, que conecta o mercado com as pessoas que estudam conosco. O objetivo era expor o módulo de analytics da plataforma para o Claude Code sem mexer em nada no código existente.

Estrutura do arquivo de skill

O arquivo skill.md segue um formato sugerido pela Anthropic:

Nome: analytics-contrate-dev-eficiente
Descrição: Fornece acesso aos endpoints de analytics...

Autenticação:
- Token deve ser configurado
- Header de autenticação: Bearer {token}

Endpoints disponíveis:
- /api/analytics - Análise geral (parâmetros: período)
- /api/analytics/empresas - Contatos de empresas
- /api/analytics/candidatos - Candidatos com currículo
- /api/analytics/ranking - Rankings de vagas e empresas

Além da documentação dos endpoints, o arquivo referencia um bash script que o agente pode executar para consumir a API.

O bash script

O script foi gerado pelo próprio Claude Code. Subi o agente no projeto do Contrate um Dev Eficiente, passei o link da documentação de Agent Skills da Anthropic, pedi para ele ler os endpoints do módulo de analytics e gerar tanto o arquivo de skill quanto o script de consumo autenticado.

#!/bin/bash
# Verifica token, faz a requisição autenticada e retorna o resultado

O LLM carrega a skill, vê que existe um script referenciado, executa o script passando os parâmetros necessários (que estão documentados no arquivo de skill), recebe a resposta da API e trabalha em cima disso.

Na prática: como funcionou

Consultas simples

Ao pedir "quero listar as empresas cadastradas", o Claude Code identificou a skill de analytics, carregou, verificou o token de autenticação e executou a consulta. Quando passei um token expirado por engano, ele recebeu 403, tentou outro endpoint, recebeu 403 novamente e me pediu um novo token. Com o token correto, retornou os dados reais da plataforma.

Análise composta

Ao pedir "quero uma análise geral", o agente decidiu por conta própria passar o parâmetro de período como seis meses. Consultou o endpoint, recebeu os dados e construiu uma análise com funil de conversão: empresas cadastradas, empresas com vagas, vagas com candidaturas, taxas de conversão e insights sobre a atividade da plataforma.

Cruzamento entre endpoints

Essa foi a parte mais interessante. Ao pedir "quero saber os nomes de pessoas que têm currículo e o perfil tech delas", o agente precisou combinar informações de endpoints diferentes. Primeiro consultou o endpoint que retorna currículos com perfil tech, depois identificou que não tinha os nomes, foi buscar no endpoint de candidatos com currículo e cruzou os dados.

A conexão com o nível 3 de maturidade REST

Esse comportamento lembrou o modelo de maturidade REST de Richardson. No nível 3, o conceito de HATEOAS (Hypermedia as the Engine of Application State) propõe que o protocolo seja autodocumentado, com links que guiam o cliente sobre o que fazer em seguida.

Na prática, poucos clientes HTTP implementam isso de verdade. Os clientes que construímos nas empresas são determinísticos: fazem chamadas pré-definidas, não seguem links dinamicamente. O navegador é o que mais se aproxima desse nível, por respeitar a semântica dos status codes e executar código que o servidor envia.

Mas quando um LLM consome uma API documentada via skill, algo parecido acontece. Ele consulta um endpoint, percebe que a informação que precisa não está ali, identifica outro endpoint que pode complementar e faz a segunda chamada. Não é exatamente HATEOAS, mas é uma forma de navegação dinâmica entre endpoints que até então era muito difícil de implementar em clientes tradicionais.

Uma pesquisa que fiz usando Deep Research do Claude encontrou um texto da Nord KPIs citando um arquiteto da Microsoft que argumenta que HATEOAS "chegou muito antes do que era possível, mas talvez agora seja mais possível". Concordo com essa visão.

Vantagens dessa abordagem

Nenhuma alteração no código existente: a API continua funcionando como antes
Sem servidor novo para manter: não é mais uma coisa para cuidar
Localidade: a skill é local, você expõe só o que quer, da partezinha que precisa
Flexibilidade: você pode editar o arquivo de skill para o seu contexto, limitar endpoints, adicionar instruções específicas
Replicável para qualquer API REST: qualquer endpoint HTTP autenticado pode ser exposto dessa maneira

Aplicações possíveis

A mesma lógica se aplica a outros cenários. Se você tem um serviço de logs, métricas ou observabilidade com API HTTP, pode gerar um arquivo de skill e acessar tudo via terminal com um agente no momento de troubleshooting. Se quer consumir a API pública do GitHub sem instalar o servidor MCP do GitHub, pode criar uma skill que documente os endpoints que você precisa e um script de acesso autenticado.

O repositório público de skills do Claude Code no GitHub já tem exemplos homologados pela Anthropic, como manipulação de PDF com scripts em Python, branding e outros. Servem como referência para construir as suas.

Conclusão

Agent Skills do Claude Code oferecem uma alternativa pragmática para expor APIs REST para agentes de código. Não é uma substituição do MCP -- são coisas diferentes, para contextos diferentes. O MCP continua sendo o padrão para integração ampla e distribuída. Mas quando o que você precisa é algo local, leve, sem adicionar mais uma camada de infraestrutura sobre algo que já funciona, as Skills resolvem bem.

O ponto central é: se você tem uma API REST funcionando, não precisa necessariamente criar um servidor MCP por cima dela. Um arquivo Markdown descrevendo os endpoints e um script de acesso podem ser suficientes para que o agente faça o trabalho.

Dev + Eficiente

Evidence Briefing – Monólito vs Microsserviços

Alberto Luiz Souza — Mon, 09 Feb 2026 09:35:17 +0000

Monólito ou microsserviços: por onde começar?

Decidir a arquitetura inicial de um sistema de software é uma das escolhas mais consequentes — e mais debatidas — no desenvolvimento de produtos digitais. Monólitos prometem simplicidade e velocidade; microsserviços prometem escala e autonomia. Mas em que contexto cada caminho faz mais sentido? Para ir além de opiniões e modismos, conduzimos uma revisão rápida de 23 estudos acadêmicos e aplicados, sintetizando evidências sobre vantagens, desvantagens e critérios de decisão de cada abordagem. O que encontramos reforça uma ideia central: não existe arquitetura universalmente superior — existe a arquitetura mais adequada ao problema, à equipe e ao momento do produto. Neste post, compartilhamos os principais achados e os trade-offs que toda equipe deveria considerar antes de tomar essa decisão.

1.Contexto

A consolidação da Internet como principal meio de oferta de serviços digitais impulsionou o desenvolvimento de sistemas distribuídos, capazes de atender grandes volumes de usuários, operar continuamente e evoluir de forma incremental. Nesse contexto, a arquitetura de software passou a exercer papel central na sustentação de atributos como escalabilidade, confiabilidade, desempenho e capacidade de evolução, tornando as decisões arquiteturais elementos estruturantes no ciclo de vida dos sistemas (BASS; CLEMENTS; KAZMAN, 2013).

A decisão entre iniciar um sistema como monólito ou como microsserviços constitui uma das escolhas arquiteturais mais críticas no desenvolvimento de software, podendo influenciar atributos não funcionais relevantes, como escalabilidade, confiabilidade e custo de manutenção ao longo do tempo. Arquiteturas monolíticas são tradicionalmente associadas à simplicidade estrutural e à centralização do controle, enquanto arquiteturas de microsserviços propõem a decomposição do sistema em serviços pequenos e implantáveis de forma independente, frequentemente alinhados a capacidades de negócio (LEWIS; FOWLER, 2014; DRAGONI et al., 2017).

Embora o debate sobre microsserviços tenha se intensificado tanto na indústria quanto na academia, estudos apontam que os resultados associados a esse estilo arquitetural variam significativamente conforme o contexto de aplicação. Aspectos como tamanho do sistema, organização das equipes, práticas de desenvolvimento e requisitos não funcionais influenciam de forma decisiva a adequação de cada abordagem arquitetural (DI FRANCESCO; LAGO; MALAVOLTA, 2019). Ainda assim, observa-se uma lacuna de entendimento prático e acadêmico sobre como iniciar sistemas de software, especialmente nos estágios iniciais, quando decisões arquiteturais precisam ser tomadas diante de incertezas quanto à evolução futura do produto e da organização.

Essa lacuna se manifesta na dificuldade de estabelecer critérios claros para a escolha da arquitetura inicial, bem como na ausência de consensos consolidados na literatura sobre quais fatores devem ser priorizados nesse momento. Como resultado, arquiteturas monolíticas e de microsserviços são frequentemente discutidas de forma comparativa, mas sem diretrizes suficientemente explícitas sobre em quais contextos cada alternativa tende a ser mais adequada (DI FRANCESCO et al., 2018; TAIBI; LENARDUZZI; PAHL, 2017).

Diante desse contexto, este trabalho tem como objetivo analisar e sintetizar evidências existentes sobre arquiteturas monolíticas e de microsserviços, buscando responder às seguintes questões:

Quais são as vantagens e desvantagens de optar por uma arquitetura monolítica e por uma arquitetura de microsserviços?
Quais requisitos não funcionais influenciam decisões relacionadas às arquiteturas monolítica e de microsserviços?
Em quais contextos é mais adequado selecionar uma arquitetura monolítica ou uma arquitetura de microsserviços?

2. Método

Para a realização desta pesquisa foi utilizado a metodologia de Revisão Rápida. Uma revisão rápida é uma forma estruturada e transparente de reunir e resumir evidências sobre uma pergunta específica para apoiar decisões (CARTAXO et al. 2018). Isso quer dizer que, em vez de depender só de opinião ou experiências isoladas, a equipe segue um processo organizado para identificar o que já foi estudado na literatura acadêmica e transformar esses achados em insights acionáveis.

2.1 Condução da pesquisa

Inicialmente, foi realizada uma busca manual no Google Scholar para gerar conhecimento da área para os pesquisadores e aperfeiçoar as questões de pesquisa. Nesta etapa o objeto era entender as pesquisas da área e sair com background suficiente para gerar uma boa string de busca. Essa etapa resultou na seleção de 3 estudos, os quais compuseram o chamado Golden Set. Esses trabalhos foram utilizados como base de referência para validar a estratégia de busca automatizada, garantindo que os principais estudos do domínio fossem recuperados.

Em seguida, foi conduzida uma busca automatizada no IEEE, utilizando uma string de busca definida a partir dos termos-chave identificados no Golden Set. Essa busca retornou um total de 61 estudos

Na etapa seguinte, foi realizada a leitura dos resumos dos artigos encontrados, com aplicação dos critérios de inclusão e exclusão definidos no protocolo da revisão. Como resultado dessa triagem inicial, 13 estudos foram considerados aptos para a próxima fase.

Em seguida, esses estudos passaram por uma leitura completa, permitindo uma avaliação ao objetivo da pesquisa. Ao final dessa etapa, 6 estudos atenderam os critérios estabelecidos e foram selecionados a partir da busca automatizada.

Por fim, foi realizada uma busca manual no Google Scholar por artigos que citaram os 6 estudos da etapa anterior, na qual foram selecionados 14 estudos adicionais considerados relevantes para o escopo da pesquisa. Essa etapa teve como objetivo complementar a busca automatizada, garantindo a inclusão de trabalhos potencialmente relevantes que não foram recuperados pelas strings de busca definidas ou pela base selecionada. Totalizando 23 estudos identificados. Para mais informações sobre o processo, como string de busca, críterios de inclusão e exclusão, analisar o relatório de evidências.

3 Resultados

A análise dos estudos selecionados permitiu identificar um conjunto de achados relacionados à adoção da arquitetura monolítica, organizados segundo três dimensões principais: organizacional, arquitetural e relacionada às pessoas. Os resultados foram extraídos de estudos aplicados e revisões, conforme indicado nos identificadores associados a cada aspecto.

3.1 Monolito

3.1.1 Dimensão Organizacional

No que se refere à dimensão organizacional, os estudos indicaram que a arquitetura monolítica apresentou vantagens em contextos caracterizados por equipes menores e projetos de pequeno porte (GRAVANIS; KAKARONTZAS; GEROGIANNIS, 2022; VELEPUCHA; FLORES, 2023). Esses cenários foram associados a uma maior simplicidade de coordenação e menor sobrecarga organizacional, favorecendo a adoção do monolito em fases iniciais de desenvolvimento. Por outro lado, os resultados também evidenciaram que mudanças estruturais em sistemas monolíticos estiveram associadas a custos elevados, especialmente à medida que o sistema evoluiu e se tornou mais complexo (VELEPUCHA; FLORES, 2023). Esses custos foram relacionados à necessidade de modificações amplas no código e à dependência entre componentes, dificultando a adaptação organizacional ao longo do tempo.

3.1.2 Dimensão Arquitetural

Na dimensão arquitetural, os achados revelaram tanto vantagens quanto desvantagens associadas à arquitetura monolítica. Entre as vantagens, destacaram-se o desenvolvimento inicial mais simples, a centralização do código-fonte e a maior facilidade para atividades de depuração (VELEPUCHA; FLORES, 2023; MENARD, 2020; BAŠKARADA; NGUYEN; KORONIOS, 2020; CHATURVEDI et al., 2024 ). Os estudos também indicaram que os testes de construção simples, como testes de unidade, foram mais facilmente implementados nesse tipo de arquitetura, em comparação com arquiteturas distribuídas (MENARD, 2020; CHATURVEDI et al., 2024; VELEPUCHA; FLORES, 2021).

Entretanto, os resultados apontaram um conjunto consistente de desvantagens. A complexidade do sistema foi reportada como um problema recorrente, especialmente em aplicações de médio e grande porte (GRAVANIS; KAKARONTZAS; GEROGIANNIS, 2022; VELEPUCHA; FLORES, 2023; VELEPUCHA; FLORES, 2021). Questões relacionadas à escalabilidade foram frequentemente associadas à estrutura monolítica, limitando a capacidade de evolução independente dos componentes (GRAVANIS; KAKARONTZAS; GEROGIANNIS, 2022; MENARD, 2020; BAŠKARADA; NGUYEN; KORONIOS, 2020; SEEDAT; ABBAS; AHMAD, 2023). Além disso, os estudos relataram dificuldades relacionadas à manutenibilidade, alto acoplamento entre módulos e limitações na tolerância a falhas, uma vez que falhas em partes específicas do sistema puderam comprometer o funcionamento da aplicação como um todo (GRAVANIS; KAKARONTZAS; GEROGIANNIS, 2022; SEEDAT; ABBAS; AHMAD, 2023; VELEPUCHA; FLORES, 2021; CHATURVEDI et al., 2024). Outro achado relevante foi a dificuldade na realização de testes end-to-end, atribuída à dependência entre os componentes e à necessidade de execução integrada do sistema (VELEPUCHA; FLORES, 2023; BAŠKARADA; NGUYEN; KORONIOS, 2020; SEEDAT; ABBAS; AHMAD, 2023).

3.1.3 Dimensão Relacionada às Pessoas

No que diz respeito à dimensão relacionada às pessoas, o estudo indica que a adoção e manutenção de sistemas monolíticos estiveram associadas a desenvolvimento com conhecimento técnico da arquitetura, tornando a necessidade um profissional não tão especializado (MENARD, 2020).

3.2 Microserviços

3.2.1 Dimensão Organizacional

Na dimensão organizacional, a entrega mais rápida de software foi reportada como uma vantagem em dois estudos, indicando que arquiteturas de microsserviços estiveram associadas à redução do tempo de entrega em determinados contextos (MENARD, 2020; KÖNÖNEN, 2018). Em contraste, a percepção de que essa arquitetura não representou uma resposta para todos os problemas organizacionais foi identificada em um estudo (MENARD, 2020), assim como a constatação de que sua adoção foi ineficaz para software de pequeno porte, também reportada em um estudo (MENARD, 2020).

Problemas relacionados ao gerenciamento dos serviços foram reportados em dois estudos (KRUG; CHANIN; SALES, 2024; CHATURVEDI et al., 2024), evidenciando desafios associados à coordenação, monitoramento e operação de múltiplos serviços. Além disso, a falta de autonomia para deploys foi identificada em um estudo (KRUG; CHANIN; SALES, 2024), indicando limitações organizacionais em contextos específicos. Por outro lado, a autonomia de equipes foi apontada como uma vantagem em três estudos (MENARD, 2020, KÖNÖNEN, 2018; CHATURVEDI et al., 2024), sugerindo que a descentralização promovida pelos microsserviços favoreceu a independência das equipes de desenvolvimento em determinados cenários.

3.2.2 Dimensão Arquitetural

No âmbito arquitetural, a escalabilidade foi o aspecto mais frequentemente reportado, sendo identificada como vantagem em dezesseis estudos (KALSKE; MÄKITALO; MIKKONEN, 2017; GRAVANIS; KAKARONTZAS; GEROGIANNIS, 2022; NOGUEIRA et al., 2024; VELEPUCHA; FLORES, 2023; AUER et al., 2021; HMUE; PHYU; PAING, 2024; MENARD, 2020; KÖNÖNEN, 2018; HONCHARUK, 2025; BAŠKARADA; NGUYEN; KORONIOS, 2020; CHATURVEDI et al., 2024; SEEDAT; ABBAS; AHMAD, 2023; VELEPUCHA; FLORES, 2021), o que indica forte recorrência desse tema na literatura analisada. A diversidade de stacks para programar foi mencionada como vantagem em um estudo (BAŠKARADA; NGUYEN; KORONIOS, 2020), assim como a redução de código redundante, também reportada em um estudo (KÖNÖNEN, 2018). A flexibilidade na construção dos módulos foi identificada como vantagem em um estudo (KALSKE; MÄKITALO; MIKKONEN, 2017), associando a arquitetura de microsserviços à possibilidade de evolução independente dos componentes.

Por outro lado, a ambiguidade na definição e compreensão dos microsserviços foi reportada como desvantagem em um estudo(MENARD, 2020), indicando dificuldades conceituais ou de escopo. Questões relacionadas à tolerância a falhas foram identificadas como vantagem em quatro estudos (KÖNÖNEN, 2018; CHATURVEDI et al., 2024; SEEDAT; ABBAS; AHMAD, 2023; VELEPUCHA; FLORES, 2021), sugerindo que a arquitetura favoreceu o isolamento de falhas em determinados contextos. Em contrapartida, dificuldades relacionadas à realização de testes foram reportadas em três estudos (KÖNÖNEN, 2018; KRUG; CHANIN; SALES, 2024; AUER et al., 2021), indicando que a testabilidade representou um desafio recorrente em ambientes baseados em microsserviços.

3.2.3 Dimensão Relacionada às Pessoas

No que se refere à dimensão relacionada às pessoas, a falta de conhecimento técnico da equipe foi identificada como desvantagem em três estudos (MENARD, 2020; KÖNÖNEN, 2018; KRUG; CHANIN; SALES, 2024), indicando que a adoção de microsserviços esteve associada à necessidade de competências técnicas mais avançadas, tanto no desenvolvimento quanto na operação dos sistemas.

3.3 Requisitos Não Funcionais em Arquiteturas de Microsserviços

A análise dos estudos selecionados permitiu identificar um conjunto de requisitos não funcionais associados à adoção de arquiteturas baseadas em microsserviços. Esses requisitos foram extraídos de estudos aplicados e revisões, sendo classificados de acordo com sua recorrência na literatura analisada.

A escalabilidade foi o requisito não funcional mais frequentemente reportado, estando presente em 16 estudos (KALSKE; MÄKITALO; MIKKONEN, 2017; GRAVANIS; KAKARONTZAS; GEROGIANNIS, 2022; NOGUEIRA et al., 2024; VELEPUCHA; FLORES, 2023; AUER et al., 2021; HMUE; PHYU; PAING, 2024; MENARD, 2020; KÖNÖNEN, 2018; HONCHARUK, 2025; BAŠKARADA; NGUYEN; KORONIOS, 2020; CHATURVEDI et al., 2024; SEEDAT; ABBAS; AHMAD, 2023; VELEPUCHA; FLORES, 2021), o que indica forte consenso na literatura quanto à capacidade dessa arquitetura de suportar crescimento e variações de carga por meio da decomposição e escalonamento independente dos serviços. A orquestração foi identificada em dois estudos (HMUE; PHYU; PAING, 2024; BAŠKARADA; NGUYEN; KORONIOS, 2020), refletindo a necessidade de mecanismos específicos para coordenação e gerenciamento dos serviços distribuídos.

A disponibilidade foi reportada em um estudo (VELEPUCHA; FLORES, 2023), enquanto a tolerância a falhas foi identificada em quatro estudos (KÖNÖNEN, 2018; CHATURVEDI et al., 2024; SEEDAT; ABBAS; AHMAD, 2023; VELEPUCHA; FLORES, 2021 ), indicando que o isolamento de serviços contribuiu para a resiliência do sistema em determinados contextos. O reuso foi associado aos microsserviços em cinco estudos (NOGUEIRA et al., 2024; VELEPUCHA; FLORES, 2023; CARVALHO et al., 2019; HONCHARUK, 2025; GOUIGOUX; TAMZALIT, 2017), sugerindo que a modularização favoreceu a reutilização de componentes e funcionalidades. A segurança distribuída foi mencionada em dois estudos (HMUE; PHYU; PAING, 2024; VELEPUCHA; FLORES, 2021), evidenciando preocupações relacionadas à proteção de dados, autenticação e autorização em ambientes distribuídos.

O requisito de performance foi reportado em sete estudos (KALSKE; MÄKITALO; MIKKONEN, 2017; GRAVANIS; KAKARONTZAS; GEROGIANNIS, 2022; CARVALHO et al., 2019; BAŠKARADA; NGUYEN; KORONIOS, 2020; VELEPUCHA; FLORES, 2021; GOUIGOUX; TAMZALIT, 2017; BERRY et al., 2024), indicando que o impacto no desempenho foi um aspecto recorrente nas avaliações de microsserviços, tanto em termos de benefícios quanto de desafios decorrentes da comunicação entre serviços.

A refatoração foi reportada em dois estudos (KALSKE; MÄKITALO; MIKKONEN, 2017; GRAVANIS; KAKARONTZAS; GEROGIANNIS, 2022), sugerindo a necessidade de reestruturação do código durante a adoção ou evolução da arquitetura. O deploy contínuo (CI/CD) foi identificado em sete estudos (GRAVANIS; KAKARONTZAS; GEROGIANNIS, 2022; NOGUEIRA et al., 2024; VELEPUCHA; FLORES, 2023; AUER et al., 2021; HONCHARUK, 2025; BAŠKARADA; NGUYEN; KORONIOS, 2020; CHATURVEDI et al., 2024; GOUIGOUX; TAMZALIT, 2017), indicando forte associação entre microsserviços e práticas de automação de entrega. A manutenibilidade foi reportada em cinco estudos (NOGUEIRA et al., 2024; AUER et al., 2021; CHATURVEDI et al., 2024; SEEDAT; ABBAS; AHMAD, 2023; FRITZSCH et al., 2019), refletindo benefícios e desafios relacionados à evolução do sistema ao longo do tempo.

Aspectos relacionados às pessoas e à agilidade foram identificados em nove estudos (GRAVANIS; KAKARONTZAS; GEROGIANNIS, 2022; NOGUEIRA et al., 2024; AUER et al., 2021; MENARD, 2020; KÖNÖNEN, 2018; HONCHARUK, 2025; CHATURVEDI et al., 2024; SEEDAT; ABBAS; AHMAD, 2023; VELEPUCHA; FLORES, 2021), indicando que a arquitetura de microsserviços está frequentemente associada a mudanças organizacionais, maior autonomia de equipes e necessidade de adaptação de processos. Por fim, testes foram reportados em quatro estudos (VELEPUCHA; FLORES, 2023; HMUE; PHYU; PAING, 2024; BAŠKARADA; NGUYEN; KORONIOS, 2020; SEEDAT; ABBAS; AHMAD, 2023), evidenciando desafios específicos na validação de sistemas distribuídos, especialmente no que se refere a testes de integração e ponta a ponta.

3.4 Síntese dos Critérios para Seleção entre Arquitetura Monolítica e Microsserviços

A análise dos estudos selecionados permitiu sintetizar um conjunto de critérios decisórios associados à escolha entre arquitetura monolítica e arquitetura de microsserviços, considerando o tipo de problema a ser resolvido, o contexto organizacional e o estágio de maturidade da empresa. Os resultados indicaram que a decisão arquitetural esteve diretamente relacionada às características do negócio, da equipe e dos objetivos do sistema.

No caso da arquitetura monolítica, os estudos indicaram que sua adoção esteve associada a cenários nos quais o objetivo principal foi a validação de ideias, o desenvolvimento de projetos pequenos e a redução do tempo de entrada no mercado. Esses contextos foram caracterizados por equipes menores, estrutura técnica mais simples e custos iniciais reduzidos. A literatura analisada apontou que tais características tornaram a arquitetura monolítica particularmente adequada para startups e organizações em estágio inicial, especialmente quando houve necessidade de construção rápida de produtos mínimos viáveis (MVPs) com baixo investimento inicial.

Em contraste, a arquitetura de microsserviços foi associada a contextos nos quais requisitos como segurança, testes contínuos, crescimento do negócio, resiliência, observabilidade e escalabilidade organizacional e técnica foram mais relevantes. Os estudos indicaram que essa arquitetura foi mais frequentemente adotada por empresas consolidadas, caracterizadas por operações em larga escala, múltiplos domínios de negócio e disponibilidade de investimento para sustentar a complexidade arquitetural. Nesses cenários, a adoção de microsserviços esteve associada a custos mais elevados, tanto em termos técnicos quanto organizacionais, compensados pela capacidade de evolução independente dos serviços.

Os resultados também indicaram que, independentemente da arquitetura adotada, a decisão impactou a organização como um todo, exigindo alinhamento entre estrutura organizacional, processos de desenvolvimento e capacidades técnicas. A literatura destacou que a arquitetura selecionada demandou dinâmicas organizacionais específicas para que seus benefícios fossem efetivamente alcançados, incluindo adequações na forma de trabalho das equipes, nos processos de entrega e na governança técnica.

De modo geral, a síntese dos estudos analisados indicou que a escolha entre arquitetura monolítica e microsserviços não esteve associada exclusivamente a critérios técnicos, mas resultou de uma combinação de fatores organizacionais, estratégicos e humanos, os quais influenciaram diretamente a sustentabilidade da arquitetura ao longo do tempo.

4. Discussão

Os resultados deste briefing reforçam que a escolha entre monólito e microsserviços é, sobretudo, dependente de contexto e do “momento” do produto. No conjunto analisado (23 estudos), o monólito aparece mais associado a cenários de menor complexidade organizacional e técnica, com equipes menores e projetos pequenos, destacando benefícios como simplicidade de desenvolvimento, centralização do código, facilidade de depuração e testes mais simples quando comparados a cenários distribuídos.

Ao mesmo tempo, a literatura indica que, à medida que o sistema cresce, tendem a emergir limitações ligadas a complexidade, acoplamento, manutenaibilidade e escalabilidade, além do custo de mudanças que podem exigir reconstrução/redeploy de toda a aplicação.

Já os microsserviços são descritos principalmente como resposta a demandas de escalabilidade e evolução independente (desenvolver, implantar e escalar serviços separadamente), com benefícios adicionais frequentemente citados como isolamento de falhas e flexibilidade evolutiva.

Contudo, essa arquitetura introduz um custo de coordenação e operação: surgem desafios como definir e delimitar serviços (onde “cortar”), testes mais difíceis, gerência/observabilidade e maior dependência de expertise técnica para lidar com a complexidade distribuída.

Do ponto de vista de requisitos não funcionais e critérios de decisão, há uma diferença importante: para microsserviços, a síntese destaca concentração em escalabilidade e em capacidades organizacionais ligadas a entrega (agilidade, CI/CD e governança de deploy), enquanto no monólito aparecem com mais ênfase testes, arquitetura simples, time-to-market, custo, deploy fácil e depuração como critérios recorrentes.

Esse contraste sugere que “iniciar” com microsserviços tende a fazer mais sentido quando o problema já nasce com demandas claras de escala/resiliência e trabalho paralelo entre equipes, enquanto o monólito tende a favorecer fases de maior incerteza, validação (MVP) e foco em velocidade/custo.

Por fim, há um alerta metodológico relevante: a evidência utilizada é heterogênea e o relatório-base não inclui avaliação detalhada de qualidade metodológica por artigo; portanto, este briefing deve ser usado como apoio à decisão, não como regra universal.

Além disso, a própria revisão foi conduzida como revisão rápida, isto é, um processo estruturado e transparente para sintetizar evidências visando apoiar decisões, o que reforça a necessidade de interpretar os achados com pragmatismo e cautela. Vale salientar também que devido a escolha desse método, é possível que existam outros artigos que não foram capturados na busca. Para minimizar o impacto, foi realizado uma busca manual nas citações.

5. Conclusão

Com base na síntese dos 23 estudos, a decisão entre monólito e microsserviços deve ser orientada por (i) tipo de problema, (ii) requisitos não funcionais, (iii) contexto organizacional e (iv) Capacidade técnica da equipe, evitando adoção por “moda” e priorizando a capacidade real de operação e entrega.

Em estágios iniciais e contextos com equipes menores, alta incerteza e prioridade em simplicidade, velocidade e custo, o monólito tende a ser uma alternativa mais adequada, com ganhos em desenvolvimento, testes e depuração, ainda que possa exigir revisão arquitetural conforme o sistema cresce.

Quando o sistema já enfrenta (ou claramente enfrentará) demandas fortes de escalabilidade/resiliência, necessidade de deploy independente e trabalho paralelo entre equipes, os microsserviços tendem a ser mais adequados, desde que a organização consiga sustentar a complexidade adicional (delimitação de serviços, testes distribuídos e operação/observabilidade).

Por se tratar de uma revisão rápida e por a evidência ser heterogênea, recomenda-se usar este briefing como base para uma decisão consciente, complementando com análise do contexto local (produto, equipe e operação) e registrando explicitamente os trade-offs assumidos

Apêndice A – Estudos analisados (títulos e IDs)

Lista do relatório-base:

Referências

BASS, Len; CLEMENTS, Paul; KAZMAN, Rick. Software Architecture in Practice. 3. ed. Boston: Addison-Wesley, 2013.

DI FRANCESCO, Paolo; LAGO, Patricia; MALAVOLTA, Ivano. Architecting with microservices: A systematic mapping study. Journal of Systems and Software, v. 150, p. 77–97, 2019.

DI FRANCESCO, Paolo et al. Migrating towards microservices: An industrial survey. In: Proceedings of the IEEE International Conference on Software Architecture (ICSA). 2018.

DRAGONI, Nicola et al. Microservices: Yesterday, today, and tomorrow. In: Present and Ulterior Software Engineering. Cham: Springer, 2017. p. 195–216.

LEWIS, James; FOWLER, Martin. Microservices. 2014. Disponível em: https://martinfowler.com/articles/microservices.html.

TAIBI, Davide; LENARDUZZI, Valentina; PAHL, Claus. Processes, motivations, and issues for migrating to microservices architectures: An empirical investigation. IEEE Cloud Computing, v. 4, n. 5, p. 22–32, 2017.

Cartaxo, B.; Pinto, G.; Soares, S. The Role of Rapid Reviews in Supporting Decision-Making in Software Engineering Practice. In: Proceedings of the 22nd International Conference on Evaluation and Assessment in Software Engineering (EASE’18). 2018. p. 24–34. DOI: 10.1145/3210459.3210462.

GRAVANIS, Dimitrios; KAKARONTZAS, George; GEROGIANNIS, Vassilis. You don’t need a Microservices Architecture (yet): Monoliths may do the trick. In: Proceedings of the 2021 European Symposium on Software Engineering (ESSE ’21). New York, NY, EUA: ACM, 2022. p. 39–44. DOI: 10.1145/3501774.3501780.

VELEPUCHA, Victor; FLORES, Pamela. A survey on microservices architecture: Principles, patterns and migration challenges. IEEE Access, v. 11, p. 88339–88358, 2023.

VELEPUCHA, Victor; FLORES, Pamela. Monoliths to microservices: Migration problems and challenges: A SMS. In: 2021 Second International Conference on Information Systems and Software Technologies (ICI2ST). IEEE, 2021.

MENARD, Niklas. Decision criteria between microservice and monolithic architecture. 2020.

BAŠKARADA, Saša; NGUYEN, Vivian; KORONIOS, Andy. Microservices architecture: opportunities and practical challenges. Journal of Computer Information Systems, 2020.

CHATURVEDI, Mayank et al. From monolith to microservices: A systematic literature review. In: 2024 IEEE 3rd International Conference on Data, Decision and Systems (ICDDS). IEEE, 2024. p. 1–6.

KALSKE, Miika; MÄKITALO, Niko; MIKKONEN, Tommi. Challenges when moving from monolith to microservice architecture. Cham: Springer International Publishing, 2017. p. 32–47.

NOGUEIRA, Vinicius L. et al. Insights on microservice architecture through the eyes of industry practitioners. In: 2024 IEEE International Conference on Software Maintenance and Evolution (ICSME). IEEE, 2024. p. 765–777.

AUER, Florian et al. From monolithic systems to microservices: An assessment framework. Information and Software Technology, v. 137, p. 106600, 2021.

CARVALHO, Luiz et al. Analysis of the criteria adopted in industry to extract microservices. In: 2019 IEEE/ACM CESI & SER&IP. IEEE, 2019. p. 22–29.

HMUE, Khant; PHYU, Myat Pwint; PAING, Aye Myat Myat. Microservices vs monolith: A comparative analysis and problem-solving approach in web development area. In: 2024 IEEE ICAIT. IEEE, 2024. p. 1–5.

BLINOWSKI, Grzegorz; OJDOWSKA, Anna; PRZYBYŁEK, Adam. Monolithic vs. microservice architecture: A performance and scalability evaluation. IEEE Access, v. 10, p. 20357–20374, 2022.

MENDONÇA, Nabor C. et al. The monolith strikes back: Why Istio migrated from microservices to a monolithic architecture. IEEE Software, v. 38, n. 5, p. 17–22, 2021.

KÖNÖNEN, Heini. Microservices: Considerations before implementation. 2018.

HONCHARUK, Vitalii. Do you really need microservices architecture? 2025.

KRUG, Daniel dos Santos; CHANIN, Rafael; SALES, Afonso. Exploring the pros and cons of monolithic applications versus microservices. In: ICEIS 2024 – Volume 2. 2024.

WANG, Yingying; KADIYALA, Harshavardhan; RUBIN, Julia. Promises and challenges of microservices: An exploratory study. Empirical Software Engineering, v. 26, n. 4, p. 63, 2021.

DI FRANCESCO, Paolo; LAGO, Patricia; MALAVOLTA, Ivano. Migrating towards microservice architectures: An industrial survey. In: 2018 IEEE ICSA. IEEE, 2018. p. 29–2909.

SEEDAT, Momil; ABBAS, Qaisar; AHMAD, Nadeem. Systematic mapping of monolithic applications to microservices architecture. arXiv:2309.03796, 2023.

FRITZSCH, Jonas et al. Microservices migration in industry: Intentions, strategies, and challenges. In: 2019 IEEE ICSME. IEEE, 2019. p. 481–490.

GOUIGOUX, Jean-Philippe; TAMZALIT, Dalila. From monolith to microservices: Lessons learned on an industrial migration to a web oriented architecture. In: 2017 IEEE ICSAW. IEEE, 2017. p. 62–65.

BERRY, Vincent et al. Is it worth migrating a monolith to microservices? An experience report on performance, availability and energy usage. In: 2024 IEEE ICWS. IEEE, 2024. p. 944–954.

HABIB, Pamungkas Imam et al. Architecture migration from monolithic to microservices: Developing readiness criteria. IEEE Access, v. 12, p. 194630–194645, 2024.

CHATURVEDI, Mayank et al. From Monolith to Microservices: A Systematic Literature Survey. In: 2024 IEEE 3rd International Conference on Data, Decision and Systems (ICDDS). IEEE, 2024. p. 1-6.

BAŠKARADA, Saša; NGUYEN, Vivian; KORONIOS, Andy. Architecting microservices: Practical opportunities and challenges. Journal of Computer Information Systems, 2020.

GOUIGOUX, Jean-Philippe; TAMZALIT, Dalila. From monolith to microservices: Lessons learned on an industrial migration to a web oriented architecture. In: 2017 IEEE international conference on software architecture workshops (ICSAW). IEEE, 2017. p. 62-65.

O que 70 especificações me ensinaram sobre agentes de código

Alberto Luiz Souza — Mon, 12 Jan 2026 10:55:51 +0000

Disclaimer

Este texto foi inicialmente concebido pela IA Generativa em função da transcrição de um vídeo do Dev Eficiente. Se preferir acompanhar por vídeo, é só dar o play.

Introdução

Depois de escrever quase 70 especificações para construir um projeto de ponta a ponta, quero compartilhar o que aprendi sobre Spec Driven Development. Esse tema tem ganhado tração por conta da capacidade de descrever o que você quer em linguagem natural e deixar um agente de código gerar o necessário para você.

O projeto em questão foi a plataforma Contrato Dev Eficiente, que conecta nossa comunidade de pessoas que estudam conosco com empresas que precisam de profissionais com vontade de aprender. Não foi um experimento pontual - foram muitas especificações, tanto para backend quanto para frontend, e o resultado está no ar sendo usado.

O contexto atual do Spec Driven Development

Recentemente, saiu um post no blog de Martin Fowler escrito por Birgitta Bockler, Distinguished Engineer e AI Assisted Delivery Expert na ThoughtWorks. Ela testou três ferramentas: Kiro (da Amazon), SpecKit e Tessel. O texto discute diferentes abordagens.

Eu olhei o Kiro quando a Amazon lançou e uma pessoa da comunidade Dev Eficiente me indicou o SpecKit. Confesso que quando olhei, não me interessou no sentido de ser o caminho mais promissor para mim. A maioria dessas ferramentas trabalha com a ideia de você escrever a feature inteira e deixar que a especificação seja fonte para quebra de tarefas, para que o LLM planeje as tarefas necessárias.

O que funcionou para mim não foi bem do jeito que está descrito nesses textos.

A evolução das minhas especificações

O começo: linguagem natural detalhada

Na minha primeira especificação, eu queria importar pessoas alunas da plataforma de cursos para o novo sistema. Era um código de importação e eu estava menos preocupado com design naquele momento.

O template inicial tinha:

Objetivo
Pacote/pasta onde o código deveria ser gerado
Referências importantes (como links de documentação)
Detalhes de implementação em linguagem natural

Eu dava detalhes bem granulares: "cria o controller que seja capaz de importar todos os membros que ainda não foram importados anteriormente", "quando fizer a primeira chamada, já verifica se existe o primeiro email", "a chamada deve ser feita pelo cliente X que deve vir do application properties e deve obrigatoriamente ser definida como variável de ambiente".

O problema? Percebi que estava investindo muito tempo escrevendo parágrafos em linguagem natural explicando o que eu queria.

O problema do código gerado por LLMs

A média do código que vem do LLM, para o tipo de design que eu queria construir, não era suficiente. Mesmo tendo um arquivo CLAUDE.md com guidelines, as decisões de design vinham com características que me incomodavam:

Código pouco coeso: O LLM é bom quando você quer generalização, mas quando você pensa em coesão e separação de responsabilidades, o código gerado geralmente não atende às expectativas.

Eu ficava olhando e pensando: "não é por esse caminho que eu quero". E aí comecei a refatorar bastante código, o que me fez questionar se essa era a melhor abordagem.

A virada: contratos de código ao invés de linguagem natural

A minha versão final das especificações é bem diferente. Ao invés de tentar descrever o código em linguagem natural, o que mais funcionou foi:

Pensar nas classes e arquivos necessários para fazer determinado fluxo
Investir tempo nos métodos públicos - as assinaturas, os parâmetros, o retorno
Não pensar na implementação, apenas nos contratos

Por exemplo, numa especificação recente eu tinha:

Referências:
- Classe RecuperaAnaliseArquivoCurriculo (já declarada com métodos e parâmetros)
- ArquivoCurriculoRepository (estrutura já definida)

Eu declarava os métodos, os parâmetros, escrevia a classe que representava a resposta. Aí eu olhava e falava: "acho que o controller está bom, preciso desses parâmetros, com esses parâmetros eu consigo fazer o que quero fazer".

Exemplo prático: sistema de agentes

Numa especificação para criar agentes de análise, eu escrevi as classes antes:

// No arquivo prepara.ts
class AgenteAnalisadorDeFormacoes { }
class AgenteAnalisadorDeExperiencias { }
class AgenteAnalisadorDeHabilidadesTecnicas { }
class AnalisadorAgregado { } // junta tudo
class AgenteAnaliseCompleta { } // chama todos e retorna análise final

A explicação de alto nível foi apenas: "a partir de um ID de arquivo de currículo, precisamos analisar o currículo, criando um feedback e uma sugestão de versão atualizada".

As referências que eu quero que o agente use, e pronto.

O que delego vs. o que eu defino

A combinação que funcionou para mim foi:

Delego para o agente:

Coisas que quero fazer e não sei direito como (detalhes de implementação de bibliotecas específicas)
Coisas que simplesmente não ligo para o como

Por exemplo, numa especificação eu precisava:

Código que utilizasse o Cloudflare R2 (S3 compatível) - não sabia usar a biblioteca
Storage genérico para ter versão local e remota para desenvolvimento
Usar Apache Tika para extrair texto de currículos (doc, pdf, texto)

Eu falei: "coda isso pra mim", porque não sabia os detalhes, mas sabia que precisava.

Eu defino:

As interfaces (assinaturas dos métodos)
Como uma coisa se conecta com a outra
O fluxo de alto nível

Spec Driven Development no Frontend

O mesmo padrão funcionou no frontend. Uma especificação para tela de candidaturas ficou assim:

Objetivo: Possibilitar que o contato de empresa logada visualize
os candidatos para uma determinada vaga.

Referências:
- A tela de listagem de candidaturas é essa: [componente]
- O endpoint que deve ser acessado é esse: [endpoint]
- Retorno do endpoint: [exemplo JSON]

Explicação de alto nível:
- Essa tela deve ser só para pessoa logada
- Os links de GitHub e LinkedIn apontam para endereços internos
  que retornam [formato X] - lidar com isso
- Fazer o link de visualizar candidaturas ir para essa nova tela

Eu entregava o endpoint, o retorno do endpoint, e pedia para codar a tela em função desse limite estabelecido.

A granularidade que funciona

Esse é um tema importante citado no texto da ThoughtWorks. Minha observação não indica que pegar uma ideia de feature e investir tempo para o LLM planejar as tarefas seja o jeito mais eficiente.

A granularidade que funciona para mim é a de Task.

Pensando nas nomenclaturas: se você tem Épico > História > Task (como no Jira), o que tem funcionado é pegar a Task e usar Spec Driven Development para ela. Não a feature inteira, não o épico - a task.

Sobre ferramentas específicas

Não usei nenhuma ferramenta dedicada a Spec Driven Development. Olhando as ferramentas, sinceramente não acho que precisa - mas não vou falar muito fortemente porque não usei a fundo. Os agentes de código que já existem (Claude Code, Codex, Gemini CLI) com um template minimamente razoável já fazem muito bem o trabalho.

Parei de pedir testes de início

Outra mudança: parei de pedir para escrever testes logo de cara. Prefiro primeiro ver o código gerado, e depois escrever os testes automatizados. Isso me deu mais controle sobre a qualidade final.

Além de código: documentação

A mesma ideia funcionou para construir documentações. Spec Driven Development para gerar documentação significa: delinear o que preciso na documentação, como escrevo, meus padrões de escrita, o template - e deixar o agente gerar.

Conclusão

O padrão que funcionou para mim em Spec Driven Development foi:

Pensar na tarefa (não na feature inteira)
Definir os contratos de código - classes, interfaces, assinaturas de métodos, parâmetros, retornos
Escrever explicação de alto nível - apenas o suficiente para contextualizar
Delegar detalhes de implementação que não sei ou não me importo como são feitos
Limitar a autonomia do agente para o fluxo já delineado

Não foi tentar fazer tudo em linguagem natural. Foi uma união entre estrutura de código que limita a autonomia e contexto em linguagem natural para o que precisa de explicação.

É experiência de campo, de um projeto real que está no ar. Fiz muitas vezes - não foi uma nem duas - e esse é o setup que tem funcionado mais para mim quando penso em engenharia de contexto para agentes de código.

Dev + Eficiente

Semantic Cache: Como Otimizar Aplicações RAG com Cache Semântico

Alberto Luiz Souza — Mon, 05 Jan 2026 10:00:15 +0000

Disclaimer

Este texto foi inicialmente concebido pela IA Generativa em função da transcrição de um vídeo do canal de Daniel Romero(a pessoa que lidera nossa especialização em Engenharia de IA). Se preferir acompanhar por vídeo, é só dar o play.

Introdução

Ao trabalhar com aplicações baseadas em RAG (Retrieval-Augmented Generation), um dos desafios é lidar com o custo e a latência de processar perguntas repetidas. Cada vez que um usuário faz uma pergunta, todo o pipeline precisa ser executado novamente, mesmo que a resposta já tenha sido gerada anteriormente. Neste post, vamos explorar como o Semantic Cache pode resolver esse problema de forma elegante e eficiente.

O que é Cache?

Um cache é uma memória de alta velocidade que armazena de forma eficiente os dados acessados com frequência. A ideia é simples: em vez de recalcular ou buscar uma informação toda vez que ela é solicitada, armazenamos o resultado para uso futuro.

O Pipeline RAG Tradicional

Em um RAG tradicional, quando um usuário faz uma pergunta, o sistema executa várias etapas: faz o embedding da pergunta, pesquisa em um vector database (podendo realizar busca por palavra-chave, semântica ou híbrida), recupera os documentos relevantes, envia o contexto junto com o prompt e a pergunta original para o LLM, e finalmente retorna a resposta gerada ao usuário.

Se o usuário fizer a mesma pergunta repetidamente, todo esse processo ocorre a cada requisição. Como você pode imaginar, isso é custoso tanto em termos de tempo quanto de dinheiro.

O Problema do Cache Tradicional

Para evitar gerar a mesma resposta várias vezes para uma pergunta frequente, podemos armazenar as perguntas e suas respectivas respostas em um cache. Por exemplo, se o usuário perguntar "Qual é a capital do Brasil?" pela primeira vez, geramos a resposta seguindo o pipeline de RAG e salvamos no cache. Na próxima vez que a mesma pergunta for feita, recuperamos a resposta do cache.

Esse tipo de cache é bastante comum e funciona com um mecanismo de chave-valor: a pergunta é a chave e a resposta é o valor. Porém, há um problema importante.

Ao trabalhar com um cache do tipo key-value, pequenas variações na formulação de uma pergunta podem resultar em um valor de hash diferente. Por exemplo, "Qual é a capital do Brasil?" e "Você pode me dizer a capital do Brasil?" são essencialmente a mesma pergunta, mas sua formulação literal é diferente. Se usarmos uma abordagem simples para procurar a resposta no cache, provavelmente não vamos conseguir encontrar, porque a versão hash da pergunta é diferente.

A Solução: Semantic Cache

Para melhorar a precisão dos resultados da busca, podemos usar um cache semântico em vez de confiar em um mecanismo de combinação exata (Exact Match). Isso envolve armazenar as perguntas, respostas e seus embeddings em um mecanismo de chave-valor.

Quando um usuário faz uma pergunta, podemos realizar uma busca semântica em todas as perguntas no cache para encontrar a mais semelhante. Se o score de similaridade entre a pergunta do usuário e a pergunta mais similar no cache estiver acima de um determinado limite, podemos assumir que a pergunta é essencialmente a mesma e fornecer a resposta correspondente.

O cache tradicional opera com base em combinação exata: quando você procura uma chave, ele verifica se ela existe no cache. Já o cache semântico funciona de maneira diferente: ele pesquisa semanticamente, procurando o significado da chave em vez de uma combinação exata. Por exemplo, "Qual é a capital do Brasil?" versus "Me diga o nome da capital do Brasil" terão o mesmo resultado em um cache semântico, pois a formulação é diferente, mas o significado é o mesmo. Em contraste, um cache tradicional falharia para a segunda pergunta.

Vantagens e Considerações

Se você estiver utilizando um LLM em um sistema de perguntas e respostas e tiver que fazer muitas chamadas para a API, essa operação vai custar caro. É aqui que uma solução de cache semântico se destaca, porque será extremamente eficiente e rápida, economizando tempo e dinheiro do projeto.

Usar cache também é uma ótima maneira de otimizar o desempenho de chatbots, armazenando dados acessados com frequência. Uma abordagem interessante é criar patches ad-hoc para diálogos de chatbots, identificando perguntas feitas com frequência e preparando respostas pré-escritas. O chatbot pode recuperar rapidamente as respostas do cache e responder instantaneamente, sem acessar um LLM. Isso garante consistência nas respostas para perguntas como "Qual é o endereço da loja?".

Por outro lado, usar cache pode não ser uma boa ideia se você quiser diferentes variações para a mesma consulta. No entanto, em um sistema de perguntas e respostas, a variação geralmente não importa.

Implementação Prática

Em uma implementação prática, é possível utilizar o mesmo vector database tanto para armazenamento dos documentos quanto para o cache semântico. Por exemplo, utilizando Qdrant: o armazenamento vetorial com dados em cloud para busca semântica, e o cache com persistência em memória.

Quando o usuário faz uma pergunta, é necessário fazer o embedding da pergunta. Essa parte deve ser feita independentemente de utilizar cache ou não, porque para fazer uma busca, tanto no vector database quanto no cache, são necessários embeddings. Lembrando que esse custo está bem reduzido se comparado com os LLMs.

A função de cache verifica se a pergunta já foi respondida, buscando através de todos os embeddings e comparando com o embedding da pergunta. Se estiver no cache, retorna a resposta armazenada. É importante definir um limite adequado baseado na métrica utilizada. Por exemplo, com distância euclidiana, quanto menor o valor, melhor (mais próximo de zero significa maior similaridade). Se fosse similaridade do cosseno, números maiores significariam maior semelhança.

Se a pergunta não existir no cache, o sistema passa pelo processo normal de RAG: busca semântica no vector database, encontra os chunks mais similares, envia como contexto junto com a consulta do usuário e o prompt para o LLM. Ao final, gera uma nova resposta e a salva no cache para uso futuro.

Conclusão

O Semantic Cache é uma técnica poderosa para otimizar aplicações RAG, permitindo economia significativa de tempo e custos ao evitar processamentos redundantes. A chave está em entender que perguntas semanticamente equivalentes devem retornar a mesma resposta, mesmo quando formuladas de maneiras diferentes.

Dev+ Eficiente

Este conteúdo é parte do ecossistema Dev+ Eficiente, mantido por Alberto junto com Maurício Aniche e Rafael Ponte, que inclui um canal e dois treinamentos. O primeiro é a Jornada Dev+ Eficiente, cujo foco é fazer com que você seja capaz de entregar software que de fato gera valor com o máximo de qualidade e eficiência.

O segundo é a especialização em Engenharia de IA, uma parceria com Daniel Romero, cuja ideia é habilitar você para entregar software de excelência, integrando sistemas com LLMs.

Conheça mais em https://deveficiente.com/interesse-especializacao-engenharia-ia