1. Introdução
A engenharia de software atravessa um momento de transformação através da integração de modelos de linguagem de grande escala e ferramentas de Inteligência Artificial generativa. Segundo Abbas et al. (2025), a motivação em torno dessas tecnologias baseou-se na automação avançada que poderia modificar a produtividade em todo o ciclo de vida do desenvolvimento, desde a análise de requisitos até a refatoração de código. Os estudos como o de Molison et al. (2025) mostram que assistentes inteligentes oferecem ganhos de eficiência, atuando como suportes cognitivos que aceleram a resolução de problemas de complexidade baixa a moderada. No entanto, a premissa mercadológica de que a máquina poderia substituir integralmente o trabalho intelectual do programador tem sido contestada pela literatura recente.
A transição do uso teórico para a aplicação prática em ambientes corporativos evidencia que o código gerado de forma autônoma ainda carrega falhas críticas e limitações de contexto. Pesquisas empíricas conduzidas por Cotroneo et al. (2025) e Lertbanjongngam et al. (2022) mostram que a Inteligência Artificial, quando opera sem a devida revisão, tende a introduzir vulnerabilidades de segurança e problemas de manutenibilidade estrutural. Diante desse cenário, a comunidade científica e a indústria trazem um paradigma focado não na substituição, mas na colaboração direta entre humanos e máquinas. Conforme argumenta Baranetska (2025), a qualidade e a segurança do software moderno dependem de sistemas híbridos, onde a capacidade da máquina de processar informações em escala é complementada pela supervisão humana, que atua como guardiã ética e avaliadora de casos imprevisíveis.
Contudo, orquestrar e medir essa parceria trazem desafios comportamentais. O estudo de Qian e Wexler (2024) evidencia que o sucesso da colaboração pode ser ameaçado pela confiança apenas na automação, um fenômeno no qual os desenvolvedores aceitam as saídas da máquina devido ao excesso de confiança, negligenciando a validação analítica. Em consonância com essa preocupação, Weisz et al. (2022) e Dibia et al. (2022) destacam que a avaliação do trabalho conjunto exige a inclusão das métricas técnicas. Torna-se imprescindível quantificar o esforço real, a carga cognitiva e o nível de confiança exigidos do desenvolvedor para compreender e corrigir as sugestões da ferramenta.
Nesse contexto, compreender a dinâmica dessa interação humana e LLMs tornou-se o foco de investigação para a consolidação de fluxos de trabalho. Com o propósito de elucidar esse panorama, este documento investiga de forma estruturada a intersecção entre a LLMs e o esforço colaborativo com o Humano. Diante desse cenário, este estudo é orientado pela seguinte questão principal: Quais atividades do ciclo de desenvolvimento de software têm sido investigadas empiricamente no contexto de IA com e sem supervisão humana? Para respondê-la, o estudo foi organizado em três subperguntas:
- RQ1. Quais métricas têm sido utilizadas para avaliar o impacto da supervisão humana no desempenho de atividades de engenharia de software assistidas por IA?
- RQ2. Quais características individuais dos desenvolvedores são consideradas como variáveis nos estudos primários (senioridade, experiência profissional, experiência prévia com IA e percepção/ceticismo em relação à IA)?
- RQ3. Em quais condições a supervisão humana melhora os resultados de sistemas de IA em tarefas de engenharia de software?
- RQ4. Quais ferramentas de LLM têm sido utilizadas pelos desenvolvedores nos estudos?
- RQ5. Como o tipo de tarefa de engenharia de software influencia os efeitos da supervisão humana sobre qualidade e produtividade?
Portanto, o objetivo deste trabalho é consolidar e analisar as evidências disponíveis sobre a interação entre humanos e IA relacionadas às atividades do desenvolvimento de software.
2. Metodologia
Inicialmente, foi definida a pergunta de pesquisa e, a partir dela, elaborou-se a string de busca com base nos principais termos do problema investigado e em seus sinônimos.
Em seguida, foi conduzida uma busca automatizada na base da IEEE, utilizando a string previamente definida. Essa busca retornou um total de 277 estudos.
Na etapa seguinte, realizou-se a leitura dos resumos dos artigos encontrados, com aplicação dos critérios de inclusão e exclusão estabelecidos no protocolo da revisão. Como resultado dessa triagem inicial, 16 estudos foram considerados aptos para a fase subsequente.
Posteriormente, os estudos selecionados passaram por leitura completa, o que permitiu avaliar sua aderência ao objetivo da pesquisa. Ao final dessa etapa, apenas 1 estudo atendeu aos critérios estabelecidos e foram selecionados a partir da busca automatizada.
Além disso, utilizou-se a ferramenta ELICIT (https://scispace.com/) com a sua funcionalidade de busca de papers como estratégia complementar de busca, a partir da aplicação do seguinte prompt:
RQ: Which software development lifecycle activities have been empirically investigated in the context of AI with and without human supervision?
A busca na ferramenta foi realizada com base na análise do título e do resumo dos 100 primeiros registros retornados. Nessa etapa, foram inicialmente selecionados 21 artigos. Posteriormente, esses estudos também passaram por leitura completa, permitindo avaliar sua aderência ao objetivo da pesquisa. Ao final dessa etapa, 6 estudos atenderam aos critérios estabelecidos e foram selecionados.
Também foi realizada uma busca manual no Google Scholar onde foram selecionados 45 artigos, e após a leitura completa e aplicado os critérios de inclusão e exclusão, foram selecionados 7 artigos. Dessa forma, a amostra final foi composta por 14 artigos totais.
Critérios de inclusão
- Atividade de Engenharia de Software: Incluir estudos que permitam identificar claramente a atividade investigada, como requisitos, codificação, code review, testes, debugging, manutenção, documentação, DevOps, segurança, design ou arquitetura.
- Supervisão humana: Incluir estudos que permitam classificar o uso da IA como com supervisão humana, sem supervisão humana ou ambos.
- Incluir estudos que apresentem dados, como experimentos, estudos de caso, surveys, estudos observacionais, análises de repositórios, avaliações de ferramentas e revisões sistemáticas.
- Período: Incluir estudos publicados entre 2022 e 2025.
- Idioma: Incluir estudos publicados em inglês ou português.
Critérios de Exclusão
- Fora da Engenharia de Software: Excluir estudos cujo foco principal não seja uma atividade do ciclo de desenvolvimento de software.
- Atividade não identificável: Excluir estudos que não indiquem claramente qual atividade de Engenharia de Software foi investigada.
- Supervisão não identificável: Excluir estudos que não permitam classificar o uso da IA como com ou sem supervisão humana.
- Excluir estudos conceituais, opinativos ou teóricos sem dados empíricos ou revisões sistemáticas.
- IA fora do escopo: Excluir estudos sobre automação tradicional, ferramentas rule-based ou análise estática sem componente de IA.
- Tipo de publicação não elegível: Excluir editorial, position papers, keynotes, tutoriais, blogs, whitepapers sem método, slides, resumos curtos.
- Fora do período: Excluir estudos publicados antes de 2022 ou depois de 2025.
- Idioma fora do escopo: Excluir estudos que não estejam em inglês ou português.
- Duplicatas: Excluir duplicatas ou versões preliminares quando houver uma versão mais completa do mesmo estudo.
String de Busca
("software development" OR "code generation" OR "code review" OR debugging OR
"bug fixing" OR "test generation" OR "software testing" OR refactoring OR
"software maintenance" OR "code comprehension")
AND
("human-in-the-loop" OR "human oversight" OR "human supervision" OR
"human feedback" OR "developer oversight" OR "developer intervention" OR
"AI supervision" OR "task allocation" OR "division of labor" OR
"human-AI collaboration")
3. Resultados
3.1 Quais métricas têm sido utilizadas para avaliar o impacto da supervisão humana no desempenho de atividades de engenharia de software assistidas por IA?
As métricas adotadas pela literatura para mensurar a colaboração e a supervisão humana em Engenharia de Software são apresentadas na tabela abaixo com seus respectivos estudos:
| Categoria da Métrica | Descrição e Indicadores Específicos |
|---|---|
| Produtividade | Tempo total de conclusão em Qian et al. (2024), Wang et al. (2024), Ibrahim et al. (2025) e Weisz et al. (2022); "Human Involvement" (%) em Pangavhane et al. (2024); linhas de código retidas/removidas em Nascimento et al. (2023); quantidade de refatorações em Mo et al. (2025); tempo de resposta em Lertbanjongngam et al. (2022). |
| Qualidade, Correção e Manutenibilidade | Similaridade sintática em Dibia et al. (2022) e Lertbanjongngam et al. (2022); complexidade ciclomática e vulnerabilidades de segurança em Cotroneo et al. (2025); esforço de correção de bugs em Molison et al. (2025). |
| Colaboração | Índice de Precisão Colaborativa e Taxa de Validação Humana em Baranetska (2025); ações Fix it/Take it, confiança correta vs. incorreta e complacência de automação em Qian e Wexler (2024). |
| Carga Cognitiva | Demanda mental, frustração e esforço em Wang et al. (2024) e Weisz et al. (2022); valor e acurácia percebidos em Dibia et al. (2022); escalas Likert de utilidade e clareza em Ibrahim et al. (2025) e Lyu et al. (2025). |
Figura — Distribuição das métricas por quantidade de artigos:
| Categoria | Quantidade de Artigos |
|---|---|
| Produtividade | 8 |
| Carga Cognitiva | 5 |
| Qualidade, Correção e Manutenibilidade | 4 |
| Colaboração | 2 |
Observa-se que a categoria de Produtividade reúne o maior número de fontes associadas. Essa predominância indica que grande parte das pesquisas foca em indicadores objetivos de desempenho para avaliar o impacto da Inteligência Artificial. Autores como Pangavhane et al. (2024) medem o percentual de envolvimento humano nas tarefas. Qian e Wexler (2024), Wang et al. (2024), Ibrahim et al. (2025) e Weisz et al. (2022) priorizam o tempo total de conclusão. Indicadores complementares incluem as linhas de código mantidas ou removidas, aplicadas por Nascimento et al. (2023), e o tempo de resposta de execução (runtime), avaliado por Lertbanjongngam et al. (2022). O volume de refatorações também atua como métrica de eficiência no estudo de Mo et al. (2025).
A segunda categoria mais recorrente é Qualidade, Correção e Manutenibilidade. Esse resultado evidencia a preocupação em garantir a viabilidade técnica dos artefatos, não focando apenas na velocidade de desenvolvimento. Dibia et al. (2022) e Lertbanjongngam et al. (2022) aplicam métricas de similaridade sintática. Para a análise estrutural, Cotroneo et al. (2025) cruzam a complexidade ciclomática com a presença de vulnerabilidades de segurança. Já o esforço prático necessário para a correção de bugs é avaliado detalhadamente na investigação de Molison et al. (2025).
A categoria Colaboração indica um interesse emergente na forma como ocorre a interação entre humanos e as ferramentas de IA. Esses estudos avançam além da validação técnica do código e posicionam o desenvolvedor no centro da tomada de decisão. Baranetska (2025) propõe índices sistêmicos, como o Índice de Precisão Colaborativa e a Taxa de Validação Humana. De maneira complementar, Qian e Wexler (2024) mapeiam ações diretas no código, como "Fix it" e "Take it", além de medir a confiança correta e incorreta dos usuários para identificar cenários de complacência de automação.
Por fim, a categoria Carga Cognitiva aborda os aspectos de esforço mental e as percepções exigidas no trabalho de supervisão. Wang et al. (2024) e Weisz et al. (2022) utilizam a escala padronizada NASA-TLX para mensurar dimensões como demanda mental, frustração e esforço temporal. De forma paralela, Dibia et al. (2022) consideram o valor e a acurácia percebidos, enquanto Ibrahim et al. (2025) e Lyu et al. (2025) aplicam questionários em escala Likert para atestar a clareza e a utilidade das respostas geradas pela IA. Embora menos frequente, essa categoria revela que há vasto espaço para aprofundar investigações sobre os impactos cognitivos da automação no trabalho analítico dos profissionais de software.
3.2 Quais características individuais dos desenvolvedores são consideradas como variáveis nos estudos primários (senioridade, experiência profissional, experiência prévia com IA e percepção/ceticismo em relação à IA)?
As características individuais dos desenvolvedores que os artigos apresentam como variáveis para cada pesquisa são apresentadas na tabela abaixo com seus respectivos estudos:
| Característica | Abordagem nos Estudos | Artigos relacionados |
|---|---|---|
| Percepção Individual sobre IA | Explora o ceticismo, a confiança e se o desenvolvedor acredita que a IA ajuda, mesmo quando os dados objetivos mostram o contrário. | Wang et al. (2024); Lyu et al. (2025); Weisz et al. (2022); Qian e Wexler (2024) |
| Nível de Expertise como Desenvolvedor | Tratada como variável de comparação em estudos específicos que dividem grupos entre "Novatos" (ou estudantes) e "Especialistas" (ou competidores de alto nível). | Qian e Wexler (2024); Mo et al. (2025); Nascimento et al. (2023) |
| Experiência Profissional | Frequentemente usada como filtro de seleção (baseline) e não como variável. Os estudos exigem que o participante seja um "programador experiente", mas não comparam Júnior vs. Sênior. | Dibia et al. (2022); Wang et al. (2024); Weisz et al. (2022) |
| Carga de Trabalho dos Desenvolvedores | Medida quase exclusivamente através da escala NASA-TLX. Avalia o quanto o uso da IA aumenta ou diminui a frustração e a demanda mental. | Wang et al. (2024); Weisz et al. (2022); Qian e Wexler (2024) |
| Experiência Prévia com IA | Considera o uso anterior de ferramentas (Copilot/ChatGPT) para entender se o "hábito" influencia a aceitação das sugestões. | Lyu et al. (2025); Weisz et al. (2022); Qian e Wexler (2024) |
| Literacia em IA e Prompting | A habilidade de formular comandos. É identificada como uma barreira: usuários com baixa literacia tendem a aceitar conteúdos errados ou desistir da ferramenta. | Baranetska (2025); Qian e Wexler (2024) |
Figura — Características individuais dos desenvolvedores apresentadas como variáveis:
| Característica | Quantidade de Artigos |
|---|---|
| Percepção Subjetiva e Atitude | 4 |
| Nível de Expertise | 3 |
| Experiência Profissional | 3 |
| Carga de Trabalho e Esforço Mental | 3 |
| Experiência Prévia com IA | 3 |
| Literacia em IA e Prompting | 2 |
Os resultados da pesquisa trazem que as características individuais dos participantes são variáveis que abordam a aceitação e o sucesso da colaboração humano-IA. O grupo de variáveis com maior predominância nos estudos refere-se à percepção subjetiva, atitude e confiança em relação à Inteligência Artificial. Esse dado aborda como o impacto da tecnologia é mediado pela disposição psicológica do desenvolvedor. Por exemplo, Wang et al. (2024) observam que os participantes mantêm uma percepção positiva de que a ferramenta aumenta a produtividade, mesmo quando seus resultados objetivos em tarefas complexas contradizem essa sensação. De maneira complementar, Lyu et al. (2025) mostram que essa atitude não é estática, evoluindo para uma aceitação maior à medida que os desenvolvedores utilizam as ferramentas como parceiros de trabalho ao longo do tempo. Essa calibração da confiança é reforçada por Qian e Wexler (2024), que notam que os usuários tendem a substituir a confiança inicial, de caráter disposicional, por uma confiança baseada no desempenho real após o contato direto com as falhas do modelo.
A eficácia dessa interação está diretamente ligada ao segundo grupo de características mais investigado: a carga de trabalho percebida e o esforço cognitivo, mensurados predominantemente pela escala NASA-TLX. Os achados indicam que, embora a Inteligência Artificial possa reduzir o esforço mental por meio da substituição de esforço, delegando tarefas repetitivas à máquina, ela pode paradoxalmente aumentar a frustração em cenários específicos. Segundo Weisz et al. (2022), o fornecimento de múltiplas opções de solução eleva significativamente a demanda mental e o estresse, pois exige que o humano realize um trabalho exaustivo de comparação e revisão. Tal fenômeno transforma a atividade de produção de código em uma tarefa de revisão de código estrangeiro, o que, conforme discutido por Wang et al. (2024), promove uma sensação de melhor desempenho em problemas simples, mas não reduz a carga de trabalho em tarefas de desenvolvimento de software mais robustas.
Por fim, observa-se que, embora a senioridade e o nível de experiência técnica sejam citados, eles aparecem com menor frequência como variáveis experimentais comparativas, sendo muitas vezes utilizados apenas como critérios de seleção de participantes experientes. No entanto, quando isolada, a especialidade revela-se um fator de equalização. O estudo de Qian e Wexler (2024) destaca que a IA beneficia desproporcionalmente os novatos, ajudando-os a superar barreiras de conhecimento, enquanto os especialistas tendem a ser mais céticos e propensos a rejeitar sugestões algorítmicas em favor de documentações tradicionais. Essa dinâmica é fortemente corroborada por Nascimento et al. (2023), que demonstram a Inteligência Artificial superando programadores novatos em desempenho e eficiência de memória, mas falhando em atingir o nível de programadores de elite em problemas de alta dificuldade.
3.3 Em quais condições a supervisão humana melhora os resultados de sistemas de IA em tarefas de engenharia de software?
As condições melhoradas com a supervisão humana são apresentadas na tabela abaixo com seus respectivos estudos:
| Condição / Contexto | Como a supervisão humana melhora os resultados? | Artigos relacionados |
|---|---|---|
| Tarefas de Alta Complexidade | O supervisor humano estabelece os modelos conceituais do sistema que a IA não consegue abstrair, fornecendo o raciocínio estratégico necessário em problemas de nível de competição e formulação lógica, onde as ferramentas automatizadas ainda falham. | Wang et al. (2024); Lertbanjongngam et al. (2022) |
| Refinamento de "Erros Fáceis" e Alucinações | As intervenções manuais servem para sanar rapidamente erros de lógica simples, construções não utilizadas e codificações rígidas que a IA introduz como soluções de contorno, mas que são facilmente corrigidas por um olhar experiente. | Molison et al. (2025); Cotroneo et al. (2025) |
| Garantia de Qualidade (SQA) e Falsos Positivos | Os humanos interpretam saídas ambíguas e avaliam a relevância contextual para filtrar falhas reais e isolar falsos positivos que costumam enganar o sistema automatizado, além de designarem casos de teste alinhados com regras de negócio. | Baranetska (2025) |
| Sistemas Críticos e Governança Ética | A supervisão assegura o cumprimento de normas de segurança e princípios éticos organizacionais, aplicando a diretriz de humano-no-comando para evitar decisões catastróficas em setores ultrassensíveis, como saúde ou finanças. | Baranetska (2025); Abbas et al. (2025) |
| Avaliação de Código | Através de dinâmicas de programação em par com a máquina, o desenvolvedor identifica e corrige vieses e erros do modelo em tempo real, fornecendo o feedback imediato necessário para elevar a qualidade de processos interativos de refatoração. | Mo et al. (2025); Weisz et al. (2022) |
| Contextualização de Código Legado e Documentação | O profissional captura a real intenção e as nuances de design do código que a máquina ignora, preenchendo lacunas de conhecimento e promovendo o domínio do negócio durante a manutenção de bases antigas onde a documentação original é escassa. | Ibrahim et al. (2025) |
| Baixa Confiança do Modelo | O humano atua como o validador analítico definitivo quando a IA sinaliza baixos níveis de confiança em suas predições, exercendo uma vigilância necessária para mitigar a complacência de automação e evitar a aceitação cega de erros. | Mo et al. (2025); Qian e Wexler (2024) |
| Tradução e Conversão de Linguagens de programação | Em traduções complexas, o humano utiliza a saída automatizada não como produto final, mas como um andaime cognitivo ou esboço inicial, focando apenas na correção de erros estruturais e poupando o tempo de reescrever tudo do zero. | Weisz et al. (2022) |
Os resultados da pesquisa indicam que a supervisão humana não é apenas um filtro de segurança, mas um componente importante que transforma saídas brutas de Inteligência Artificial em soluções de engenharia de software. A condição de maior impacto para a melhoria dos resultados ocorre em tarefas de alta complexidade conceitual e estratégica, onde a IA frequentemente falha por não possuir um modelo mental completo do sistema. Wang et al. (2024) observam que, embora a IA aumente a eficiência em quebra-cabeças simples, o raciocínio humano é indispensável em tarefas de desenvolvimento típicas, onde a integração e a visão sistêmica são exigidas. Essa necessidade é reforçada por Lertbanjongngam et al. (2022), que demonstram que, para problemas de alta dificuldade, a IA tende a gerar códigos ineficientes com loops excessivos, exigindo a intervenção humana para otimização e correção da lógica.
A eficácia da supervisão é determinante no refinamento de erros de baixa complexidade e na mitigação de alucinações. Humanos demonstram uma capacidade superior para identificar construções não utilizadas, variáveis hardcoded e bugs que, embora simples, comprometem a confiabilidade do código. Na área de Garantia de Qualidade de Software (SQA), conforme discutido por Baranetska (2025), a supervisão humana melhora os resultados ao validar casos de teste gerados automaticamente e ao diferenciar falhas reais de falsos positivos que enganam sistemas puramente automatizados. Molison et al. (2025) corroboram essa visão ao concluir que a análise manual de falhas revela problemas frequentemente fáceis de consertar por um humano, tornando a colaboração mútua o caminho para o produto final de maior qualidade.
Por fim, a pesquisa destaca que a supervisão melhora significativamente os resultados através de ciclos de feedback interativo e contextualização de sistemas. Em tarefas de tradução de código, como analisado por Weisz et al. (2022), o humano utiliza a IA como um andaime (scaffold), focando sua atenção em corrigir erros específicos de linguagem e bibliotecas, o que resulta em uma redução de mais de 50,8% na taxa de erros em comparação ao trabalho isolado. Essa dinâmica interativa é essencial em ferramentas de assistência, cenário em que Mo et al. (2025) demonstram que o feedback em tempo real permite ao humano corrigir vieses do modelo e adaptar as sugestões ao contexto específico do projeto. Além disso, em sistemas críticos e governança ética, a supervisão humana garante que as decisões de lançamento respeitem normas de segurança e lógicas de negócio que a IA não consegue processar de forma autônoma (Abbas et al. (2025)).
3.4 Quais ferramentas de LLM têm sido utilizadas pelos desenvolvedores nos estudos?
As ferramentas de Inteligência Artificial adotadas pelos desenvolvedores na engenharia de software são apresentadas na tabela abaixo com seus respectivos estudos:
| Modelos Avaliados | Artigos relacionados |
|---|---|
| GPT, GPT-3, GPT-4, ChatGPT, Codex | Pangavhane et al. (2024); Wang et al. (2024); Ibrahim et al. (2025); Dibia et al. (2022); Molison et al. (2025); Lyu et al. (2025); Nascimento et al. (2023); Cotroneo et al. (2025) |
| GitHub Copilot | Pangavhane et al. (2024); Lyu et al. (2025) |
| Google Bard/Gemini | Qian et al. (2024) |
| AlphaCode | Lertbanjongngam et al. (2022) |
| CodeBERT, GraphCodeBERT e CodeT5 | Ibrahim et al. (2025) |
| DeepSeek-Coder e Qwen-Coder | Cotroneo et al. (2025) |
| CodeGen | Dibia et al. (2022) |
| Amazon CodeWhisperer | Pangavhane et al. (2024) |
A análise das ferramentas de Inteligência Artificial nos estudos selecionados indica a predominância da família GPT da OpenAI, englobando modelos como GPT, GPT-3, GPT-4, ChatGPT e Codex. Essa arquitetura é amplamente recorrente na literatura e está diretamente associada a tarefas de geração de código, comparação sintática e ganho de produtividade, conforme observam Wang et al. (2024). A sua adoção como referência central justifica-se pela capacidade avançada de gerar, explicar e revisar código de maneira iterativa, o que é corroborado ativamente nos experimentos de Molison et al. (2025) e Lyu et al. (2025).
Em segundo plano, figuram os assistentes de codificação integrados, como o GitHub Copilot, e os modelos da família Google e DeepMind, a exemplo do Bard, Gemini e AlphaCode. Essas tecnologias prestam suporte direto em atividades práticas de desenvolvimento, como preenchimento automático de sintaxe, funcionalidade ativamente testada por Pangavhane et al. (2024). No contexto de programação competitiva e análise de produtividade, a eficácia do AlphaCode foi o objeto central do experimento de Lertbanjongngam et al. (2022), enquanto Qian e Wexler (2024) basearam todo o seu estudo de laboratório no uso exclusivo do Google Bard (atual Gemini).
Uma terceira categoria abrange modelos baseados em Transformers otimizados especificamente para a compreensão de código, como CodeBERT, GraphCodeBERT e CodeT5. Diferentemente das ferramentas generalistas de diálogo, essas arquiteturas são aplicadas primordialmente em tarefas de sumarização, análise semântica e geração automática de documentação técnica, dinâmica evidenciada metodologicamente no estudo de Ibrahim et al. (2025).
A literatura também registra o uso de modelos recentes e estritamente especializados na geração e avaliação de scripts. O emprego de plataformas abertas como DeepSeek-Coder e Qwen-Coder concentra-se em investigações empíricas focadas na qualidade estrutural do software e na injeção de vulnerabilidades de segurança, conforme constatado na metodologia de Cotroneo et al. (2025). Adicionalmente, a ferramenta CodeGen foi utilizada em laboratório para avaliar o alinhamento de métricas e o valor real do código gerado (Dibia et al. (2022)).
Por fim, para garantir o rigor metodológico da análise, é importante distinguir as ferramentas que foram de fato avaliadas nos experimentos daquelas que foram apenas mencionadas. Diversas tecnologias ganham destaque nas seções de revisão de literatura, mas não são o objeto de teste dos estudos primários. O Codeium, por exemplo, não foi utilizado como ferramenta de validação em nenhum dos estudos analisados, sendo apenas citado de forma secundária. Da mesma forma, embora Cotroneo et al. (2025) citem o CodeWhisperer e o GitHub Copilot como assistentes populares, o seu experimento prático restringiu-se a avaliar o ChatGPT, o DeepSeek e o Qwen. Esse mesmo fenômeno ocorre no estudo de Nascimento et al. (2023), que discute a existência do AlphaCode em sua introdução teórica, mas avalia empiricamente apenas o desempenho do ChatGPT. Essa distinção mostra que a popularidade literária de uma ferramenta não reflete, necessariamente, a sua validação laboratorial na literatura recente.
3.5 Como o tipo de tarefa de engenharia de software influencia os efeitos da supervisão humana sobre qualidade e produtividade?
A influência do tipo de tarefa de engenharia de software sobre os efeitos da supervisão humana é um fator determinante para o sucesso da colaboração entre humanos e IA, afetando diretamente a produtividade e a qualidade do produto final. Os estudos mostram que a supervisão humana tem uma melhor eficácia quando atua como um mecanismo de curadoria e validação estratégica, adaptando-se à complexidade inerente de cada atividade do ciclo de vida de desenvolvimento.
Em tarefas de codificação pura e resolução de quebra-cabeças algorítmicos, a IA demonstra alta eficiência, mas a supervisão humana é necessária para validar a eficiência de execução. Wang et al. (2024) observam que o uso do ChatGPT trouxe melhorias significativas de eficiência em quebra-cabeças de programação, embora não tenha garantido uma melhor qualidade das soluções, já que a percepção de desempenho dos desenvolvedores aumentou mesmo quando os resultados objetivos eram semelhantes ao trabalho sem IA. De maneira complementar, o estudo de Lertbanjongngam et al. (2022) revela que, embora a IA consiga gerar códigos funcionalmente semelhantes aos humanos, ela tende a produzir soluções ineficientes, com loops excessivos ou lógicas redundantes, em problemas de alta dificuldade, exigindo que o humano supervisione a otimização de performance.
A eficácia da supervisão também varia conforme a natureza da pergunta. O trabalho de Qian et al. (2024) distingue entre tarefas de busca e de resolução avaliando o uso do Bard, assistente conversacional do Google. Enquanto o uso de IA em tarefas de busca não superou recursos tradicionais como a documentação, em tarefas de resolução de problemas a supervisão humana permitiu que novatos tivessem ganhos expressivos de desempenho, enquanto especialistas foram mais propensos a rejeitar as sugestões da IA e não delegar a tarefa, preferindo confiar em sua própria expertise ou em documentações tradicionais. Essa dinâmica baseada na experiência é corroborada por Nascimento et al. (2023), que investigaram especificamente o desempenho do ChatGPT. O autor mostra que a IA supera programadores novatos em problemas fáceis e médios, inclusive alcançando uma eficiência de memória superior à de desenvolvedores em problemas de nível médio. Contudo, a ferramenta falha ao tentar solucionar problemas de alta dificuldade, um cenário complexo onde a capacidade de raciocínio e formulação lógica dos programadores de elite permanece insubstituível para entregar uma solução efetiva e funcional.
4. Conclusão Geral
A interpretação das evidências extraídas da literatura revela convergências extremamente sólidas quanto ao papel da tecnologia na engenharia moderna. Inicialmente, conforme observam Lyu et al. (2025), nota-se um consenso de que a Inteligência Artificial não veio para substituir o programador em sua totalidade, mas sim para atuar como um assistente avançado de colaboração e programação em par.
Nesse sentido, Pangavhane et al. (2024) reforçam a premissa fundamental de que a supervisão humana agrega um valor indispensável na resolução de problemas lógicos de complexidade alta, nas escolhas criativas e na tomada de decisões que exigem raciocínio estratégico e responsabilidade corporativa.
Apesar dessa concordância central sobre a complementaridade, surgem divergências importantes na literatura no que diz respeito ao nível de confiança depositado pelos desenvolvedores nessas ferramentas gerativas. Estudos como o de Nascimento et al. (2023) ressaltam a capacidade da máquina de superar o conhecimento sintático de desenvolvedores juniores e acelerar o fluxo de trabalho de maneira objetiva.
Em contrapartida, pesquisas focadas em auditoria de segurança cibernética e manutenibilidade estrutural, a exemplo de Cotroneo et al. (2025), evidenciam que a aceitação irrestrita do código gerado atua como uma armadilha que compromete a confiabilidade do sistema.
Essa divergência comportamental revela que a ameaça investigada não é puramente a falha do modelo algorítmico, mas sim a complacência de automação do ser humano, cenário no qual Qian e Wexler et al. (2024) demonstram que os desenvolvedores acabam aceitando as saídas vulneráveis da máquina sem a devida validação.
A análise dessas evidências expõe também lacunas que ainda demandam atenção da comunidade científica. As conclusões mostram que há uma ausência de diretrizes maduras no mercado para estruturar o fluxo de trabalho híbrido, obstáculo diretamente apontado por Baranetska (2025).
Fica claro que a literatura anseia pelo desenvolvimento de interfaces mais transparentes capazes de explicar a origem da decisão da máquina para o desenvolvedor, além de clamar por novas metodologias que garantam a aplicação de padrões éticos rigorosos sem asfixiar a inovação das equipes de engenharia, como argumentam Abbas et al. (2025).
Em suma, os estudos avaliados concluem de forma categórica que as atividades de engenharia de software assistidas por Inteligência Artificial são bem utilizadas no contexto de qualidade, segurança e eficiência apenas sob a supervisão humana constante e ativa, premissa consolidada nos achados de Mo et al. (2025).
A literatura aborda empiricamente que, desprovido do olhar crítico e da validação analítica de um desenvolvedor humano, o uso autônomo de ferramentas gerativas resulta frequentemente na injeção de vulnerabilidades perigosas, loops excessivos e falhas estruturais em aplicações complexas, como evidenciado por Lertbanjongngam et al. (2022).
Portanto, o futuro da construção e manutenção de software não elimina a força de trabalho convencional, mas exige a consolidação de um modelo colaborativo. Nesse cenário, a máquina atua como provedora de velocidade e escala na geração bruta de dados, enquanto o ser humano, conforme defendem Ibrahim et al. (2025), eleva seu papel para o de validador arquitetural, garantidor das nuances de design e guardião da integridade do sistema.
Referências
DIBIA, V.; FOURNEY, A.; BANSAL, G.; POURSABZI-SANGDEH, F.; LIU, H.; AMERSHI, S. Aligning Offline Metrics and Human Judgments of Value for Code Generation Models. 2022.
QIAN, C.; WEXLER, J. Take It, Leave It, or Fix It: Measuring Productivity and Trust in Human-AI Collaboration. 2024.
MOLISON, A. S.; MORAES, M.; MELO, G.; SANTOS, F.; ASSUNÇÃO, W. K. G. Is LLM-Generated Code More Maintainable & Reliable than Human-Written Code? 2025.
BARANETSKA, Y. Human–AI Collaboration in Software Quality Assurance: Balancing Automation and Human Expertise. 2025.
WANG, W.; NING, H.; ZHANG, G.; LIU, L.; WANG, Y. Rocks Coding, Not Development: A Human-Centric, Experimental Evaluation of LLM-Supported SE Tasks. 2024.
LYU, W.; WANG, Y.; SUN, Y.; ZHANG, Y. Will Your Next Pair Programming Partner Be Human? An Empirical Evaluation of Generative AI as a Collaborative Teammate in a Semester-Long Classroom Setting. 2025.
PANGAVHANE, S.; SHELAR, K.; RAKTATE, G.; WAKCHAURE, R.; PARJANE, P.; KALE, J. N. AI-Augmented Software Development: Boosting Efficiency and Quality. 2024.
MO, T.; JIANG, Z.; ZHENG, Q. Interactive AI Agent for Code Refactoring Assistance: A Study on Decision-Making Strategies and Human-Agent Collaboration Effectiveness. 2025.
ABBAS, T.; RATHORE, S. A.; TURKI, A.; KHAN, S.; ALGHUSHAIRY, O.; DAUD, A. Enhancing Software Engineering With AI: Innovations, Challenges, and Future Directions. 2025.
IBRAHIM, A.; BARYAL, M.; ULLAH, A.; SHOAIB, M.; KHAN, M. G. Using NLP and AI to Enhance Software Documentation and Code Comprehension. 2025.
LERTBANJONGNGAM, S.; CHINTHANET, B.; ISHIO, T.; KULA, R. G.; LEELAPRUTE, P.; MANASKASEMSAK, B.; RUNGSAWANG, A.; MATSUMOTO, K. An Empirical Evaluation of Competitive Programming AI: A Case Study of AlphaCode. 2022.
WEISZ, J. D.; MULLER, M.; ROSS, S. I.; MARTINEZ, F.; HOUDE, S.; AGARWAL, M.; TALAMADUPULA, K.; RICHARDS, J. T. Better Together? An Evaluation of AI-Supported Code Translation. 2022.
NASCIMENTO, N.; ALENCAR, P.; COWAN, D. Comparing Software Developers with ChatGPT: An Empirical Investigation. 2023.
COTRONEO, D.; IMPROTA, C.; LIGUORI, P. Human-Written vs. AI-Generated Code: A Large-Scale Study of Defects, Vulnerabilities, and Complexity. 2025.
Top comments (0)