Vinicius Cardoso Garcia

Posted on Dec 31, 2025

Entre o Backlog Caótico e o Algoritmo: Priorização e Cenários com IA

#ai #productmanagement #softwareengineering #agile

A sobrecarga decisória em gestão de produtos atingiu níveis críticos. Product Managers enfrentam backlogs com centenas de requisitos, stakeholders com demandas conflitantes e prazos que não toleram semanas de discussões de priorização. Simultaneamente, equipes de UX lidam com a impossibilidade de entrevistar milhares de usuários enquanto personas criadas há dois anos já não refletem a base atual. Neste cenário, a promessa de algoritmos que rankeiam requisitos automaticamente e LLMs que geram personas a partir de dados comportamentais soa irresistível. Mas a pergunta que devemos fazer não é "a IA pode fazer isso?", e sim "deveria?". A resposta, como veremos, depende fundamentalmente da natureza da decisão: táticas podem ser aceleradas por algoritmos, mas decisões estratégicas permanecem domínio insubstituível do julgamento humano.

Porém, essa automação introduz dilemas: até que ponto delegar o julgamento? Como evitar viés algorítmico? O objetivo desta discussão é tensionar promessas e limites, conectando Engenharia de Requisitos e Product Management a técnicas de ML e LLMs [1], [2].

Priorização de Requisitos: Do Subjetivo ao Algorítmico

Historicamente, técnicas como MoSCoW, RICE e Kano surgiram para estruturar a priorização, tornando explícitos critérios que antes ficavam diluídos em política interna e intuição. MoSCoW (Must, Should, Could, Won't) opera por consenso categórico, forçando stakeholders a classificar requisitos em buckets de importância. Sua força está na simplicidade comunicativa; sua fraqueza, na subjetividade que transforma reuniões em batalhas políticas. A matriz Value vs. Effort adiciona uma segunda dimensão, plotando requisitos em quadrantes que revelam "quick wins" e "money pits", mas sofre do mesmo problema: quem define "valor"?

O framework RICE introduz um escore numérico (Reach, Impact, Confidence, Effort) que permite ordenar iniciativas heterogêneas em um "placar" único, útil quando stakeholders exigem justificativas transparentes. Reach estima quantos usuários serão afetados; Impact mede intensidade do efeito; Confidence ajusta pela incerteza nas estimativas; Effort quantifica custo de implementação. A fórmula resultante produz scores comparáveis entre requisitos de naturezas completamente diferentes.

Já o modelo Kano explora a relação entre funcionalidade e satisfação, diferenciando básicos, lineares e delighters.

Método	Critérios	Subjetividade	Escalabilidade	Automação IA
MoSCoW	Must/Should/Could/Won't	Alta (consenso político)	Baixa	❌ Difícil
Value vs Effort	2 eixos visuais	Média	Média	⚠️ Parcial
RICE	4 componentes numéricos	Baixa	Alta	✅ Nativo
Kano Model	Básico/Performance/Delight	Alta (pesquisa)	Baixa	⚠️ Parcial
ML Ranking	N fatores + histórico	Baixa	Muito alta	✅ Nativo

A natureza quantitativa do RICE o torna candidato natural à automação. Se Reach pode ser extraído de analytics, Impact inferido de feedback, e Effort estimado por análise de código similar, por que humanos calculariam manualmente? Esta pergunta abre caminho para aplicação de Machine Learning em priorização.

Todos esses métodos, porém, dependem de estimativas humanas—frequentemente inconsistentes e difíceis de manter à medida que o backlog cresce [3], [4].

Aspecto	Métodos Tradicionais	Abordagens com IA/ML
Fonte de dados	Entrevistas, workshops, julgamento especialista	Logs de uso, tickets, NPS, histórico de decisões
Escalabilidade	Limitada (dezenas de requisitos)	Alta (milhares de itens)
Transparência	Alta (critérios explícitos)	Variável; modelos podem ser opacos
Atualização	Ciclos mensais/trimestrais	Quase tempo real
Sensibilidade estratégica	Alta, mas sujeita a viés político	Boa em tática; limitada para contexto competitivo

Ferramentas recentes de gestão de produto incorporam IA para aliviar o esforço manual. Plataformas como Productboard, Aha! e Linear agregam feedback de múltiplos canais, aplicam clustering e, em alguns casos, score automático de impacto baseado em padrões históricos. Estudos de 2024-2025 reportam ganhos de produtividade de 20-30% em equipes que adotaram automação parcial da priorização, especialmente ao reduzir tempo de preparação para planning e backlog grooming. No entanto, esses ganhos concentram-se em decisões táticas — qual bug entra no próximo sprint — e não substituem raciocínio estratégico sobre posicionamento e visão de produto [5], [6].

Técnicas de ML para Ranking: Do Supervised ao Learning-to-Rank

Quando se fala em priorização automatizada, três famílias de técnicas aparecem na literatura recente: supervised learning, learning to rank e abordagens inspiradas em reinforcement learning. Em cenários supervisionados, modelos são treinados com requisitos rotulados com prioridades históricas; algoritmos como Random Forests ou redes neurais aprendem a mapear atributos (texto, tipo, módulo, impacto estimado) a essas prioridades. Estudos reportam acurácias superiores a 80% em reproduzir prioridades humanas, com correlações de 0.75-0.80 entre ranking automático e ranking de especialistas [1], [7].

O campo de learning to rank (RankNet, LambdaMART) é particularmente promissor, pois otimiza diretamente métricas de ordenação (NDCG, MAP) em vez de classificação independente. Pesquisas de 2024 combinam aprendizado supervisionado com análise de dependências e métricas de negócio, buscando maximizar não apenas prioridade isolada, mas valor total entregue em sequências de releases [8].

/**
 * Sistema de Priorização RICE com Classificação Tática/Estratégica
 * 
 * Implementa o framework RICE (Reach, Impact, Confidence, Effort)
 * com identificação automática de decisões que requerem revisão humana.
 * 
 * Score = (Reach × Impact × Confidence%) / Effort
 * 
 * Referência: Intercom RICE Framework [9]
 */

interface Requirement {
  id: string;
  title: string;
  description: string;
  category: 'feature' | 'bug' | 'debt' | 'research';
  module: string;
  isCustomerRequest: boolean;
  hasSLAImpact: boolean;
}

interface RICEEstimates {
  reach: number;                    // Usuários impactados/mês
  impact: 0.25 | 0.5 | 1 | 2 | 3;  // Mínimo a Massivo
  confidence: number;               // 0-100%
  effort: number;                   // Pessoa-meses
}

interface ScoredRequirement extends Requirement {
  rice: RICEEstimates & { score: number };
  decisionType: 'tactical' | 'strategic';
  needsHumanReview: boolean;
  reviewReasons: string[];
}

/**
 * Calcula RICE score e classifica natureza da decisão
 */
function calculateRICEWithClassification(
  req: Requirement,
  estimates: RICEEstimates
): ScoredRequirement {
  const { reach, impact, confidence, effort } = estimates;

  // Validações de domínio
  if (effort <= 0) throw new Error('Effort must be positive');
  if (confidence < 0 || confidence > 100) throw new Error('Confidence: 0-100');

  // Cálculo RICE: (R × I × C%) / E
  const score = Math.round((reach * impact * (confidence / 100)) / effort);

  // Identificação de decisões estratégicas
  const reviewReasons: string[] = [];

  if (req.category === 'research') 
    reviewReasons.push('Requisito de pesquisa/exploração');
  if (effort > 6) 
    reviewReasons.push('Investimento > 6 pessoa-meses');
  if (req.title.toLowerCase().includes('arquitetura'))
    reviewReasons.push('Mudança arquitetural');
  if (req.title.toLowerCase().includes('plataforma'))
    reviewReasons.push('Decisão de plataforma');
  if (confidence < 50)
    reviewReasons.push('Baixa confiança nas estimativas');

  const isStrategic = reviewReasons.length >= 2;

  return {
    ...req,
    rice: { ...estimates, score },
    decisionType: isStrategic ? 'strategic' : 'tactical',
    needsHumanReview: isStrategic || confidence < 50,
    reviewReasons
  };
}

/**
 * Rankeia e separa decisões por tipo
 */
function rankAndCategorize(requirements: ScoredRequirement[]): {
  tactical: ScoredRequirement[];
  strategic: ScoredRequirement[];
} {
  const sorted = [...requirements]
    .sort((a, b) => b.rice.score - a.rice.score);

  return {
    tactical: sorted.filter(r => r.decisionType === 'tactical'),
    strategic: sorted.filter(r => r.decisionType === 'strategic')
  };
}

// Exemplo de uso
const backlog: Requirement[] = [
  {
    id: 'REQ-001',
    title: 'Autenticação dois fatores',
    description: 'Aumentar segurança com 2FA',
    category: 'feature',
    module: 'auth',
    isCustomerRequest: true,
    hasSLAImpact: false
  },
  {
    id: 'REQ-002',
    title: 'Redesign arquitetura de cache',
    description: 'Migrar para Redis Cluster',
    category: 'debt',
    module: 'infra',
    isCustomerRequest: false,
    hasSLAImpact: true
  }
];

const scored = backlog.map((req, i) => 
  calculateRICEWithClassification(req, {
    reach: i === 0 ? 8000 : 500,
    impact: i === 0 ? 2 : 1,
    confidence: i === 0 ? 85 : 45,
    effort: i === 0 ? 2 : 4
  })
);

const { tactical, strategic } = rankAndCategorize(scored);

console.log(`Táticas (IA pode decidir): ${tactical.length}`);
console.log(`Estratégicas (revisão humana): ${strategic.length}`);
strategic.forEach(r => 
  console.log(`  - ${r.title}: ${r.reviewReasons.join(', ')}`)
);

/* Output:
Táticas (IA pode decidir): 1
Estratégicas (revisão humana): 1
  - Redesign arquitetura de cache: Mudança arquitetural, Baixa confiança nas estimativas
*/

O código ilustra um ponto crucial: mesmo automatizando o cálculo, o sistema identifica quais decisões são estratégicas e lista as razões para revisão humana. Revisões sistemáticas destacam limitações persistentes dos modelos: baixa integração de stakeholders no laço de feedback, dificuldade em capturar prioridades emergentes e falta de explicabilidade [2], [8].

Geração de User Stories com LLMs: Rascunhadores, Não Autores

Large Language Models revolucionaram a geração de artefatos textuais, incluindo user stories. Dado um documento de requisitos, um LLM pode produzir dezenas de stories no formato canônico Como [persona], quero [ação] para [benefício] em segundos. A questão não é se conseguem, mas qual a qualidade do output e quanto trabalho humano economiza de fato. Estudos de 2023-2025 indicam padrões consistentes: 60-70% das stories geradas são utilizáveis com ajustes leves; 20% têm problemas de granularidade (épicos disfarçados ou subtasks); 10-20% demonstram incompreensão do domínio (como sugerir implementar funcionalidade que já existe) [10], [11]. Este último grupo é particularmente problemático porque erros sutis podem passar despercebidos na revisão.

O protótipo "GeneUS" e experimentos brasileiros mostram que LLMs geram stories bem estruturadas, mas tendem a introduzir redundâncias e requisitos implícitos já atendidos por funcionalidades existentes. A economia de tempo real é menor que aparenta: gerar 50 stories leva minutos, mas revisar adequadamente leva horas. Se a revisão precisa ser tão minuciosa quanto a escrita manual, o ganho líquido evapora [12].

O papel do Product Owner evolui de autor para curador. A pergunta é se essa mudança produz stories de qualidade equivalente e se o ato de escrever—não apenas revisar—é parte essencial do entendimento do produto.

A economia de tempo real é menor que aparenta. Gerar 50 stories leva minutos; revisar adequadamente leva horas. Se a revisão precisa ser tão minuciosa quanto seria a escrita manual, o ganho líquido evapora. Pior: o viés de ancoragem pode levar revisores a aceitar stories medíocres que não teriam escrito.

E o risco não são apenas erros factuais, mas automation bias: a tentação de aceitar output sem reflexão crítica. Em contexto pedagógico, isso levanta questão importante: estudantes estão aprendendo a raciocinar sobre cenários ou apenas a editar textos plausíveis gerados por modelos? [13]

Personas Assistidas por IA: Escala vs. Profundidade Empática

A criação tradicional de personas envolve pesquisa qualitativa intensiva: entrevistas em profundidade, análise de motivações, identificação de pain points emocionais. O resultado são perfis ricos como "Maria, 45, professora, cuida da mãe doente, só tem 15 minutos livres no almoço para estudar". Esta narrativa gera empatia que guia decisões de design. Com disponibilidade de grandes volumes de analytics e reviews, surgiram propostas de usar ML para identificar segmentos latentes e sintetizar personas "estatísticas" [14].

Do ponto de vista técnico, clustering (k-means, DBSCAN, Gaussian Mixture Models) separa usuários por padrões de uso, enquanto LLMs rotulam segmentos com narrativas coerentes. Ferramentas como Productboard e Linear já oferecem agrupamento de usuários por comportamento com descrições semi-automáticas.

No entanto, pesquisas de 2024-2025 apontam problemas sérios de viés e superficialidade: LLMs tendem a reforçar estereótipos, exagerando marcadores demográficos e simplificando identidades complexas—especialmente para grupos marginalizados. Análises comparando personas humanas com geradas por modelos verificaram ênfase desproporcional em raça, gênero e traços culturais estereotipados, enquanto motivações profundas eram negligenciadas [15], [16].

/**
 * Comparação estrutural: Persona Tradicional vs. Gerada por IA
 */

interface TraditionalPersona {
  name: string;
  quote: string;           // Citação REAL de entrevista
  context: string;         // História pessoal profunda
  goals: string[];
  painPoints: string[];
  source: 'interview';
  sampleSize: number;      // Geralmente 1-5 pessoas profundamente entendidas
}

interface AIGeneratedPersona {
  segmentId: string;
  behavioralPatterns: {
    avgSessionDuration: number;
    featureUsage: Record<string, number>;
    churnProbability: number;
  };
  inferredGoals: string[];      // Inferido de comportamento
  inferredPainPoints: string[]; // Inferido de feedback agregado
  dataPoints: number;           // Milhares, superficialmente entendidos
  biasWarnings: string[];       // Alertas de viés detectados
}

// Persona tradicional: profundidade empática
const maria: TraditionalPersona = {
  name: 'Maria',
  quote: 'Só consigo estudar no horário de almoço, entre corrigir provas e preparar a próxima aula.',
  context: 'Professora de 45 anos, cuida da mãe com Alzheimer nos fins de semana. Única renda estável da família.',
  goals: ['Completar certificação em 6 meses', 'Conseguir promoção para coordenadora'],
  painPoints: ['Conteúdo muito longo', 'Não consegue retomar de onde parou'],
  source: 'interview',
  sampleSize: 1
};

// Persona IA: escala estatística
const cluster42: AIGeneratedPersona = {
  segmentId: 'CLUSTER-42',
  behavioralPatterns: {
    avgSessionDuration: 12.5,
    featureUsage: { mobile: 0.78, bookmarks: 0.65, speed_1_5x: 0.52 },
    churnProbability: 0.23
  },
  inferredGoals: ['Aprendizado fragmentado', 'Progressão profissional'],
  inferredPainPoints: ['Sessões longas correlacionam com abandono'],
  dataPoints: 3247,
  biasWarnings: ['Sobre-representação região Sudeste (45%)', 'Sub-representação 60+ anos']
};

console.log('TRADICIONAL: Sabemos POR QUE estuda no celular');
console.log(`  "${maria.quote}"`);
console.log('\nIA: Sabemos O QUE fazem, não POR QUE');
console.log(`  ${cluster42.dataPoints} pessoas, ${cluster42.behavioralPatterns.avgSessionDuration}min/sessão`);

Trabalhos em HCI argumentam que "personas geradas por IA" podem produzir falsa sensação de representatividade, mascarando lacunas de pesquisa. Uma abordagem promissora é usar personas geradas como proto-personas — hipóteses iniciais que orientam perguntas de pesquisa e são posteriormente validadas em campo [15], [16].

A tensão é irreconciliável por design: profundidade empática requer imersão em histórias individuais; representatividade estatística requer amostragem ampla. A abordagem híbrida — usar clustering para identificar segmentos, depois entrevistar representantes de cada — oferece compromisso pragmático, mas não resolve a questão fundamental de para que servem personas.

Viés Algorítmico: O Que a IA Não Vê

Quatro tipos de viés afetam decisões automatizadas em priorização e design:

Viés histórico: Modelos treinados em decisões passadas perpetuam padrões anteriores. Se o PM anterior despriorizou sistematicamente acessibilidade, o algoritmo replicará esse padrão, mesmo que a estratégia tenha mudado.

Viés de dados: Análises comportamentais capturam apenas usuários atuais. Personas geradas não representam usuários potenciais excluídos por barreiras de acessibilidade ou que abandonaram frustrados.

Viés de confirmação algorítmica: Reforça padrões existentes em vez de explorar novos. Modelo treinado em requisitos que funcionaram não identifica oportunidades disruptivas nunca tentadas.

Viés demográfico: Sub-representação em dados de treinamento. Se 80% dos usuários em analytics são de uma região, personas refletirão essa região desproprioritariamente.

Algoritmos otimizam para o passado. Estratégia olha para o futuro. Usar IA para decidir o que já funcionou é razoável; usá-la para decidir o que tentar de novo é arriscado.

Estudos sobre automation bias mostram que humanos tendem a confiar em recomendações automatizadas mesmo quando conflitam com sinais contextuais. Literaturas de requisitos e AI ethics convergem: a decisão final deve permanecer humana, com IA como sistema de apoio [13], [17].

Ferramentas e Workflows Híbridos na Prática

Times não constroem modelos do zero: apoiam-se em ecossistema de ferramentas. Productboard oferece análise de feedback com IA, conectando notas de clientes a ideias de produto [5]. Aha! enfatiza planejamento estratégico com modelos de priorização customizáveis [18]. Linear adiciona auto-priorização baseada em urgência [19]. Plataformas emergentes como ProdPad incluem assistentes LLM para resumir feedback [20].

Para integração em equipes ágeis, um desenho comum envolve três camadas: (1) coleta e centralização de dados; (2) motores de IA que ranqueiam e sintetizam; (3) painéis de revisão onde PMs discutem, ajustam e aprovam. A adoção bem-sucedida exige governança: definição de quem altera pesos, como são conduzidas revisões de viés, e como divergências entre IA e liderança são resolvidas [6], [21].

Conclusão: IA como Parceiro Argumentativo

A síntese pragmática reconhece que diferentes decisões toleram diferentes níveis de automação. Bugs em produção com impacto mensurável podem ser priorizados automaticamente. Pesquisas exploratórias sobre novos mercados exigem visão estratégica que nenhum histórico contém.

O uso de IA na priorização e design de cenários não é apenas questão de eficiência, é reconfiguração de como decisões de produto são informadas e distribuídas entre humanos e sistemas. Algoritmos de ranking, LLMs e ferramentas de PM demonstram capacidade de reduzir esforço mecânico e revelar padrões ocultos. Ao mesmo tempo, pesquisas evidenciam riscos de viés, superficialidade e complacência.

A provocação central é encarar a IA como parceiro argumentativo, não como juiz: sistema que propõe ordens de backlog, histórias e personas, enquanto POs, PMs e designers exercem julgamento crítico, ajustam pesos, contestam recomendações e assumem responsabilidade. O desafio para você é desenhar arranjos híbridos: decidir quando seguir o algoritmo, quando discordar e, como explicar essas escolhas a times, clientes e à sociedade.

O papel do Product Manager evolui de decisor universal para curador estratégico. IA processa o volume, identifica padrões, sugere rankings. Humanos validam estrategicamente, sobrescrevem quando contexto exige, e assumem responsabilidade por decisões que algoritmos não podem justificar. Esta divisão não diminui o papel humano—pelo contrário, o eleva para onde genuinamente agrega valor: nas decisões que definem direção, não nas que apenas ordenam tarefas.

Referências

[1] A. Fatima et al., "Software Requirements Prioritisation Using Machine Learning," Proceedings of the 15th International Conference on Agents and Artificial Intelligence - Volume 3: ICAART, SciTePress, pp. 893-900, 2023.

Link: https://doi.org/10.5220/0011796900003393
Por que ler: Correlação 0.75-0.80 entre ranking ML e especialistas humanos

[2] K. Fadlallah, "Machine Learning: A Survey of Requirements Prioritization," Journal of Artificial Intelligence and Computational Technology, vol. 1, no. 1, 2024.

Link: https://ojs.omgfzc.com/index.php/JAICT/article/view/34
Por que ler: Survey abrangente de técnicas supervised e learning-to-rank

[3] Interaction Design Foundation, "Feature Prioritization," IDF Literature.

Link: https://www.interaction-design.org/literature/topics/feature-prioritization
Por que ler: Referência consolidada sobre MoSCoW, Kano e RICE

[4] ProductPlan, "Most Popular Prioritization Frameworks," 2024.

Link: https://www.productplan.com/?p=9835
Por que ler: Visão prática de frameworks tradicionais em PM

[5] Productboard, "AI for Product Managers," 2024.

Link: https://www.productboard.com/blog/ai-for-product-managers/
Por que ler: Perspectiva de vendor sobre automação de priorização

[6] Reforge, "How AI Changes Product Management," 2024.

Link: https://www.reforge.com/blog/how-ai-changes-product-management
Por que ler: Perspectiva prática de adoção em empresas

[7] P. Talele, "Classification and Prioritisation of Software Requirements Using ML," 11th International Conference on Cloud Computing, Data Science & Engineering (Confluence), Noida, India, pp. 912-918, 2021.

Link: https://doi.org/10.1109/Confluence51648.2021.9377190
Por que ler: Acurácia >80% em reproduzir prioridades humanas

[8] A. M. Radwan et al., "AI-Driven Prioritization Techniques in Agile Methodologies: A Systematic Literature Review," International Journal of Advanced Computer Science and Applications (IJACSA), vol. 15, no. 9, 2024.

Link: https://dx.doi.org/10.14569/IJACSA.2024.0150983
Por que ler: Revisão sistemática de 2024 com limitações documentadas

[9] Intercom, "RICE: Simple prioritization for product managers," 2018.

Link: https://www.intercom.com/blog/?p=8973
Por que ler: Documentação original do framework RICE

[10] T. Rahman et al., "Automated User Story Generation with Test Case Generation using GPT-4," arXiv:2404.01558, 2024.

Link: https://arxiv.org/abs/2404.01558
Por que ler: 60-70% de stories utilizáveis com edição mínima

[11] R. Santos et al., "User Stories: Does ChatGPT Do It Better?," Proceedings of the 27th International Conference on Enterprise Information Systems - Volume 2: ICEIS, SciTePress, pp. 47-58, 2025.

Link: https://dx.doi.org/10.5220/0013365500003929
Por que ler: Comparação direta LLM vs. humanos em qualidade de stories

[12] R. Santos et al., "AI-Generated User Stories: Are They Good Enough?," 39º Simpósio Brasileiro de Engenharia de Software (SBES), Recife/PE, pp. 741-747, 2025.

Link: https://doi.org/10.5753/sbes.2025.11321
Por que ler: Estudo brasileiro com análise de granularidade e erros de domínio

[13] W. Laurito et al., "AI-AI Bias: Large Language Models Favor Communications by AI," Proc. Natl. Acad. Sci. U.S.A., vol. 122, no. 31, e2415697122, 2025.

Link: https://doi.org/10.1073/pnas.2415697122
Por que ler: Evidência de automation bias em sistemas de decisão

[14] A. Fellah, "AI-Infused Agile and Scrum: Redefining Software Engineering Practices," J. Comput. Sci. Coll., vol. 40, no. 7, pp. 30-35, Apr. 2025.

Link: https://dl.acm.org/doi/abs/10.5555/3744154.3744159
Por que ler: Visão integrada de IA em práticas ágeis

[15] P. N. Venkit et al., "A Tale of Two Identities: An Ethical Audit of Human and AI-Crafted Personas," arXiv:2505.07850, 2025.

Link: https://arxiv.org/abs/2505.07850v1
Por que ler: Documenta viés de estereótipos em personas geradas por LLMs

[16] D. Amin et al., "Generative AI personas considered harmful? Putting forth twenty challenges of algorithmic user representation in human-computer interaction," International Journal of Human-Computer Studies, vol. 205, 103657, Nov. 2025.