Ana Carolina Neumann Rodrigues

Posted on Jun 2

Seu modelo de regressão mente quando X não varia — e você provavelmente não percebe

#linearregression #machinelearning #statistics

Tem uma armadilha clássica em projetos de ciência de dados com regressão linear que pega muita gente: o modelo treina, a loss parece ok, o R² até aparece razoável — mas as estimativas de coeficiente são uma bagunça.

O motivo, quase sempre, é simples: X não varia o suficiente.

O problema em 30 segundos

Na regressão linear simples:

Y = β₀ + β₁X + ε

A variância do coeficiente estimado é:

Var(β̂₁) = σ² / Σ(xᵢ - x̄)²

Lê assim:

Var(β̂₁) = ruído do modelo / variação de X

Duas conclusões diretas:

Muito ruído em Y → estimativa instável
Pouca variação em X → estimativa instável

O denominador é o ponto que costuma ser ignorado.

Exemplo concreto: previsão de lead time

Você trabalha com supply chain e quer prever o lead time de entrega (em dias) com base na distância percorrida (em km).

Cenário A: dados de uma só rota regional

Distância (km)	Lead Time (dias)
480	3
490	4
500	3
510	4
505	3

Todo mundo está na mesma rota, percorrendo praticamente a mesma distância.

O modelo olha pra isso e pensa:

"X quase não mudou. Como vou saber o efeito de X em Y?"

Qualquer variação no lead time pode ser atraso no porto, problema do fornecedor, feriado — não necessariamente distância. A inclinação estimada vai ser instável e pouco confiável.

Cenário B: dados de múltiplas rotas

Distância (km)	Lead Time (dias)
80	1
250	2
600	4
1.200	7
2.800	12
4.500	18

Agora o modelo tem "evidência horizontal" de verdade. Ele vê embarques curtos, médios e longos — e consegue separar o efeito da distância do ruído aleatório.

Por que variação em X importa tanto?

A fórmula do coeficiente estimado é:

β̂₁ = Σ(xᵢ - x̄)(yᵢ - ȳ) / Σ(xᵢ - x̄)²

O denominador é o mesmo que aparece na variância: quanto X varia.

Quando X mal se move, o denominador fica pequeno. Qualquer ruído em Y distorce muito a razão. O resultado é um coeficiente que parece razoável num treino mas oscila absurdamente entre diferentes amostras.

Três cuidados que ninguém te conta

1. Variação causada por outlier não conta como variação boa

Imagina que seus dados de distância são assim:

480, 490, 500, 510, 4800

Matematicamente, X tem muita variação. Na prática, ela vem de um único ponto extremo.

Esse ponto tem alta alavancagem — ele puxa a reta inteira. O modelo fica "confiante" nos cálculos, mas essa confiança é falsa.

2. Variação em X não resolve relação não-linear

Se o lead time cresce exponencialmente com a distância (armazém regional → cross-border), uma reta pode não capturar o padrão.

Ter bastante variação em X ajuda, mas não substitui escolher o modelo certo.

3. Em regressão múltipla, X precisa variar independentemente

Adicionou distância e tempo em trânsito no mesmo modelo? Elas andam juntas — embarques mais longos tendem a ter mais tempo em trânsito.

Isso é multicolinearidade. O modelo não consegue separar:

O lead time aumenta por causa da distância ou do tempo em trânsito?

Em regressão múltipla a pergunta vira: existe variação em X₁ que não seja só repetição de X₂?

Resumo mental para guardar

Var(β̂₁) = ruído / variação de X

Situação	Efeito
Pouca variação em X	Estimativa instável ⚠️
Variação só por outlier	Confiança falsa ⚠️
X e X₂ colineares	Multicolinearidade ⚠️
Variação ampla e útil	Estimativa confiável ✅

A ideia central é simples:

Para estimar o efeito de X, o modelo precisa observar X mudando.

Se seus dados de supply chain vêm de uma janela temporal curta, de uma região só, ou de um perfil de fornecedor muito homogêneo — revise antes de confiar nos coeficientes.

Curtiu? Me segue para mais conteúdo de estatística aplicada a dados de supply chain.

DEV Community