DEV Community

Cover image for Seu modelo de regressão mente quando X não varia — e você provavelmente não percebe

Seu modelo de regressão mente quando X não varia — e você provavelmente não percebe

Tem uma armadilha clássica em projetos de ciência de dados com regressão linear que pega muita gente: o modelo treina, a loss parece ok, o R² até aparece razoável — mas as estimativas de coeficiente são uma bagunça.

O motivo, quase sempre, é simples: X não varia o suficiente.


O problema em 30 segundos

Na regressão linear simples:

Y = β₀ + β₁X + ε
Enter fullscreen mode Exit fullscreen mode

A variância do coeficiente estimado é:

Var(β̂₁) = σ² / Σ(xᵢ - x̄)²
Enter fullscreen mode Exit fullscreen mode

Lê assim:

Var(β̂₁) = ruído do modelo / variação de X
Enter fullscreen mode Exit fullscreen mode

Duas conclusões diretas:

  • Muito ruído em Y → estimativa instável
  • Pouca variação em X → estimativa instável

O denominador é o ponto que costuma ser ignorado.


Exemplo concreto: previsão de lead time

Você trabalha com supply chain e quer prever o lead time de entrega (em dias) com base na distância percorrida (em km).

Cenário A: dados de uma só rota regional

Distância (km) Lead Time (dias)
480 3
490 4
500 3
510 4
505 3

Todo mundo está na mesma rota, percorrendo praticamente a mesma distância.

O modelo olha pra isso e pensa:

"X quase não mudou. Como vou saber o efeito de X em Y?"

Qualquer variação no lead time pode ser atraso no porto, problema do fornecedor, feriado — não necessariamente distância. A inclinação estimada vai ser instável e pouco confiável.


Cenário B: dados de múltiplas rotas

Distância (km) Lead Time (dias)
80 1
250 2
600 4
1.200 7
2.800 12
4.500 18

Agora o modelo tem "evidência horizontal" de verdade. Ele vê embarques curtos, médios e longos — e consegue separar o efeito da distância do ruído aleatório.

GIF mostrando uma reta ajustando bem em dados espalhados


Por que variação em X importa tanto?

A fórmula do coeficiente estimado é:

β̂₁ = Σ(xᵢ - x̄)(yᵢ - ȳ) / Σ(xᵢ - x̄)²
Enter fullscreen mode Exit fullscreen mode

O denominador é o mesmo que aparece na variância: quanto X varia.

Quando X mal se move, o denominador fica pequeno. Qualquer ruído em Y distorce muito a razão. O resultado é um coeficiente que parece razoável num treino mas oscila absurdamente entre diferentes amostras.


Três cuidados que ninguém te conta

1. Variação causada por outlier não conta como variação boa

Imagina que seus dados de distância são assim:

480, 490, 500, 510, 4800
Enter fullscreen mode Exit fullscreen mode

Matematicamente, X tem muita variação. Na prática, ela vem de um único ponto extremo.

Esse ponto tem alta alavancagem — ele puxa a reta inteira. O modelo fica "confiante" nos cálculos, mas essa confiança é falsa.

Variações de X


2. Variação em X não resolve relação não-linear

Se o lead time cresce exponencialmente com a distância (armazém regional → cross-border), uma reta pode não capturar o padrão.

Ter bastante variação em X ajuda, mas não substitui escolher o modelo certo.


3. Em regressão múltipla, X precisa variar independentemente

Adicionou distância e tempo em trânsito no mesmo modelo? Elas andam juntas — embarques mais longos tendem a ter mais tempo em trânsito.

Isso é multicolinearidade. O modelo não consegue separar:

O lead time aumenta por causa da distância ou do tempo em trânsito?

Em regressão múltipla a pergunta vira: existe variação em X₁ que não seja só repetição de X₂?


Resumo mental para guardar

Var(β̂₁) = ruído / variação de X
Enter fullscreen mode Exit fullscreen mode
Situação Efeito
Pouca variação em X Estimativa instável ⚠️
Variação só por outlier Confiança falsa ⚠️
X e X₂ colineares Multicolinearidade ⚠️
Variação ampla e útil Estimativa confiável ✅

A ideia central é simples:

Para estimar o efeito de X, o modelo precisa observar X mudando.

Se seus dados de supply chain vêm de uma janela temporal curta, de uma região só, ou de um perfil de fornecedor muito homogêneo — revise antes de confiar nos coeficientes.


Curtiu? Me segue para mais conteúdo de estatística aplicada a dados de supply chain.

Top comments (0)