DEV Community

Cover image for #02Python - Outliers e seus tipos
Ana Carolina Branco Neumann
Ana Carolina Branco Neumann

Posted on

#02Python - Outliers e seus tipos

Outliers são valores atípicos que se diferenciam do restante dos dados em um conjunto, normalmente por estarem em valores extremos. Eles podem resultar de erros de medição, entradas incorretas, eventos raros ou, até mesmo, representar informações sobre o fato observado.

Os outliers podem ser divididos em diferentes tipos com base em sua natureza. Seguem alguns tipos de outliers:

  1. Outliers univariados (apenas 1 variável): se refere a um valor distoante em relação a uma única variável.
    Um exemplo ilusório se dá num concurso de comer pizza, onde todos os competidores comem de 3 a 5 fatias, mas uma pessoa devora 20 fatias e ainda pede mais! Esse é o outlier univariado do grupo.

    Pode causar distorções em medidas (média, mediana, etc.) e gráficos, afetando principalmente as estatísticas relacionadas a variável.

  2. Outliers multivariados (entre várias variáveis): são valores identificados quando observamos várias entidades ao mesmo tempo. A detecção de outliers multivariados é mais complexa, devido a requerer considerações de interações entre variáveis.
    Um exemplo se dá numa festa à fantasia onde a maioria das pessoas escolheu trajes comuns, mas tem alguém que aparece trajado de dragão, flutuando com um jetpack e carregando um violino gigante. Parece que o "Dragão Espacial Músico" é um outlier multivariado.
    Pode influenciar análises que envolvem interações entre variáveis, como gráficos de mapas de calor e correlações. Levando a conclusões erradas se não forem tratados adequadamente.

  3. Outliers globais: são aqueles que estão distantes significativamente de todo o resto dos dados em todo o conjunto de dados.
    Por exemplo, na aula de educação física, onde a professora pediu que todos escrevessem suas alturas em uma folha. Enquanto todos estavam em torno de 1,50m a 1,70m, o "Super Jogador de Basquete" escreveu 2,20m no papel, ele é o outlier global.
    Esse tipo específico, distorce evidentemente as análises, como a média, tornando menos representativa em relação aos dados, e pode distorcer a visão global dos dados.

  4. Outliers contextuais: são observados baseado no contexto específico do problema.
    Por exemplo, em um estudo de salários em uma empresa, um valor 10x acima da média é incomum, e algo a ser estudado. Mas quando observado pode se referir a um alto cargo na organização. Embora seja muito maior que os demais, sua presença não é um erro.
    O impacto, nesse caso, pode ser menor, pois sua justificativa está ligada a circunstâncias. Normalmente, não distorce evidentemente as estatísticas agregadas se for tratado como um caso especial.

  5. Outliers de dados replicados: são outliers encontrados para dados variantes coletados em vários momentos ou locais.
    Eles podem surgir devido a variações temporais ou espaciais, ou devido a mudanças na forma de medição. E podem fornecer informações sobre as mudanças no fenômeno ao longo do tempo ou do espaço.
    Imagine que você, todo dia, tem uma reunião morosa no trabalho, e com uma régua da sua escrivaninha, mede sua caneca todos os dias. No primeiro dia, você registra 12 cm, no segundo, 13 cm, e no terceiro, 11 cm. Não significa que a caneca está crescendo, ou que a régua está mudando, mas sua medição está variando (12, 13, 11 centímetros).

  6. Outliers influentes: é um valor que impacta significativamente as análises estatísticas, como ajuste de modelos de regressão. Esse tipo de outlier pode afetar a inclinação e o ajuste da linha de regressão, e também, modelos estatísticos, podendo resultar em conclusões errôneas se não forem tratados adequadamente.
    Um exemplo se dá em uma concessionária que vende a maioria dos carros populares entre R$ 30.000 e R$ 50.000. Um carro de luxo foi vendido por R$ 150.000. Essa venda destoante teve um grande impacto nas métricas de vendas e na média de preços de carros vendidos.

  7. Outliers aleatórios: são ocasionados por erros de medição ou variações naturais nos dados. Ocorrem de maneira aleatória e não representam padrões significativos.
    Um exemplo se dá em uma indústria, durante um experimento de medição de temperatura, os sensores geralmente registram entre 22°C e 25°C. Mas, em uma leitura, o sensor indicou 500°C.
    Isso pode ter sido um erro de medição e não indica a temperatura real.

É importante notar que nem todos os outliers são erros ou falhas no processo. Alguns trazem informações sobre o fenômeno estudado ou indicam situações especiais. Ao lidar com outliers, é essencial entender o contexto e decidir se eles devem ser tratados, transformados ou mantidos.

Top comments (0)