DEV Community

Victor Vilela
Victor Vilela

Posted on

Overview Geral de uma Análise Descritiva

Classificação das Variáveis

Uma variável é uma característica observada entre os indivíduos de uma população ou amostra. As variáveis são classificadas em:

  • Qualitativa ou categórico (não numéricos)

    • Nominal -> São dados rotulados sem uma ordenação natural que categorizam um agrupamento. Exemplo: cor, estado de origem, número de CPF, etc.
    • Ordinal -> São dados que possuem uma ordenação na sua classificação. Exemplo: classe social (A, B, C, D e E), temperatura (quente e frio), altura (baixo, médio e alto), etc.
    • Quantitativa (numéricos)
    • Discreta -> Possui valores numéricos contáveis. Exemplo: número de quartos em uma casa, número de alunos em uma sala de aula, etc.
    • Contínuo -> Possui valores infinitos dentro de um intervalo. Exemplo: peso, altura, distâncias, etc.

Medidas de Tendência Central

Em toda população ou amostra coletada para estudo, é levantado qual é o comportamento mais comum deste conjunto com base ginas medidas de tendência central. Isto é, se escolhessemos um registro aleatoriamente, quais seriam as características que melhor descreveriam todo nosso conjunto?

Para descrever cada medida, iremos adotar o seguinte conjunto de dados:

Renda Mensal = [2000, 50000, 2038, 2423, 1896, 1552, 1910, 2000, 1584, 2097]

Média Aritmética

A medida mais comum no nosso cotidiano, em que somamos cada elemento e dividimos pela quantidade de elementos somadas.

Fórmula Média Aritmética

Essa medida, entretanto, é extremamente sensível na presença de outliers no conjunto analisado, podendo influenciar diretamente na sua resposta.
Exemplo: A média do nosso conjunto de dados sobre a Renda Mensal é de R$6770,50. Isso porque o valor de R$50000 é um valor muito discrepante dos demais elementos e influencia diretamente no seu cálculo.

Mediana

A mediana é uma medida que não é afetada por outliers. Seu cálculo consiste em organizar os dados em ordem crescente e selecionar qual é o valor no meio desse conjunto.

Fórmula mediana

Exemplo: Utilizando o nosso conjunto de dados, a mediana da Renda Mensal é de R$1957,50. Diferente da média, a mediana é mais robusta contra outliers.

Moda

A moda é o valor mais frequente em um conjunto de dados.
Em um conjunto podemos obter apenas uma moda (unimodal) ou muitas modas (multimodal).

Exemplo: No nosso conjunto de Renda Mensal, temos o valor de R$1896,00 de modo que podemos defini-lo no nosso conjunto como unimodal.

Medidas de Dispersão

Além de identificar quais são as características em comum, através das medidas de tendência central, precisamos mapear também o quanto os valores dos nossos dados variam dentro da sua distribuição.

Para esse tópico, vamos adotar o seguinte conjunto de dados:

Altura (m) = [1.42, 1.59, 1.68, 1.74, 1.75, 1.72, 1.6, 1.7, 1.75, 1.8, 2.2 ]

Amplitude

O cálculo da amplitude é simples, captura o maior valor do conjunto e subtrai com o menor valor do conjunto.

Fórmula Amplitude

Essa medida não gera muito valor quando analisada sozinha, pois como são calculadas apenas com os valores de suas extremidades, não temos visibilidade do seu intervalo como um todo.

Exemplo: No nosso conjunto de Altura a amplitude é de 0.78 metros.

Variância

A variância indica o afastamento que cada elemento do conjunto possui em relação a média aritmética. Isto é, quanto mais próximo os valores estão da média, menos variância nossos dados possuem.

Fórmula Variância

Um ponto importante a ser observado é que podemos ter valores tanto acima, quanto abaixo da nossa média e, durante a somatória desses valores, pode ocorrer a anulação de valores no seu cálculo.
Exemplo: A média do nosso conjunto é de 1.72m
1.42 - 1.72 -> - 0.3
2.20 - 1.72 -> + 0.48

Para contornar essa anulação, elevamos ao quadrado conforme a fórmula apresenta.
Exemplo: A média do nosso conjunto é de 1.72m
(1.42 - 1.72)² -> + 0.09
(2.20 - 1.72)² -> + 0.23

Exemplo: Por fim, a variância do nosso conjunto de Altura é de 0.0329 metros.

Desvio Padrão

Para corrigirmos os valores ao quadrado no cálculo da variância, obtemos o desvio padrão, que não é nada mais que a raiz quadrada da variância.

Fórmula Desvio Padrão

Exemplo: Dessa forma, o desvio padrão do conjunto Altura é de 0.1814 metros.

Percentil

O percentil é outra forma de medir a dispersão dos dados do nosso conjunto.
Nesse cálculo também ordenamos a população para segmentar a posição do valor através de um determinado percentual. Se analisarmos bem, quando é dividido o meio do conjunto, obtemos novamente a mediana, conforme o Q2 abaixo apresenta.

Entretanto, o percentil permite que você delimite qualquer outro valor percentual, os mais utilizados são o 1º Quartil que representa a posição que nossos dados se encontram nos 25% do conjunto e o 3° Quartil que representa a posição nos 75%.

Fórmula Percentil

Distância Inter-Quartil

Após identificarmos os valores de Q1 e Q3, podemos obter qual o intervalo em que os dados estão mais concentrados no nosso conjunto.

Fórmula IQR

Medidas de Forma

Assim que identificamos o quanto nossos dados estão dispersos na população, precisamos identificar como está o formato da distribuição desses dados.
Além do formato, saber qual o tipo de distribuição, permite qual teste e modelo será utilizado para o projeto.

Gráficos Medidas de Forma

Assimetria (Skewness)

Essa medida representa a distribuição dos valores em torno das medidas de tendências centrais.

No caso de obtermos o mesmo valor da média, mediana e moda, nossa assimetria obtém o valor de 0, apresentando uma distribuição simétrica perfeita.

Gráfico Assimetria Normal

No valores positivos de assimetria, a cauda da nossa distribuição está posicionada mais à direita, o que significa que nossos dados possuem altos valores que levam a média ser maior que a mediana.

No valores negativos de assimetria, a cauda da nossa distribuição está posicionada mais à esquerda, o que significa que nossos dados possuem baixos valores que levam a média ser menor que a mediana.

Gráfico Assimetria à direita e à esquerda

Curtose (Kurtosis)

A curtose é uma medida do quão achatada ou pontuda nossa distribuição representa.

Quanto maior o valor, significa que contém uma concentração da medida central com pouca variância, o que visualmente identificamos um pico no nosso gráfico, essa distribuição é denominada de leptocúrtica.

Quanto menor o valor, maior variabilidade nossos dados obteve, representando quase que uma linha reta na distribuição do gráfico, essa distribuição é denominada de platicúrtica.

Ao ponto de haver um equilíbrio entre o pico e a cauda do gráfico, temos a distribuição mesocúrtica, que se assemelha a uma distribuição normal.

Gráfico Curtose

Top comments (0)