Medidas de posição são conceitos utilizados na estatística descritiva para entender um conjunto de dados sob diferentes aspectos e são amplamente aplicadas na análise de dados.
Para facilitar o entendimento e proporcionar uma visualização do que será explicado, usarei como exemplo um conjunto de dados de uma turma fictícia com 20 alunos.
import pandas as pd
turma = {
'idade': [12, 7, 7, 9, 7, 7, 11, 9, 11, 12, 12, 11, 12, 9, 6, 11, 10, 10, 7, 12],
'instrumento': ['Violão', 'Piano', 'Flauta', 'Bateria', 'Violino', 'Bateria', 'Bateria', 'Piano', 'Bateria', 'Flauta', 'Bateria', 'Piano', 'Flauta', 'Violão', 'Bateria', 'Piano', 'Violão', 'Violão', 'Violino', 'Flauta'],
'nota': [8, 9, 8, 6, 8, 10, 10, 7, 8, 10, 9, 7, 9, 5, 8, 10, 8, 6, 8, 6]
}
df = pd.DataFrame(turma)
Fazendo uma análise introdutória, observamos que o aluno mais novo da turma tem 6 anos, enquanto o mais velho tem 12. No entanto, isso não nos dá uma visão completa sobre a turma como um todo. Vamos realizar algumas análises utilizando medidas de posição para entender melhor esse conceito.
print(df['idade'].min())
print(df['idade'].max())
# Output: 6, 12
Média
Tenho certeza que você já precisou calcular a sua média de notas na escola ou na faculdade. É exatamente assim que iremos utilizar a média no nosso conjunto de dados.
A escola de música deseja premiar a turma que obteve uma média de 8 no teste de leitura e escrita de partituras. Para descobrir se a turma analisada consegue o prêmio, precisamos somar todas as notas e dividir pelo número de alunos.
media = df['nota'].mean()
print(media)
# Output: 8.0
A média da turma é 8, então os alunos conseguem o prêmio da escola.
Vale destacar que o cálculo da média pode ser muito influenciado por valores extremos, o que pode distorcer a interpretação dos dados, dependendo do conjunto.
Mediana
A mediana é o valor central quando os dados estão ordenados. Se tivermos um número ímpar de dados, a mediana é o valor central. No entanto, como temos um número par de dados, a mediana é a média dos dois valores centrais (10º e 11º).
A mediana é útil para entender a tendência central de um conjunto de dados sem ser influenciada por valores extremos. Suponha que, dentre os alunos da turma, os dados das notas fossem:
'nota': [0, 9, 8, 6, 8, 10, 10, 7, 8, 10, 9, 7, 9, 5, 8, 10, 8, 6, 8, 6]
Um aluno faltou à prova e não conseguiu repor a nota, ficando com 0 na avaliação final. Assim, a média da turma cai de 8 para 7,6. Esse valor atípico é chamado de outlier, que ocorre quando um valor se desvia muito da série.
Embora a diferença possa parecer pequena, isso poderia afetar uma análise de desempenho acadêmico de toda a turma. Para obter uma visão mais realista do desempenho central dos alunos, calculamos a mediana.
mediana = df['nota'].median()
print(mediana)
# Output: 8.0
Concluímos que, mesmo com a nota zero de um único aluno, isso não reflete o desempenho geral da turma, que obteve 8 como resultado da mediana.
Moda
A moda é o valor que aparece com maior frequência em um conjunto de dados. É especialmente útil para analisar dados categóricos, onde a média e a mediana não são aplicáveis.
Por exemplo, baseado no nosso conjunto de dados, a escola deseja descobrir qual é o instrumento favorito dos alunos para decidir em quais aulas investir no próximo ano.
# utilizando o método 'mode'
moda = df['instrumento'].mode()
print(moda)
# contando a frequência de cada instrumento e verificando o que mais aparece:
frequencia_instrumentos = df['instrumento'].value_counts()
max_instrumentos = frequencia_instrumentos.max()
print(frequencia_instrumentos)
print(max_instrumentos)
# Output:
0 Bateria
Name: instrumento, dtype: object
instrumento
Bateria 6
Violão 4
Piano 4
Flauta 4
Violino 2
Name: count, dtype: int64
6
Agora, a escola sabe que deve investir mais em aulas de percussão, já que a bateria é o instrumento mais popular entre os alunos da turma.
A moda também pode ter mais de um valor. Se os alunos empatarem entre violão e bateria, por exemplo, a moda poderia ser ambos os instrumentos.
Em resumo:
- Média: Oferece uma visão geral do desempenho médio, mas pode ser distorcida por valores extremos.
- Mediana: Reflete o valor central dos dados, fornecendo uma visão mais robusta quando há outliers presentes.
- Moda: Identifica o valor mais frequente, sendo útil para dados categóricos e para entender preferências ou padrões dominantes.
Compreender essas medidas ajuda a construir uma base sólida para a análise de dados e a tomar decisões informadas com base em nosso conjunto de dados.
Top comments (0)