Introdução:
A distribuição de frequência é uma técnica essencial em Data Science para entender a frequência com que diferentes valores ocorrem em um conjunto de dados. Neste artigo, exploraremos os conceitos fundamentais da distribuição de frequência e demonstraremos sua aplicação prática com exemplos usando Python. Utilizaremos um dataset fictício gerado com Numpy para ilustrar esses conceitos de forma tangível.
1. O que é Distribuição de Frequência?
A distribuição de frequência é uma tabela que resume a frequência (número de ocorrências) de cada valor ou intervalo de valores em um conjunto de dados. Ela fornece uma visão clara da distribuição e padrões presentes nos dados.
2. Criando um Dataset Fictício com Numpy:
Vamos começar gerando um dataset fictício para representar uma situação do mundo real.
import numpy as np
import pandas as pd
# Definir semente para reproducibilidade
np.random.seed(42)
# Criar dataset fictício com valores normalmente distribuídos
dados = pd.DataFrame({
'Notas': np.random.normal(loc=70, scale=10, size=200),
})
3. Tabela de Frequência Simples:
Vamos criar uma tabela de frequência simples para entender a distribuição das notas no nosso dataset.
# Criar a tabela de frequência simples
tabela_frequencia = pd.value_counts(pd.cut(dados['Notas'], bins=10, include_lowest=True, right=False), sort=False)
# Exibir a tabela de frequência simples
print(tabela_frequencia)
4. Histograma:
O histograma é uma representação visual da distribuição de frequência e é especialmente útil para conjuntos de dados contínuos.
import matplotlib.pyplot as plt
import seaborn as sns
# Histograma
plt.figure(figsize=(10, 6))
sns.histplot(dados['Notas'], bins=10, color='skyblue', kde=True)
plt.title('Histograma das Notas')
plt.xlabel('Notas')
plt.ylabel('Frequência')
plt.show()
5. Distribuição de Frequência Cumulativa:
A distribuição de frequência cumulativa mostra a acumulação gradual das frequências ao longo dos valores. Isso pode ser útil para entender a proporção acumulativa de dados abaixo de um determinado ponto.
# Criar a tabela de frequência cumulativa
tabela_frequencia_cumulativa = tabela_frequencia.cumsum()
# Exibir a tabela de frequência cumulativa
print(tabela_frequencia_cumulativa)
6. Gráfico de Frequência Cumulativa:
Visualizaremos a distribuição de frequência cumulativa com um gráfico para obter uma compreensão mais clara.
# Gráfico de frequência cumulativa
plt.figure(figsize=(10, 6))
sns.lineplot(x=tabela_frequencia_cumulativa.index.mid, y=tabela_frequencia_cumulativa, marker='o', color='green')
plt.title('Gráfico de Frequência Cumulativa das Notas')
plt.xlabel('Notas')
plt.ylabel('Frequência Cumulativa')
plt.show()
7. Estatísticas Descritivas:
Podemos complementar a análise da distribuição de frequência com estatísticas descritivas para obter uma visão abrangente dos dados.
# Estatísticas descritivas
media = dados['Notas'].mean()
mediana = dados['Notas'].median()
desvio_padrao = dados['Notas'].std()
print(f'Média: {media:.2f}')
print(f'Mediana: {mediana:.2f}')
print(f'Desvio Padrão: {desvio_padrao:.2f}')
8. Conclusão:
A distribuição de frequência é uma ferramenta valiosa para explorar e compreender a estrutura dos dados. Neste artigo, exploramos os conceitos fundamentais da distribuição de frequência com exemplos práticos usando Python e Numpy.
Ao aplicar essas técnicas em conjuntos de dados reais, os profissionais de Data Science podem identificar padrões, compreender a dispersão dos dados e extrair insights significativos. A combinação de tabelas de frequência, histogramas e gráficos de frequência cumulativa fornece uma compreensão abrangente da distribuição dos dados, sendo essencial para análises exploratórias robustas.
Top comments (0)