DEV Community

Francisco Júnior
Francisco Júnior

Posted on

1

Desvendando a Distribuição de Frequência em Data Science com Python: Exemplos Práticos com Dataset Fictício

Introdução:

A distribuição de frequência é uma técnica essencial em Data Science para entender a frequência com que diferentes valores ocorrem em um conjunto de dados. Neste artigo, exploraremos os conceitos fundamentais da distribuição de frequência e demonstraremos sua aplicação prática com exemplos usando Python. Utilizaremos um dataset fictício gerado com Numpy para ilustrar esses conceitos de forma tangível.

1. O que é Distribuição de Frequência?

A distribuição de frequência é uma tabela que resume a frequência (número de ocorrências) de cada valor ou intervalo de valores em um conjunto de dados. Ela fornece uma visão clara da distribuição e padrões presentes nos dados.

2. Criando um Dataset Fictício com Numpy:

Vamos começar gerando um dataset fictício para representar uma situação do mundo real.

import numpy as np
import pandas as pd

# Definir semente para reproducibilidade
np.random.seed(42)

# Criar dataset fictício com valores normalmente distribuídos
dados = pd.DataFrame({
    'Notas': np.random.normal(loc=70, scale=10, size=200),
})
Enter fullscreen mode Exit fullscreen mode

3. Tabela de Frequência Simples:

Vamos criar uma tabela de frequência simples para entender a distribuição das notas no nosso dataset.

# Criar a tabela de frequência simples
tabela_frequencia = pd.value_counts(pd.cut(dados['Notas'], bins=10, include_lowest=True, right=False), sort=False)

# Exibir a tabela de frequência simples
print(tabela_frequencia)
Enter fullscreen mode Exit fullscreen mode

4. Histograma:

O histograma é uma representação visual da distribuição de frequência e é especialmente útil para conjuntos de dados contínuos.

import matplotlib.pyplot as plt
import seaborn as sns

# Histograma
plt.figure(figsize=(10, 6))
sns.histplot(dados['Notas'], bins=10, color='skyblue', kde=True)
plt.title('Histograma das Notas')
plt.xlabel('Notas')
plt.ylabel('Frequência')
plt.show()
Enter fullscreen mode Exit fullscreen mode

5. Distribuição de Frequência Cumulativa:

A distribuição de frequência cumulativa mostra a acumulação gradual das frequências ao longo dos valores. Isso pode ser útil para entender a proporção acumulativa de dados abaixo de um determinado ponto.

# Criar a tabela de frequência cumulativa
tabela_frequencia_cumulativa = tabela_frequencia.cumsum()

# Exibir a tabela de frequência cumulativa
print(tabela_frequencia_cumulativa)
Enter fullscreen mode Exit fullscreen mode

6. Gráfico de Frequência Cumulativa:

Visualizaremos a distribuição de frequência cumulativa com um gráfico para obter uma compreensão mais clara.

# Gráfico de frequência cumulativa
plt.figure(figsize=(10, 6))
sns.lineplot(x=tabela_frequencia_cumulativa.index.mid, y=tabela_frequencia_cumulativa, marker='o', color='green')
plt.title('Gráfico de Frequência Cumulativa das Notas')
plt.xlabel('Notas')
plt.ylabel('Frequência Cumulativa')
plt.show()
Enter fullscreen mode Exit fullscreen mode

7. Estatísticas Descritivas:

Podemos complementar a análise da distribuição de frequência com estatísticas descritivas para obter uma visão abrangente dos dados.

# Estatísticas descritivas
media = dados['Notas'].mean()
mediana = dados['Notas'].median()
desvio_padrao = dados['Notas'].std()

print(f'Média: {media:.2f}')
print(f'Mediana: {mediana:.2f}')
print(f'Desvio Padrão: {desvio_padrao:.2f}')
Enter fullscreen mode Exit fullscreen mode

8. Conclusão:

A distribuição de frequência é uma ferramenta valiosa para explorar e compreender a estrutura dos dados. Neste artigo, exploramos os conceitos fundamentais da distribuição de frequência com exemplos práticos usando Python e Numpy.

Ao aplicar essas técnicas em conjuntos de dados reais, os profissionais de Data Science podem identificar padrões, compreender a dispersão dos dados e extrair insights significativos. A combinação de tabelas de frequência, histogramas e gráficos de frequência cumulativa fornece uma compreensão abrangente da distribuição dos dados, sendo essencial para análises exploratórias robustas.

Postmark Image

Speedy emails, satisfied customers

Are delayed transactional emails costing you user satisfaction? Postmark delivers your emails almost instantly, keeping your customers happy and connected.

Sign up

Top comments (0)

Billboard image

Create up to 10 Postgres Databases on Neon's free plan.

If you're starting a new project, Neon has got your databases covered. No credit cards. No trials. No getting in your way.

Try Neon for Free →

👋 Kindness is contagious

Please leave a ❤️ or a friendly comment on this post if you found it helpful!

Okay