DEV Community

Francisco Júnior
Francisco Júnior

Posted on

Explorando os Quantis e Quartis em Data Science com Python: Uma Análise Detalhada com Exemplos Práticos e Dataset Fictício

Introdução:

Em Data Science, compreender a distribuição dos dados é crucial para extrair insights significativos. Neste artigo, mergulharemos profundamente nos conceitos de Quantis e Quartis, explorando sua aplicação prática com exemplos utilizando Python. Vamos utilizar um dataset fictício gerado com Numpy para ilustrar esses conceitos de forma tangível.

1. O que são Quantis e Quartis?

Os Quantis são pontos específicos que dividem um conjunto de dados em partes iguais, enquanto os Quartis são os três pontos que dividem um conjunto de dados em quatro partes, representando os 25%, 50% e 75% dos dados.

2. Criando um Dataset Fictício com Numpy:

Antes de entrarmos nos conceitos de Quantis e Quartis, vamos criar um conjunto de dados fictício.

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Definir semente para reproducibilidade
np.random.seed(42)

# Criar dataset fictício com valores normalmente distribuídos
dados = np.random.normal(loc=50, scale=10, size=1000)
Enter fullscreen mode Exit fullscreen mode

3. Visualização Inicial:

Vamos começar com uma visualização do histograma do nosso dataset para ter uma compreensão inicial da distribuição dos dados.

# Visualização com histograma
plt.figure(figsize=(10, 6))
sns.histplot(dados, kde=True, color='skyblue')
plt.title('Distribuição dos Dados')
plt.show()
Enter fullscreen mode Exit fullscreen mode

4. Quartis e Boxplot:

Os quartis são frequentemente representados em um boxplot, que fornece uma representação visual dos dados, destacando a mediana e a dispersão.

# Calcular os quartis
q1 = np.percentile(dados, 25)
mediana = np.percentile(dados, 50)
q3 = np.percentile(dados, 75)

# Boxplot
plt.figure(figsize=(8, 6))
sns.boxplot(data=dados, color='lightblue')
plt.title('Boxplot com Quartis')
plt.show()
Enter fullscreen mode Exit fullscreen mode

5. Visualização dos Quartis:

Vamos adicionar linhas verticais ao histograma para destacar a posição dos quartis.

# Visualização com histograma e quartis
plt.figure(figsize=(12, 8))
sns.histplot(dados, kde=True, color='skyblue')
plt.axvline(q1, color='red', linestyle='dashed', linewidth=2, label='Q1')
plt.axvline(mediana, color='green', linestyle='dashed', linewidth=2, label='Mediana')
plt.axvline(q3, color='purple', linestyle='dashed', linewidth=2, label='Q3')
plt.legend()
plt.title('Distribuição dos Dados com Quartis')
plt.show()
Enter fullscreen mode Exit fullscreen mode

6. Aplicação dos Quantis:

Vamos explorar a aplicação dos quantis para dividir o conjunto de dados em partes iguais.

# Calcular os quantis
quantil_10 = np.percentile(dados, 10)
quantil_90 = np.percentile(dados, 90)

# Visualização com histograma e quantis
plt.figure(figsize=(12, 8))
sns.histplot(dados, kde=True, color='skyblue')
plt.axvline(quantil_10, color='orange', linestyle='dashed', linewidth=2, label='Q10')
plt.axvline(quantil_90, color='brown', linestyle='dashed', linewidth=2, label='Q90')
plt.legend()
plt.title('Distribuição dos Dados com Quantis')
plt.show()
Enter fullscreen mode Exit fullscreen mode

7. Estatísticas Descritivas Detalhadas:

Além dos quartis, podemos calcular estatísticas descritivas mais detalhadas, como a amplitude interquartil (IQR) e a amplitude total dos dados.

# Calcular a amplitude interquartil (IQR)
iqr = q3 - q1

# Calcular a amplitude total dos dados
amplitude_total = np.max(dados) - np.min(dados)
Enter fullscreen mode Exit fullscreen mode

8. Conclusão:

Os Quantis e Quartis são ferramentas poderosas para compreender a distribuição dos dados. Neste artigo, exploramos esses conceitos com exemplos práticos usando Python e Numpy, além de visualizações para facilitar a interpretação.

Ao compreender como os dados estão distribuídos, os profissionais de Data Science podem realizar análises mais profundas e informadas. Os quartis, em particular, são essenciais para identificar tendências, detectar outliers e entender a dispersão dos dados. Incorporar esses conceitos na análise de dados fortalece a base para decisões mais sólidas e interpretações mais precisas.

Top comments (0)