DEV Community

Francisco Júnior
Francisco Júnior

Posted on

Desvendando as Relações com Correlação de Dados em Data Science usando Python: Exemplos Práticos com Dataset Fictício

Introdução:

A análise de correlação desempenha um papel crucial em Data Science, revelando a relação entre variáveis e proporcionando insights valiosos. Neste artigo, exploraremos os conceitos de correlação de dados, demonstrando sua aplicação prática com exemplos usando Python. Para ilustrar esses conceitos, utilizaremos um dataset fictício gerado com Numpy.

1. O que é Correlação de Dados?

A correlação é uma medida estatística que avalia a força e a direção da relação linear entre duas variáveis. Uma correlação positiva indica que as variáveis aumentam ou diminuem juntas, enquanto uma correlação negativa sugere uma relação inversa.

2. Criando um Dataset Fictício com Numpy:

Vamos começar gerando um dataset fictício com duas variáveis que estão correlacionadas.

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Definir semente para reproducibilidade
np.random.seed(42)

# Criar dataset fictício com correlação positiva
dados = pd.DataFrame({
    'Nota_Exame': np.random.normal(loc=70, scale=10, size=100),
    'Horas_Estudo': np.random.normal(loc=50, scale=15, size=100),
})
Enter fullscreen mode Exit fullscreen mode

3. Visualizando a Relação:

Antes de calcular a correlação, vamos visualizar a relação entre as variáveis usando um gráfico de dispersão.

# Gráfico de dispersão
plt.figure(figsize=(10, 6))
sns.scatterplot(data=dados, x='Horas_Estudo', y='Nota_Exame', color='skyblue')
plt.title('Relação entre Horas de Estudo e Nota no Exame')
plt.xlabel('Horas de Estudo')
plt.ylabel('Nota no Exame')
plt.show()
Enter fullscreen mode Exit fullscreen mode

4. Calculando a Correlação:

Vamos calcular a correlação entre as variáveis usando o coeficiente de correlação de Pearson, que mede a correlação linear.

# Calcular a matriz de correlação
correlacao = dados.corr()

# Visualizar a matriz de correlação com um heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(correlacao, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de Correlação')
plt.show()
Enter fullscreen mode Exit fullscreen mode

5. Interpretando a Correlação:

A matriz de correlação fornece os coeficientes para todas as combinações de variáveis. Um valor próximo de 1 indica uma forte correlação positiva, próximo de -1 uma forte correlação negativa, e próximo de 0 indica uma correlação fraca.

6. Correlação não implica Causalidade:

É importante ressaltar que a correlação não implica causalidade. A existência de uma correlação entre duas variáveis não significa que uma causa a outra; pode haver fatores externos influenciando ambas.

7. Exemplo com Correlação Negativa:

Vamos gerar um novo conjunto de dados fictício com correlação negativa para ilustrar esse cenário.

# Criar dataset fictício com correlação negativa
dados_negativos = pd.DataFrame({
    'Consumo_Calorico': np.random.normal(loc=2000, scale=500, size=100),
    'Distancia_Percorrida': np.random.normal(loc=5, scale=2, size=100),
})
Enter fullscreen mode Exit fullscreen mode

8. Visualizando e Calculando a Correlação Negativa:

# Gráfico de dispersão para correlação negativa
plt.figure(figsize=(10, 6))
sns.scatterplot(data=dados_negativos, x='Distancia_Percorrida', y='Consumo_Calorico', color='lightcoral')
plt.title('Relação entre Distância Percorrida e Consumo Calórico')
plt.xlabel('Distância Percorrida (km)')
plt.ylabel('Consumo Calórico (calorias)')
plt.show()

# Calcular a matriz de correlação para correlação negativa
correlacao_negativa = dados_negativos.corr()

# Visualizar a matriz de correlação com um heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(correlacao_negativa, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de Correlação (Correlação Negativa)')
plt.show()
Enter fullscreen mode Exit fullscreen mode

9. Conclusão:

A correlação de dados é uma ferramenta poderosa em Data Science para entender as relações entre variáveis. Neste artigo, exploramos os conceitos de correlação com exemplos práticos usando Python e Numpy.

Ao compreender a correlação entre variáveis, os profissionais de Data Science podem tomar decisões mais informadas e identificar padrões nos dados. No entanto, é crucial lembrar que correlação não implica causalidade, e análises mais aprofundadas são necessárias para tirar conclusões significativas. Incorporar a correlação de dados na análise exploratória é uma etapa valiosa para explorar e compreender conjuntos de dados complexos.

Top comments (0)