Como é feito a limpeza de dados, usando a poderosa biblioteca pandas?
A limpeza de dados (data cleaning) é uma das etapas mais importantes na análise de dados, e o Pandas, biblioteca poderosa do Python, oferece diversas ferramentas para isso.
Existem N fontes possíveis de dados, como Excel, CSV, SQL, JSON, entre outras.
Para facilitar o aprendizado, hoje vamos trabalhar com arquivos Excel, que é mais simples e básico.
Importe o pandas:
import pandas as pd
Importe a planilha:
df = df.read_excel("nome_planilha.xlsx") // muito comum esquecermos da extensão.
Remova as linhas vazias:
df = df.dropna(how="all")
Remova as linhas duplicadas:
df = df.drop_duplicates()
Remova as linhas nulas:
df = df.dropna()
Veja sempre os nomes das colunas:
print(df.columns.tolist())
Renomeie as colunas para deixar mais compreensivéis
df = df.rename(columns={
"Valor Total": "valor_total",
"Data da Venda": "data_venda"
})
Veja dados de tal coluna:
df["nome_da_coluna"]
Dados de mais de uma coluna:
df[["nome_da_coluna", "coluna_tal"]]
Ordene uma única coluna:
df = df.sort_values(by="nome_da_coluna", ascending=False)
Ordene mais de uma coluna:
df = df.sort_values(by=["Data", "Valor"], ascending=[True, False])
Conjuntos de dados incompletos são extremamente comuns, seja ela uma planilha, banco de dados, etc, sempre vai haver, nomes incompletos, duplicidades, erros de digitações, e por isso temos ao nosso favor essa limpeza de dados, geramos qualidade, confiança e organização...
Mas... o que vem depois do tratamento/limpeza de dados?
Vem a exploração, transformação, análise, visualização de dados, relatório de métricas, e por último, a tomada de decisão.
Documentação do pandas: https://pandas.pydata.org/docs/
Top comments (0)