DEV Community

Isaac Maciel
Isaac Maciel

Posted on

Importar CSV/Excel e limpar dados com Pandas

Como é feito a limpeza de dados, usando a poderosa biblioteca pandas?

A limpeza de dados (data cleaning) é uma das etapas mais importantes na análise de dados, e o Pandas, biblioteca poderosa do Python, oferece diversas ferramentas para isso.

Existem N fontes possíveis de dados, como Excel, CSV, SQL, JSON, entre outras.

Para facilitar o aprendizado, hoje vamos trabalhar com arquivos Excel, que é mais simples e básico.


Importe o pandas:

import pandas as pd
Enter fullscreen mode Exit fullscreen mode

Importe a planilha:

df = df.read_excel("nome_planilha.xlsx") // muito comum esquecermos da extensão.
Enter fullscreen mode Exit fullscreen mode

Remova as linhas vazias:

df = df.dropna(how="all")
Enter fullscreen mode Exit fullscreen mode

Remova as linhas duplicadas:

df = df.drop_duplicates()
Enter fullscreen mode Exit fullscreen mode

Remova as linhas nulas:

df = df.dropna()
Enter fullscreen mode Exit fullscreen mode

Veja sempre os nomes das colunas:

print(df.columns.tolist())
Enter fullscreen mode Exit fullscreen mode

Renomeie as colunas para deixar mais compreensivéis

df = df.rename(columns={
    "Valor Total": "valor_total",
    "Data da Venda": "data_venda"
})
Enter fullscreen mode Exit fullscreen mode

Veja dados de tal coluna:

df["nome_da_coluna"]
Enter fullscreen mode Exit fullscreen mode

Dados de mais de uma coluna:

df[["nome_da_coluna", "coluna_tal"]]
Enter fullscreen mode Exit fullscreen mode

Ordene uma única coluna:

df = df.sort_values(by="nome_da_coluna", ascending=False)

Enter fullscreen mode Exit fullscreen mode

Ordene mais de uma coluna:

df = df.sort_values(by=["Data", "Valor"], ascending=[True, False])
Enter fullscreen mode Exit fullscreen mode

Conjuntos de dados incompletos são extremamente comuns, seja ela uma planilha, banco de dados, etc, sempre vai haver, nomes incompletos, duplicidades, erros de digitações, e por isso temos ao nosso favor essa limpeza de dados, geramos qualidade, confiança e organização...

Mas... o que vem depois do tratamento/limpeza de dados?

Vem a exploração, transformação, análise, visualização de dados, relatório de métricas, e por último, a tomada de decisão.

Documentação do pandas: https://pandas.pydata.org/docs/

Top comments (0)