Isaac Maciel

Posted on Dec 3, 2025 • Edited on Dec 6, 2025

Importar CSV/Excel e limpar dados com Pandas

#beginners #datascience #python #tutorial

Como é feito a limpeza de dados, usando a poderosa biblioteca pandas?

A limpeza de dados (data cleaning) é uma das etapas mais importantes na análise de dados, e o Pandas, biblioteca poderosa do Python, oferece diversas ferramentas para isso.

Existem N fontes possíveis de dados, como Excel, CSV, SQL, JSON, entre outras.

Para facilitar o aprendizado, hoje vamos trabalhar com arquivos Excel, que é mais simples e básico.

Importe o pandas:

import pandas as pd

Importe a planilha:

df = df.read_excel("nome_planilha.xlsx") // muito comum esquecermos da extensão.

Remova as linhas vazias:

df = df.dropna(how="all")

Remova as linhas duplicadas:

df = df.drop_duplicates()

Remova as linhas nulas:

df = df.dropna()

Veja sempre os nomes das colunas:

print(df.columns.tolist())

Renomeie as colunas para deixar mais compreensivéis

df = df.rename(columns={
    "Valor Total": "valor_total",
    "Data da Venda": "data_venda"
})

Veja dados de tal coluna:

df["nome_da_coluna"]

Dados de mais de uma coluna:

df[["nome_da_coluna", "coluna_tal"]]

Ordene uma única coluna:

df = df.sort_values(by="nome_da_coluna", ascending=False)

Ordene mais de uma coluna:

df = df.sort_values(by=["Data", "Valor"], ascending=[True, False])

Conjuntos de dados incompletos são extremamente comuns, seja ela uma planilha, banco de dados, etc, sempre vai haver, nomes incompletos, duplicidades, erros de digitações, e por isso temos ao nosso favor essa limpeza de dados, geramos qualidade, confiança e organização...

Mas... o que vem depois do tratamento/limpeza de dados?

Vem a exploração, transformação, análise, visualização de dados, relatório de métricas, e por último, a tomada de decisão.

Documentação do pandas: https://pandas.pydata.org/docs/

DEV Community