DEV Community

Francisco Júnior
Francisco Júnior

Posted on • Edited on

1

Simplificando a Análise de Dados Textuais com Manipulação de Strings no Pandas

Na análise de dados, é comum lidar com informações em formato de texto ou strings. A capacidade de manipular eficientemente strings é fundamental para extrair insights valiosos desses dados textuais. Felizmente, o Pandas, uma biblioteca popular de análise de dados em Python, oferece recursos poderosos para a manipulação de strings, facilitando o processo de análise. Neste artigo, exploraremos alguns exemplos completos de manipulação de strings usando o Pandas, mostrando como suas funcionalidades podem simplificar e agilizar a análise de dados textuais.

1 - Divisão e Extração de Strings:

Um cenário comum é quando temos uma coluna de um DataFrame contendo nomes completos e desejamos separar esses nomes em colunas distintas, como primeiro nome e sobrenome. Podemos fazer isso facilmente usando o método str.split() do Pandas. Veja o exemplo abaixo:

import pandas as pd

# Criar um DataFrame de exemplo
data = {'Nome': ['João Silva', 'Maria Souza', 'Pedro Santos']}
df = pd.DataFrame(data)

# Dividir o nome em primeira e última coluna
df[['Primeiro Nome', 'Sobrenome']] = df['Nome'].str.split(' ', 1, expand=True)

# Exibir o DataFrame resultante
print(df)
Enter fullscreen mode Exit fullscreen mode

A saída será:

           Nome Primeiro Nome Sobrenome
0    João Silva           João     Silva
1  Maria Souza          Maria     Souza
2  Pedro Santos          Pedro    Santos
Enter fullscreen mode Exit fullscreen mode

2 - Substituição de Strings:

Em algumas situações, precisamos substituir partes específicas de strings por outras. O Pandas nos fornece o método str.replace() para realizar essa substituição. Considere o exemplo em que queremos substituir os caracteres "a" por "e" em uma coluna chamada "Texto":

import pandas as pd

# Criar um DataFrame de exemplo
data = {'Texto': ['banana', 'maçã', 'laranja']}
df = pd.DataFrame(data)

# Substituir "a" por "e" no texto
df['Texto'] = df['Texto'].str.replace('a', 'e')

# Exibir o DataFrame resultante
print(df)
Enter fullscreen mode Exit fullscreen mode

A saída será:

    Texto
0  benene
1    meçã
2  lerenje
Enter fullscreen mode Exit fullscreen mode

3 - Extração de Informações:

Muitas vezes, precisamos extrair informações específicas de strings. O Pandas oferece o método str.extract() para essa finalidade. Vamos supor que temos uma coluna de um DataFrame que contém números de telefone e desejamos extrair o código de área desses números:

import pandas as pd

# Criar um DataFrame de exemplo
data = {'Telefone': ['(11) 98765-4321', '(22) 12345-6789', '(33) 55555-9999']}
df = pd.DataFrame(data)

# Extrair o código de área dos números de telefone
df['Código de Área'] = df['Telefone'].str.extract(r'\((\d+)\)')

# Exibir o DataFrame resultante
print(df)
Enter fullscreen mode Exit fullscreen mode

A saída será:

          Telefone Código de Área
0  (11) 98765-4321             11
1  (22) 12345-6789             22
2  (33) 55555-9999             33
Enter fullscreen mode Exit fullscreen mode

A manipulação de strings é uma habilidade essencial na análise de dados textuais. O Pandas simplifica esse processo, fornecendo métodos e funções poderosos para dividir, substituir e extrair informações de strings em conjuntos de dados. Neste artigo, exploramos alguns exemplos completos de manipulação de strings usando o Pandas, demonstrando como essas funcionalidades podem ser aplicadas de forma eficiente e eficaz. Ao dominar essas técnicas, você estará preparado para lidar com dados textuais e obter insights valiosos em suas análises.

Sentry image

Hands-on debugging session: instrument, monitor, and fix

Join Lazar for a hands-on session where you’ll build it, break it, debug it, and fix it. You’ll set up Sentry, track errors, use Session Replay and Tracing, and leverage some good ol’ AI to find and fix issues fast.

RSVP here →

Top comments (0)

Billboard image

Try REST API Generation for MS SQL Server.

DreamFactory generates live REST APIs from database schemas with standardized endpoints for tables, views, and procedures in OpenAPI format. We support on-prem deployment with firewall security and include RBAC for secure, granular security controls.

See more!

👋 Kindness is contagious

Please leave a ❤️ or a friendly comment on this post if you found it helpful!

Okay