DEV Community

techninomart
techninomart

Posted on

Pandas 라이브러리를 활용한 데이터 분석 기초

Pandas는 Python에서 데이터 분석을 쉽게 할 수 있도록 도와주는 라이브러리다. 엑셀이나 CSV 파일을 다루거나, 데이터 정제 및 변환을 수행할 때 매우 유용하다. 이 글에서는 Pandas의 기본적인 사용법을 소개하고, 데이터 분석을 시작하는 데 필요한 핵심 개념을 설명하려고 한다.

Pandas 설치 및 기본 설정

Pandas를 사용하려면 먼저 라이브러리를 설치해야 한다. Python 환경이 준비되어 있다면 pip을 이용해 간단하게 설치할 수 있다.

1. Pandas 설치하기

Pandas는 pip 명령어로 설치할 수 있다. 터미널이나 명령 프롬프트에서 다음 명령어를 실행하면 된다.

pip install pandas
Enter fullscreen mode Exit fullscreen mode

설치가 완료되면 Pandas를 정상적으로 사용할 수 있는지 확인해보자.

import pandas as pd
print(pd.__version__)
Enter fullscreen mode Exit fullscreen mode

이렇게 하면 Pandas의 버전이 출력될 것이다. 정상적으로 출력되면 설치가 완료된 것이다.

2. 데이터프레임(DataFrame)과 시리즈(Series)

Pandas에서는 데이터를 다룰 때 기본적으로 두 가지 구조를 사용한다.

  • Series: 1차원 데이터 구조로, 리스트나 배열과 유사하다.
  • DataFrame: 2차원 테이블 형태의 데이터 구조로, 엑셀 스프레드시트와 유사하다.

예제를 통해 각각의 구조를 살펴보자.

import pandas as pd

# Series 생성
s = pd.Series([1, 2, 3, 4, 5])
print(s)

# DataFrame 생성
data = {
    '이름': ['홍길동', '김철수', '이영희'],
    '나이': [25, 30, 28],
    '도시': ['서울', '부산', '인천']
}
df = pd.DataFrame(data)
print(df)
Enter fullscreen mode Exit fullscreen mode

Pandas로 데이터 다루기

Pandas를 사용하면 데이터 필터링, 정렬, 그룹화 등의 다양한 기능을 쉽게 수행할 수 있다.

1. 데이터 불러오기

CSV 파일을 Pandas DataFrame으로 불러오는 방법을 알아보자.

df = pd.read_csv('data.csv')
print(df.head())  # 상위 5개 데이터 출력
Enter fullscreen mode Exit fullscreen mode

이 명령어를 실행하면 CSV 파일의 데이터를 불러와 DataFrame 형태로 저장한다.

2. 데이터 정제 및 변환

데이터 분석을 하기 전에, 결측값(NaN)을 처리하거나 데이터 형식을 변환하는 것이 중요하다.

# 결측값 확인
df.isnull().sum()

# 결측값 채우기
df.fillna(0, inplace=True)

# 데이터 타입 변경
df['나이'] = df['나이'].astype(int)
Enter fullscreen mode Exit fullscreen mode

3. 데이터 필터링 및 선택

특정 조건에 맞는 데이터를 선택하는 방법을 알아보자.

# 나이가 30 이상인 행만 선택
filtered_df = df[df['나이'] >= 30]
print(filtered_df)

# 특정 열만 선택
print(df[['이름', '도시']])
Enter fullscreen mode Exit fullscreen mode

4. 데이터 정렬 및 그룹화

데이터를 정렬하거나 특정 기준으로 그룹화하는 방법도 많이 사용된다.

# 나이 기준으로 정렬
df.sort_values(by='나이', ascending=False, inplace=True)
print(df)

# 도시별 평균 나이 계산
print(df.groupby('도시')['나이'].mean())
Enter fullscreen mode Exit fullscreen mode

Pandas를 활용한 간단한 데이터 분석

Pandas를 활용하면 데이터 분석을 쉽게 수행할 수 있다. 예를 들어, 특정 열의 평균, 최대/최소값 등을 계산하는 것이 가능하다.

# 기본적인 통계 값 확인
print(df.describe())

# 특정 열의 평균값 계산
print(df['나이'].mean())
Enter fullscreen mode Exit fullscreen mode

데이터 시각화를 위해 Matplotlib과 함께 사용하면 더욱 유용하다.

import matplotlib.pyplot as plt

df['나이'].hist()
plt.xlabel('나이')
plt.ylabel('빈도')
plt.show()
Enter fullscreen mode Exit fullscreen mode

Pandas를 활용한 데이터 분석의 가능성

Pandas는 단순한 데이터 처리부터 통계 분석, 머신러닝 전처리까지 다양한 용도로 활용할 수 있다. CSV, Excel, SQL 등 여러 형식의 데이터를 손쉽게 불러오고 처리할 수 있어 데이터 분석을 시작하기에 적합하다.

하지만 대용량 데이터를 처리할 때는 성능 이슈가 발생할 수 있으므로, 적절한 최적화 기법을 적용하는 것이 필요하다. 또한, Pandas의 기본 기능뿐만 아니라 NumPy, Matplotlib과 함께 사용하면 더욱 강력한 분석 도구로 활용할 수 있다.

데이터 분석을 시작하려면 Pandas의 다양한 기능을 직접 실습해보는 것이 중요하다. 실제 데이터를 다뤄보면서 필요한 기능을 익히고, 자신만의 분석 스타일을 만들어 가보자.

Top comments (0)

Heroku

This site is built on Heroku

Join the ranks of developers at Salesforce, Airbase, DEV, and more who deploy their mission critical applications on Heroku. Sign up today and launch your first app!

Get Started

👋 Kindness is contagious

Please leave a ❤️ or a friendly comment on this post if you found it helpful!

Okay