DEV Community

Insung Hwang
Insung Hwang

Posted on • Edited on

Pandas에서 공공데이터 CSV 파일 한글 깨짐 현상 해결하는 법

공공데이터 포털에서 제공하는 국토교통부 공공데이터를 다운로드해 윈도우 환경에서 열어보면, 한글이 깨지는 현상을 볼 수 있습니다. 특히 VScode나 Python으로 파일을 열 때 이런 문제가 발생하는데, 이는 파일 인코딩 설정이 맞지 않기 때문입니다. 보통 Excel로 파일을 열 경우 자동으로 인코딩이 변환되어 깨지지 않지만, Python으로 데이터를 다룰 때는 직접 인코딩을 설정해줘야 합니다.

문제 상황

다음은 다세대 전세 실거래가 공공데이터 파일을 VSCode 로 열었을 때 발생하는 한글 깨짐 문제입니다.

VSCode 로 열었을 때 한글 깨짐 현상

해결 방법

import pandas as pd

inputfile_path = "input_file.csv"
outputfile_path = "output_file.csv"

file = open(inputfile_path).read()

with open(inputfile_path, "r") as infile:
    content = infile.read()

with open(outputfile_path, "w", encoding="utf-8") as outfile:
    outfile.write(content)


# 15줄까지는 머리말이라 skip
df = pd.read_csv(outputfile_path, skiprows=15)
df.describe()
Enter fullscreen mode Exit fullscreen mode

위의 코드를 통해 한글이 깨진 CSV 파일을 utf-8 인코딩으로 다시 저장하고, Pandas로 데이터를 문제 없이 읽어올 수 있습니다.

한글 깨짐 현상 해결

Top comments (0)