DEV Community

Insung Hwang
Insung Hwang

Posted on • Edited on

Pandas에서 공공데이터 CSV 파일 한글 깨짐 현상 해결하는 법

공공데이터 포털에서 제공하는 국토교통부 공공데이터를 다운로드해 윈도우 환경에서 열어보면, 한글이 깨지는 현상을 볼 수 있습니다. 특히 VScode나 Python으로 파일을 열 때 이런 문제가 발생하는데, 이는 파일 인코딩 설정이 맞지 않기 때문입니다. 보통 Excel로 파일을 열 경우 자동으로 인코딩이 변환되어 깨지지 않지만, Python으로 데이터를 다룰 때는 직접 인코딩을 설정해줘야 합니다.

문제 상황

다음은 다세대 전세 실거래가 공공데이터 파일을 VSCode 로 열었을 때 발생하는 한글 깨짐 문제입니다.

VSCode 로 열었을 때 한글 깨짐 현상

해결 방법

import pandas as pd

inputfile_path = "input_file.csv"
outputfile_path = "output_file.csv"

file = open(inputfile_path).read()

with open(inputfile_path, "r") as infile:
    content = infile.read()

with open(outputfile_path, "w", encoding="utf-8") as outfile:
    outfile.write(content)


# 15줄까지는 머리말이라 skip
df = pd.read_csv(outputfile_path, skiprows=15)
df.describe()
Enter fullscreen mode Exit fullscreen mode

위의 코드를 통해 한글이 깨진 CSV 파일을 utf-8 인코딩으로 다시 저장하고, Pandas로 데이터를 문제 없이 읽어올 수 있습니다.

한글 깨짐 현상 해결

Postmark Image

Speedy emails, satisfied customers

Are delayed transactional emails costing you user satisfaction? Postmark delivers your emails almost instantly, keeping your customers happy and connected.

Sign up

Top comments (0)

Billboard image

The Next Generation Developer Platform

Coherence is the first Platform-as-a-Service you can control. Unlike "black-box" platforms that are opinionated about the infra you can deploy, Coherence is powered by CNC, the open-source IaC framework, which offers limitless customization.

Learn more

👋 Kindness is contagious

Engage with a sea of insights in this enlightening article, highly esteemed within the encouraging DEV Community. Programmers of every skill level are invited to participate and enrich our shared knowledge.

A simple "thank you" can uplift someone's spirits. Express your appreciation in the comments section!

On DEV, sharing knowledge smooths our journey and strengthens our community bonds. Found this useful? A brief thank you to the author can mean a lot.

Okay