TreeSoop

Posted on Jun 4 • Originally published at treesoop.com

LLM 파인튜닝 방법 비교: Full vs LoRA vs QLoRA 선택 가이드 2026

#ai #claude #rag #llm

LLM 파인튜닝은 GPT나 Claude 같은 사전학습 모델을 자사 데이터로 추가 학습시켜 특정 도메인에 맞게 특화하는 기술입니다. 그런데 "파인튜닝을 한다"는 말 안에는 사실 서로 다른 방법이 여러 개 숨어 있습니다. 모델의 모든 가중치를 다시 학습하는 Full Fine-tuning, 작은 어댑터 행렬만 학습하는 LoRA, 여기에 4비트 양자화를 더해 GPU 한 장에서도 돌리는 QLoRA가 대표적입니다. 어떤 방법을 고르느냐에 따라 필요한 GPU, 학습 비용, 품질, 운영 난이도가 적게는 두세 배에서 많게는 열 배까지 차이 납니다. 이 글은 "파인튜닝을 할지 말지"가 아니라 "어떤 파인튜닝 방법을 쓸지"에 초점을 맞춰, 세 가지 대표 방법을 GPU 메모리·학습 속도·품질·적합 데이터 규모 기준으로 비교하고 상황별 선택 기준을 정리했습니다.

파인튜닝 방법은 왜 하나가 아닐까?

2020년대 초만 해도 파인튜닝은 곧 Full Fine-tuning을 의미했습니다. 모델 전체를 자사 데이터로 다시 학습시키는 방식이죠. 그런데 모델 크기가 수십억~수천억 파라미터로 커지면서 문제가 생겼습니다. 7B(70억 파라미터) 모델 하나를 통째로 학습하려면 고가의 GPU 여러 장과 막대한 시간이 들어가고, 체크포인트를 저장할 때마다 모델 전체를 복사해야 합니다.

그래서 등장한 것이 PEFT(Parameter-Efficient Fine-Tuning, 파라미터 효율 파인튜닝) 계열입니다. 모델 가중치 대부분을 그대로 두고 아주 일부만 학습해서, 같은 효과를 훨씬 적은 자원으로 내는 접근입니다. LoRA와 QLoRA가 여기에 속합니다. 즉 오늘날 "파인튜닝 방법 선택"이란 사실상 전체를 학습할지(Full), 일부만 효율적으로 학습할지(PEFT) 를 고르는 문제에 가깝습니다.

Full Fine-tuning: 모델 전체를 다시 학습한다

Full Fine-tuning은 사전학습된 모델의 모든 가중치를 학습 대상으로 삼습니다. 이론적으로 표현력이 가장 크기 때문에, 베이스 모델과 도메인 차이가 매우 크거나(예: 특수 의료·법률 코퍼스) 데이터가 충분할 때 최고 품질을 낼 수 있습니다.

대가는 비용입니다. fp16 기준으로 7B 모델을 학습하려면 모델 가중치뿐 아니라 옵티마이저 상태와 그래디언트까지 메모리에 올려야 해서, 일반적으로 모델 크기의 수 배에 해당하는 GPU 메모리가 필요합니다. 데이터가 적을 때는 기존에 학습된 능력을 잊어버리는 카타스트로픽 포게팅(catastrophic forgetting) 위험도 큽니다.

적합한 상황: 데이터가 수만~수십만 샘플 이상, 대규모 GPU 확보 가능, 도메인이 베이스 모델과 크게 다름
피해야 할 상황: 데이터 수천 건 이하, 단일 GPU, 빠른 반복 실험이 필요한 초기 단계

LoRA: 작은 어댑터만 학습하는 효율적 방법

LoRA(Low-Rank Adaptation)는 원본 가중치를 동결(freeze) 해 두고, 각 레이어에 저랭크(low-rank) 행렬 두 개(A·B)만 새로 붙여 그것만 학습합니다. 학습 대상 파라미터가 전체의 0.1~1% 수준으로 줄어들어, 메모리와 시간이 크게 절감됩니다. 결과물도 원본 모델이 아니라 수 MB~수십 MB짜리 어댑터 파일로 저장되므로, 하나의 베이스 모델에 여러 어댑터를 갈아 끼우는 운용이 가능합니다. LoRA의 원리와 효과는 LoRA 논문(Hu et al., 2021)에 자세히 정리되어 있습니다.

적합한 상황: 중소 규모 데이터, 단일~소수 GPU, 여러 태스크용 어댑터를 따로 관리하고 싶을 때
장점: 빠른 실험 사이클, 작은 저장 용량, 베이스 모델 공유

QLoRA: 4비트 양자화로 GPU 한 장에서

QLoRA는 LoRA에 양자화(quantization) 를 결합한 방법입니다. 베이스 모델을 4비트(NF4)로 압축해 메모리에 올린 뒤, 그 위에서 LoRA 어댑터만 학습합니다. QLoRA 논문(Dettmers et al., 2023)에 따르면 65B 규모 모델도 단일 48GB GPU 한 장에서 파인튜닝하면서 품질 손실을 최소화할 수 있습니다.

덕분에 예산이 빠듯한 팀이나 큰 모델을 다뤄야 하는 상황에서 현실적인 선택지가 됩니다. 다만 4비트로 압축된 상태이므로, 추론 단계에서 양자화 방식과 속도·품질 트레이드오프를 별도로 점검해야 합니다.

적합한 상황: GPU 예산 제약, 큰 모델 파인튜닝, 개인·소규모 팀
주의: 추론 환경의 양자화 호환성과 지연시간 검증 필요

방법별 비교표: 한눈에 보는 차이

항목	Full Fine-tuning	LoRA	QLoRA
학습 파라미터 비율	100%	약 0.1~1%	약 0.1~1%
GPU 메모리(7B 기준)	매우 높음	중간	가장 낮음
학습 속도/비용	가장 높음	낮음	낮음
결과물 크기	모델 전체(수십 GB)	어댑터(수 MB~)	어댑터(수 MB~)
품질 상한	최고	높음(대부분 충분)	높음(약간의 양자화 영향)
적합 데이터 규모	대규모	중소~대규모	중소~대규모
운영 난이도	높음	낮음	중간

수치는 모델·세팅에 따라 달라지는 일반적인 경향이며, 실제 프로젝트에서는 베이스 모델과 데이터로 소규모 사전 실험을 돌려 확인하는 것이 가장 정확합니다.

내 상황에는 어떤 방법이 맞을까?

복잡해 보이지만 의사결정은 의외로 단순합니다.

데이터가 1만 건 미만이고 GPU가 한두 장뿐이다 → QLoRA로 시작하세요. 가장 적은 자원으로 결과를 빠르게 확인할 수 있습니다.
여러 도메인/고객사별로 다른 동작이 필요하다 → LoRA로 어댑터를 도메인별로 만들어 두고 교체해 쓰는 구조가 유리합니다.
데이터가 충분하고(수만 건+) 멀티 GPU가 있으며 마지막 한 방울의 품질까지 필요하다 → Full Fine-tuning을 검토하세요. 단, LoRA로도 목표 품질이 나오는 경우가 많으니 먼저 비교 실험을 권합니다.

2026년 현재 실무에서는 대부분의 프로젝트가 LoRA 또는 QLoRA로 시작합니다. Full Fine-tuning은 "정말 전체 학습이 필요하다"는 명확한 근거가 있을 때 선택하는 쪽으로 무게가 옮겨졌습니다.

파인튜닝을 시작하기 전, 정말 파인튜닝이 답일까?

방법을 고르기 전에 한 가지 더 짚을 게 있습니다. 풀고 싶은 문제가 "최신 정보를 정확히 검색해 답하기"라면 파인튜닝보다 RAG가 더 적합할 수 있고, 단순 말투·포맷 교정이라면 프롬프트 엔지니어링만으로 충분할 때도 많습니다. 이 갈림길은 LLM 파인튜닝 vs RAG 완전 가이드에서 의사결정 매트릭스로 정리해 두었습니다. 또한 방법별로 실제 들어가는 비용이 궁금하다면 LLM 파인튜닝 비용 가이드를 함께 참고하시면 좋습니다.

나무숲의 AI-Native 파인튜닝 접근

나무숲(TreeSoop)은 AI-Native Team으로, 팀원 전원이 Claude Code Max 플랜을 기본 개발 환경으로 사용하며 데이터 준비부터 학습·평가·배포까지 하나의 반복 루프로 묶어 진행합니다. 음성인식 같은 도메인 특화 모델을 다뤄 본 경험을 바탕으로, 무작정 Full Fine-tuning을 권하기보다 LoRA·QLoRA로 빠르게 베이스라인을 잡고 품질 목표를 검증한 뒤 필요한 만큼만 자원을 투입하는 방식을 선호합니다. 이런 단계적 접근은 나무숲의 AI-Native 개발 방식에서 일관되게 적용하는 원칙이기도 합니다.

LLM 파인튜닝이나 AI 모델 특화 개발 외주를 검토하고 계시다면 AI-Native 개발사 나무숲에 문의해보세요. 어떤 방법이 ROI 측면에서 합리적인지부터 함께 정리해 드립니다. (문의: 카카오톡 채널)

자주 묻는 질문

Q: LoRA와 QLoRA 중 무엇으로 시작해야 하나요?

GPU 메모리에 여유가 있다면 LoRA가 추론 단계에서 더 단순합니다. GPU가 한 장뿐이거나 모델이 커서 메모리가 부족하다면 QLoRA가 현실적인 선택입니다. 많은 팀이 QLoRA로 가능성을 먼저 검증한 뒤, 운영 단계에서 LoRA나 병합(merge) 방식으로 옮깁니다.

Q: 파인튜닝에 GPU가 꼭 여러 장 필요한가요?

아닙니다. Full Fine-tuning은 대형 GPU가 여러 장 필요할 수 있지만, QLoRA를 쓰면 모델 크기에 따라 GPU 한 장으로도 파인튜닝이 가능합니다. 이것이 PEFT 계열이 등장한 핵심 이유입니다.

Q: LoRA 어댑터를 여러 개 만들어 바꿔 쓸 수 있나요?

가능합니다. 하나의 베이스 모델을 공유하면서 고객사별·태스크별 어댑터를 따로 학습해 두고 상황에 맞게 교체하는 운용이 LoRA의 큰 장점입니다. 저장 용량도 어댑터당 수 MB~수십 MB로 가볍습니다.

Q: 파인튜닝하면 원래 모델의 일반 성능이 떨어지나요?

Full Fine-tuning에서 데이터가 적을 때 카타스트로픽 포게팅으로 일반 능력이 손상될 수 있습니다. LoRA·QLoRA는 원본 가중치를 동결하므로 이 위험이 상대적으로 작습니다. 그래서 데이터가 충분치 않을 때는 PEFT 계열이 더 안전한 선택입니다.

DEV Community