요약
로컬 AI는 사용자의 하드웨어에서 실행되어 요청당 비용이 발생하지 않고, 데이터도 비공개로 유지됩니다. 반면 API 기반 AI는 빠른 시작, 강력한 성능, 인프라 관리 없이 쉬운 확장이 장점입니다. 대부분의 개발 팀에게 두 접근 방식 모두 필요합니다. 이 글에서는 각 방식의 실제 장단점을 수치와 예시를 통해 비교합니다.
서론
아이폰에서 기본으로 실행되는 Gemma 4, API 키 없이 전체 언어 모델을 내장한 브라우저 확장 프로그램—18개월 전만 해도 불가능했던 시나리오입니다. 이제는 HackerNews에도 소개되고 있습니다.
과거에는 선택이 단순했습니다. 최신 모델은 API로만 제공됐고, 오픈 모델들은 실사용에 적합하지 않았습니다. 하지만 Qwen2.5-72B, Gemma 4, DeepSeek-V3 등 로컬 모델이 벤치마크에서 상위권을 차지하면서, 개인정보 보호나 대량 토큰 비용이 중요한 애플리케이션에서는 로컬 기반 접근이 재조명되고 있습니다.
이 글은 마케팅을 벗어나, 비용, 지연 시간, 기능을 실제 수치와 함께 비교해 실무적인 선택을 돕습니다.
💡 팁: 모델이 로컬이든 클라우드든 상관없이 AI API 통합을 테스트할 때 Apidog 테스트 시나리오는 모두 적용됩니다. 예를 들어, 로컬 llama-server 엔드포인트나 OpenAI의
/v1/chat/completions에 동일한 어설션을 실행할 수 있습니다. 기본 테스트 접근법은 [internal: api-testing-tutorial]을 참고하세요.
"로컬에서 AI 실행"의 실제 의미
로컬 AI는 크게 세 가지 설정으로 나뉩니다.
- 온디바이스 추론: 모델이 완전히 사용자 디바이스에서 실행됩니다. 예) 브라우저의 Gemma, 아이폰의 Gemma 4, MacBook의 Ollama 등. 설치 후 인터넷 없이 동작 가능합니다.
- 자체 호스팅 서버: 사용자의 하드웨어(워크스테이션, 퍼블릭 클라우드 VM, 온프레미스 서버)에서 모델을 실행하고 API로 노출합니다. 예) llama-server, Ollama, vLLM 등.
- 프라이빗 클라우드: AWS Bedrock, Azure 프라이빗 엔드포인트, GCP Vertex AI 등 자신의 클라우드 인프라에 모델을 배포합니다.
실무에서는 대부분 "자체 호스팅 vs 공용 API" 선택이 핵심입니다.
비용 비교
대량 워크로드에서는 로컬 AI가 비용적으로 확실히 유리합니다.
공용 API 가격 (2026년 4월 기준):
| 모델 | 입력 (1M 토큰) | 출력 (1M 토큰) |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| Claude 3.5 Sonnet | $3.00 | $15.00 |
| Gemini 1.5 Pro | $1.25 | $5.00 |
| GPT-4o mini | $0.15 | $0.60 |
| Claude 3 Haiku | $0.25 | $1.25 |
자체 호스팅 비용 예시 (A100 80GB에서 Qwen2.5-72B 실행):
- Lambda Labs A100 80GB: 온디맨드 시간당 약 $1.99
- INT4 Qwen2.5-72B: 초당 약 200토큰 → 시간당 720,000 토큰
- 1,000 토큰(입력+출력)당 약 $0.0028
- 참고: GPT-4o는 출력 1,000 토큰당 $0.01
손익분기점:
하루 70,000개 이상 출력 토큰이면 자체 호스팅이 API보다 저렴합니다. 그 이하는 유휴 GPU 비용이 없어 API가 유리합니다.
경량 모델의 경우:
Gemma 4 (12B)는 RTX 4090(중고 $600-800)에서 실행 가능. 시간당 $0.40로 1만 5천 개 출력 토큰이 손익분기점(GPT-4o mini와 비교)입니다.
지연 시간 비교
첫 토큰 응답 시간 (TTFT):
전용 A100에서 72B 모델, 1K 토큰 프롬프트: 800ms~1.5초
OpenAI API: 300~800ms
온디바이스 추론(Gemma 4, Apple Silicon): 200~400ms (네트워크 오버헤드 없음)
처리량:
INT4 72B 모델, 단일 A100 = 단일 사용자 처리에는 충분. 배치 처리 없으면 동시 로드에서 성능 저하. 공용 API는 동시성을 자동 처리.
스트리밍:
둘 다 지원. 온디바이스는 네트워크 지터 없음, API는 네트워크 상태에 영향.
요약:
- 최저 지연: 온디바이스 우위
- 대규모 처리량: 자체 호스팅 우위 (vLLM 등 적절한 배치 포함)
- 버스트 트래픽/단순성: API 우위
기능 비교
복잡한 추론:
GPT-4o, Claude 3.5 Sonnet이 MMLU, HumanEval 등에서 오픈 웨이트 모델보다 우위. Qwen2.5-72B, DeepSeek-V3로 격차는 줄었으나 여전히 차이 있음.
코드 생성:
DeepSeek-Coder-V2, Qwen2.5-Coder-32B 등은 코드 벤치마크에서 GPT-4o에 근접. 코드 특화 모델을 로컬에서 사용할 수 있음.
컨텍스트 길이:
최신 API 모델: 128K~1M 토큰
자체 호스팅 모델: 주로 32K~128K (더 길면 메모리 요구 증가)
멀티모달:
GPT-4o, Gemini 1.5 Pro: 이미지/오디오/비디오 입력 지원
오픈웨이트 멀티모달(LLaVA, Qwen-VL): 기능은 있으나 품질은 낮음
함수 호출/도구 사용:
OpenAI, Anthropic이 가장 신뢰성 높음. 오픈웨이트 모델도 지원 가능하나, 복잡한 체인에서는 일관성 떨어짐. 자세한 에이전트 아키텍처 내용은 [internal: how-ai-agent-memory-works] 참고.
개인정보 보호 및 데이터 제어
로컬이 확실한 우위입니다.
공용 API 사용 시:
- 프롬프트가 네트워크를 벗어남
- 공급자 데이터 보존 정책 적용 (OpenAI는 기본 30일)
- 민감한 콘텐츠는 서비스 약관 준수 필요
- 규제 업계(의료, 금융, 법률)에서는 장애물
자체 호스팅 사용 시:
- 프롬프트가 인프라 내에만 존재
- 3자 데이터 보존 없음
- 모델 동작 완전 제어 가능
- GDPR/HIPAA 준수 쉬움
개인 건강 데이터, 법률 문서, 독점 코드 등은 자체 호스팅이 필수입니다.
모델 실행 위치에 관계없이 AI 통합 테스트 방법
OpenAI API(https://api.openai.com/v1/chat/completions), Ollama(http://localhost:11434/api/chat), llama-server(http://localhost:8080/v1/chat/completions) 등 대부분 OpenAI 형식과 호환됩니다.
즉, Apidog 테스트 시나리오를 모든 엔드포인트에서 동일하게 사용할 수 있습니다.
예시 시나리오:
{
"scenario": "Chat completion smoke test",
"environments": {
"local": {"base_url": "http://localhost:11434"},
"production": {"base_url": "https://api.openai.com"}
},
"steps": [
{
"name": "Basic completion",
"method": "POST",
"url": "{{base_url}}/v1/chat/completions",
"body": {
"model": "{{model_name}}",
"messages": [{"role": "user", "content": "Say 'test passed' and nothing else"}],
"max_tokens": 20
},
"assertions": [
{"field": "status", "operator": "equals", "value": 200},
{"field": "response.choices[0].message.content", "operator": "contains", "value": "test passed"},
{"field": "response.usage.total_tokens", "operator": "less_than", "value": 50}
]
}
]
}
- 개발 중에는 로컬 Ollama 인스턴스에서, CI에서는 OpenAI API에서 테스트하세요.
- 주요 차이: 모델명 형식, 함수 호출 응답 구조, 스트리밍 이벤트 형식 등
- Apidog의 Smart Mock 기능을 활용하면 GPU가 없어도 CI에서 로컬 모델 동작을 시뮬레이션할 수 있습니다.
모델 레벨의 응답 구조 차이 배경은 [internal: how-to-build-tiny-llm-from-scratch] 참고.
10분 안에 로컬 모델 서버 설정하기
가장 빠른 자체 호스팅 방법은 Ollama 사용입니다.
# Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh
# 모델 다운로드 (Gemma 4 12B, 10GB VRAM 필요)
ollama pull gemma4:12b
# 서버 실행 (포트 11434, OpenAI 호환 API)
ollama serve
# 테스트
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [{"role": "user", "content": "Hello"}]
}'
동시 사용자 처리 등 프로덕션에는 vLLM이 더 적합합니다.
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-72B-Instruct-AWQ \
--quantization awq \
--max-model-len 32768
- 8000번 포트로 OpenAI 호환 API가 노출됨
- Apidog에서
http://your-server:8000으로 테스트 시나리오 실행
각 접근 방식을 선택해야 할 때
| 시나리오 | 로컬 | API |
|---|---|---|
| 대용량 배치 처리 (일 10만 토큰 이상) | 더 저렴 | 비쌈 |
| 민감 데이터 (건강, 법률, 금융) | 필수 | 위험 |
| 온디바이스 최저 지연 | 최고 | 불가능 |
| 최신 모델 기능 | 부족 | 필수 |
| 가변 트래픽/버스트 워크로드 | 확장 복잡 | 자동 처리 |
| GPU 사용 불가 | 어려움 | 쉬움 |
| 개발/테스트 환경 | 훌륭함(Ollama) | 비용 발생 |
| 멀티모달 작업 | 제한적 | 완전 지원 |
| 규제 산업 규정 준수 | 더 쉬움 | DPA 필요 |
실전 팁:
- 프로덕션: 공용 API (고품질 Claude/GPT-4o, 대량 저가 Haiku/4o-mini)
- 개발/테스트: 로컬 Ollama → 프로덕션에서 최신 품질, 개발에서 비용 절감, OpenAI 호환 API로 코드 일관성 유지
오픈소스 코딩 어시스턴트와 로컬 AI의 조합은 [internal: open-source-coding-assistants-2026] 참고.
결론
로컬 AI와 API AI의 선택은 이분법적이지 않습니다.
볼륨, 개인정보 보호, 지연 시간, 요구 기능에 따라 최적의 답이 달라집니다.
추천 워크플로우:
- 대부분의 개발자는 공용 API로 시작
- 월별 요금 $200~300 초과 시 자체 호스팅 전환
- 첫날부터 로컬 Ollama 활용
- 어디서나 OpenAI 호환 API 사용으로 코드 공급자 독립성 확보
로컬/클라우드 모델 차이가 프로덕션 버그로 이어지기 전에, Apidog로 일관된 환경 테스트를 자동화하세요.
자주 묻는 질문
Q. 유용한 로컬 모델 구동에 필요한 최소 GPU는?
- RTX 3060(12GB): Qwen2.5-7B, Gemma 4 4B
- RTX 4090(24GB): INT4 14B~20B, INT2 34B
- 72B: 2x 24GB GPU 또는 A100/H100
Q. Apple Silicon에서 로컬 AI 실행 가능?
- 가능. Ollama는 Apple Silicon 네이티브 지원 및 뉴럴 엔진 가속
- M3 Pro(18GB): Qwen2.5-14B
- M4 Max(128GB): 70B 모델도 처리 가능
Q. 로컬 모델 출력 품질이 프로덕션에 충분한가?
- 코드 생성, 요약, 구조화 데이터 추출: 32B+ 모델로 충분
- 복잡한 추론, 고난도 글쓰기, 깊은 세계 지식: 최신 API 모델이 우위
Q. 함수 호출, 도구 사용도 지원하나?
- 지원하나 일관성 떨어짐. Llama 3.1, Qwen2.5, Mistral 등도 도구 사용 지원
- 복잡한 체인에서는 GPT-4o/Claude 3.5 Sonnet이 더 신뢰성 높음
- 프로덕션 적용 전 Apidog 테스트 시나리오로 충분히 검증 필요
- 자세한 내용: [internal: claude-code]
Q. AWS에서 70B 모델 자체 호스팅 비용은?
- p4d.24xlarge(8x A100 40GB): 시간당 $32.77
- g5.2xlarge(1x A10G 24GB): 시간당 $1.21, 14B INT4 처리
- 예약 인스턴스 사용 시 30~40% 절감
Q. Ollama vs llama.cpp 차이?
- llama.cpp: 기본 추론 엔진
- Ollama: REST API, 모델 관리, CLI 래핑
- 일반 개발에는 Ollama, 하드웨어/양자화 세부 제어 필요시 llama.cpp 직접 사용
Q. 코드를 바꾸지 않고 로컬/클라우드 전환 가능?
- 가능. OpenAI 호환 클라이언트라면
- 예시(Python):
openai.OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')
→ base_url과 api_key만 바꾸면 클라우드/로컬 전환 환경 변수로 처리, 코드 수정 불필요
Top comments (0)