DEV Community

Cover image for AI 모델 로컬 실행 vs. API 사용: 무엇을 선택해야 할까요?
Rihpig
Rihpig

Posted on • Originally published at apidog.com

AI 모델 로컬 실행 vs. API 사용: 무엇을 선택해야 할까요?

요약

로컬 AI는 사용자의 하드웨어에서 실행되어 요청당 비용이 발생하지 않고, 데이터도 비공개로 유지됩니다. 반면 API 기반 AI는 빠른 시작, 강력한 성능, 인프라 관리 없이 쉬운 확장이 장점입니다. 대부분의 개발 팀에게 두 접근 방식 모두 필요합니다. 이 글에서는 각 방식의 실제 장단점을 수치와 예시를 통해 비교합니다.

Apidog을 지금 사용해보세요

서론

아이폰에서 기본으로 실행되는 Gemma 4, API 키 없이 전체 언어 모델을 내장한 브라우저 확장 프로그램—18개월 전만 해도 불가능했던 시나리오입니다. 이제는 HackerNews에도 소개되고 있습니다.

과거에는 선택이 단순했습니다. 최신 모델은 API로만 제공됐고, 오픈 모델들은 실사용에 적합하지 않았습니다. 하지만 Qwen2.5-72B, Gemma 4, DeepSeek-V3 등 로컬 모델이 벤치마크에서 상위권을 차지하면서, 개인정보 보호나 대량 토큰 비용이 중요한 애플리케이션에서는 로컬 기반 접근이 재조명되고 있습니다.

이 글은 마케팅을 벗어나, 비용, 지연 시간, 기능을 실제 수치와 함께 비교해 실무적인 선택을 돕습니다.

💡 팁: 모델이 로컬이든 클라우드든 상관없이 AI API 통합을 테스트할 때 Apidog 테스트 시나리오는 모두 적용됩니다. 예를 들어, 로컬 llama-server 엔드포인트나 OpenAI의 /v1/chat/completions에 동일한 어설션을 실행할 수 있습니다. 기본 테스트 접근법은 [internal: api-testing-tutorial]을 참고하세요.

"로컬에서 AI 실행"의 실제 의미

로컬 AI는 크게 세 가지 설정으로 나뉩니다.

  • 온디바이스 추론: 모델이 완전히 사용자 디바이스에서 실행됩니다. 예) 브라우저의 Gemma, 아이폰의 Gemma 4, MacBook의 Ollama 등. 설치 후 인터넷 없이 동작 가능합니다.
  • 자체 호스팅 서버: 사용자의 하드웨어(워크스테이션, 퍼블릭 클라우드 VM, 온프레미스 서버)에서 모델을 실행하고 API로 노출합니다. 예) llama-server, Ollama, vLLM 등.
  • 프라이빗 클라우드: AWS Bedrock, Azure 프라이빗 엔드포인트, GCP Vertex AI 등 자신의 클라우드 인프라에 모델을 배포합니다.

실무에서는 대부분 "자체 호스팅 vs 공용 API" 선택이 핵심입니다.

비용 비교

대량 워크로드에서는 로컬 AI가 비용적으로 확실히 유리합니다.

공용 API 가격 (2026년 4월 기준):

모델 입력 (1M 토큰) 출력 (1M 토큰)
GPT-4o $2.50 $10.00
Claude 3.5 Sonnet $3.00 $15.00
Gemini 1.5 Pro $1.25 $5.00
GPT-4o mini $0.15 $0.60
Claude 3 Haiku $0.25 $1.25

자체 호스팅 비용 예시 (A100 80GB에서 Qwen2.5-72B 실행):

  • Lambda Labs A100 80GB: 온디맨드 시간당 약 $1.99
  • INT4 Qwen2.5-72B: 초당 약 200토큰 → 시간당 720,000 토큰
  • 1,000 토큰(입력+출력)당 약 $0.0028
  • 참고: GPT-4o는 출력 1,000 토큰당 $0.01

손익분기점:

하루 70,000개 이상 출력 토큰이면 자체 호스팅이 API보다 저렴합니다. 그 이하는 유휴 GPU 비용이 없어 API가 유리합니다.

경량 모델의 경우:

Gemma 4 (12B)는 RTX 4090(중고 $600-800)에서 실행 가능. 시간당 $0.40로 1만 5천 개 출력 토큰이 손익분기점(GPT-4o mini와 비교)입니다.

지연 시간 비교

첫 토큰 응답 시간 (TTFT):

전용 A100에서 72B 모델, 1K 토큰 프롬프트: 800ms~1.5초

OpenAI API: 300~800ms

온디바이스 추론(Gemma 4, Apple Silicon): 200~400ms (네트워크 오버헤드 없음)

처리량:

INT4 72B 모델, 단일 A100 = 단일 사용자 처리에는 충분. 배치 처리 없으면 동시 로드에서 성능 저하. 공용 API는 동시성을 자동 처리.

스트리밍:

둘 다 지원. 온디바이스는 네트워크 지터 없음, API는 네트워크 상태에 영향.

요약:

  • 최저 지연: 온디바이스 우위
  • 대규모 처리량: 자체 호스팅 우위 (vLLM 등 적절한 배치 포함)
  • 버스트 트래픽/단순성: API 우위

기능 비교

복잡한 추론:

GPT-4o, Claude 3.5 Sonnet이 MMLU, HumanEval 등에서 오픈 웨이트 모델보다 우위. Qwen2.5-72B, DeepSeek-V3로 격차는 줄었으나 여전히 차이 있음.

코드 생성:

DeepSeek-Coder-V2, Qwen2.5-Coder-32B 등은 코드 벤치마크에서 GPT-4o에 근접. 코드 특화 모델을 로컬에서 사용할 수 있음.

컨텍스트 길이:

최신 API 모델: 128K~1M 토큰

자체 호스팅 모델: 주로 32K~128K (더 길면 메모리 요구 증가)

멀티모달:

GPT-4o, Gemini 1.5 Pro: 이미지/오디오/비디오 입력 지원

오픈웨이트 멀티모달(LLaVA, Qwen-VL): 기능은 있으나 품질은 낮음

함수 호출/도구 사용:

OpenAI, Anthropic이 가장 신뢰성 높음. 오픈웨이트 모델도 지원 가능하나, 복잡한 체인에서는 일관성 떨어짐. 자세한 에이전트 아키텍처 내용은 [internal: how-ai-agent-memory-works] 참고.

개인정보 보호 및 데이터 제어

로컬이 확실한 우위입니다.

공용 API 사용 시:

  • 프롬프트가 네트워크를 벗어남
  • 공급자 데이터 보존 정책 적용 (OpenAI는 기본 30일)
  • 민감한 콘텐츠는 서비스 약관 준수 필요
  • 규제 업계(의료, 금융, 법률)에서는 장애물

자체 호스팅 사용 시:

  • 프롬프트가 인프라 내에만 존재
  • 3자 데이터 보존 없음
  • 모델 동작 완전 제어 가능
  • GDPR/HIPAA 준수 쉬움

개인 건강 데이터, 법률 문서, 독점 코드 등은 자체 호스팅이 필수입니다.

모델 실행 위치에 관계없이 AI 통합 테스트 방법

OpenAI API(https://api.openai.com/v1/chat/completions), Ollama(http://localhost:11434/api/chat), llama-server(http://localhost:8080/v1/chat/completions) 등 대부분 OpenAI 형식과 호환됩니다.

즉, Apidog 테스트 시나리오를 모든 엔드포인트에서 동일하게 사용할 수 있습니다.

예시 시나리오:

{
  "scenario": "Chat completion smoke test",
  "environments": {
    "local": {"base_url": "http://localhost:11434"},
    "production": {"base_url": "https://api.openai.com"}
  },
  "steps": [
    {
      "name": "Basic completion",
      "method": "POST",
      "url": "{{base_url}}/v1/chat/completions",
      "body": {
        "model": "{{model_name}}",
        "messages": [{"role": "user", "content": "Say 'test passed' and nothing else"}],
        "max_tokens": 20
      },
      "assertions": [
        {"field": "status", "operator": "equals", "value": 200},
        {"field": "response.choices[0].message.content", "operator": "contains", "value": "test passed"},
        {"field": "response.usage.total_tokens", "operator": "less_than", "value": 50}
      ]
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode
  • 개발 중에는 로컬 Ollama 인스턴스에서, CI에서는 OpenAI API에서 테스트하세요.
  • 주요 차이: 모델명 형식, 함수 호출 응답 구조, 스트리밍 이벤트 형식 등
  • Apidog의 Smart Mock 기능을 활용하면 GPU가 없어도 CI에서 로컬 모델 동작을 시뮬레이션할 수 있습니다.

모델 레벨의 응답 구조 차이 배경은 [internal: how-to-build-tiny-llm-from-scratch] 참고.

10분 안에 로컬 모델 서버 설정하기

가장 빠른 자체 호스팅 방법은 Ollama 사용입니다.

# Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh

# 모델 다운로드 (Gemma 4 12B, 10GB VRAM 필요)
ollama pull gemma4:12b

# 서버 실행 (포트 11434, OpenAI 호환 API)
ollama serve

# 테스트
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'
Enter fullscreen mode Exit fullscreen mode

동시 사용자 처리 등 프로덕션에는 vLLM이 더 적합합니다.

pip install vllm
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-72B-Instruct-AWQ \
  --quantization awq \
  --max-model-len 32768
Enter fullscreen mode Exit fullscreen mode
  • 8000번 포트로 OpenAI 호환 API가 노출됨
  • Apidog에서 http://your-server:8000으로 테스트 시나리오 실행

각 접근 방식을 선택해야 할 때

시나리오 로컬 API
대용량 배치 처리 (일 10만 토큰 이상) 더 저렴 비쌈
민감 데이터 (건강, 법률, 금융) 필수 위험
온디바이스 최저 지연 최고 불가능
최신 모델 기능 부족 필수
가변 트래픽/버스트 워크로드 확장 복잡 자동 처리
GPU 사용 불가 어려움 쉬움
개발/테스트 환경 훌륭함(Ollama) 비용 발생
멀티모달 작업 제한적 완전 지원
규제 산업 규정 준수 더 쉬움 DPA 필요

실전 팁:

  • 프로덕션: 공용 API (고품질 Claude/GPT-4o, 대량 저가 Haiku/4o-mini)
  • 개발/테스트: 로컬 Ollama → 프로덕션에서 최신 품질, 개발에서 비용 절감, OpenAI 호환 API로 코드 일관성 유지

오픈소스 코딩 어시스턴트와 로컬 AI의 조합은 [internal: open-source-coding-assistants-2026] 참고.

결론

로컬 AI와 API AI의 선택은 이분법적이지 않습니다.

볼륨, 개인정보 보호, 지연 시간, 요구 기능에 따라 최적의 답이 달라집니다.

추천 워크플로우:

  • 대부분의 개발자는 공용 API로 시작
  • 월별 요금 $200~300 초과 시 자체 호스팅 전환
  • 첫날부터 로컬 Ollama 활용
  • 어디서나 OpenAI 호환 API 사용으로 코드 공급자 독립성 확보

로컬/클라우드 모델 차이가 프로덕션 버그로 이어지기 전에, Apidog로 일관된 환경 테스트를 자동화하세요.

자주 묻는 질문

Q. 유용한 로컬 모델 구동에 필요한 최소 GPU는?

  • RTX 3060(12GB): Qwen2.5-7B, Gemma 4 4B
  • RTX 4090(24GB): INT4 14B~20B, INT2 34B
  • 72B: 2x 24GB GPU 또는 A100/H100

Q. Apple Silicon에서 로컬 AI 실행 가능?

  • 가능. Ollama는 Apple Silicon 네이티브 지원 및 뉴럴 엔진 가속
  • M3 Pro(18GB): Qwen2.5-14B
  • M4 Max(128GB): 70B 모델도 처리 가능

Q. 로컬 모델 출력 품질이 프로덕션에 충분한가?

  • 코드 생성, 요약, 구조화 데이터 추출: 32B+ 모델로 충분
  • 복잡한 추론, 고난도 글쓰기, 깊은 세계 지식: 최신 API 모델이 우위

Q. 함수 호출, 도구 사용도 지원하나?

  • 지원하나 일관성 떨어짐. Llama 3.1, Qwen2.5, Mistral 등도 도구 사용 지원
  • 복잡한 체인에서는 GPT-4o/Claude 3.5 Sonnet이 더 신뢰성 높음
  • 프로덕션 적용 전 Apidog 테스트 시나리오로 충분히 검증 필요
  • 자세한 내용: [internal: claude-code]

Q. AWS에서 70B 모델 자체 호스팅 비용은?

  • p4d.24xlarge(8x A100 40GB): 시간당 $32.77
  • g5.2xlarge(1x A10G 24GB): 시간당 $1.21, 14B INT4 처리
  • 예약 인스턴스 사용 시 30~40% 절감

Q. Ollama vs llama.cpp 차이?

  • llama.cpp: 기본 추론 엔진
  • Ollama: REST API, 모델 관리, CLI 래핑
  • 일반 개발에는 Ollama, 하드웨어/양자화 세부 제어 필요시 llama.cpp 직접 사용

Q. 코드를 바꾸지 않고 로컬/클라우드 전환 가능?

  • 가능. OpenAI 호환 클라이언트라면
  • 예시(Python):
  openai.OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')
Enter fullscreen mode Exit fullscreen mode

→ base_url과 api_key만 바꾸면 클라우드/로컬 전환 환경 변수로 처리, 코드 수정 불필요

Top comments (0)