jidonglab

Posted on Feb 25 • Edited on Mar 19

LLM API 비용을 88% 줄인 방법

#ai #webdev #llm #costoptimization

무료 분석 1건에 $0.085. 하루 1,000명이면 월 $2,550.

무료인데 돈이 나간다. 유료 전환율이 3%여도 유료 매출로 무료 비용을 못 메운다.

이건 사업이 아니라 기부다.

그래서 비용을 뜯어봤다.

프롬프트 캐싱 — 같은 교과서를 매번 다시 사지 마라

LLM API를 호출할 때마다 "시스템 프롬프트"를 보낸다. 사주 해석 가이드라인, 오행 설명, 응답 포맷 규칙 — 매번 똑같은데 매번 새로 보내고 있었다.

대학교에서 매 수업마다 교과서를 새로 사는 꼴이다.

프롬프트 캐싱을 적용하면 이 시스템 프롬프트를 한 번만 보내고, 이후에는 캐시된 걸 재사용한다.

변하지 않는 것 (캐시): 사주 해석 가이드라인, 오행 규칙, 출력 포맷
변하는 것 (매번 새로): 유저의 생년월일 데이터, 엔진 계산 결과 JSON

Claude의 cache_control은 캐시 히트 시 입력 비용 90%를 깎아주고, Gemini Context Caching은 75%, OpenAI prefix caching은 자동 적용에 50% 절감이다.

실제 숫자로 보면, 시스템 프롬프트가 2,000 토큰이고 유저 데이터가 500 토큰이면 전체 입력의 80%를 캐시로 처리할 수 있다.

입력 비용이 거의 1/5이 된다.

모델 라우팅 — 모든 질문에 교수를 부르지 마라

처음엔 무료든 유료든 전부 Claude Sonnet으로 돌렸다. "어차피 좋은 모델이 좋은 결과를 내니까."

$4,500 vs $238. 같은 일. 같은 결과 품질. 19배 차이.

알바생이면 충분한 일에 교수를 부르면 시급이 100배다.

간단한 무료 요약 (3줄)     → Gemini Flash  $0.001/건
일반 유료 해석 (10섹션)    → Claude Sonnet  $0.02/건
심층 프리미엄 상담         → Claude Opus    $0.045/건

무료 분석은 사실 LLM이 별로 필요 없다. 엔진이 이미 오행 분포, 십성 관계를 정확하게 뽑아놓는다. 이걸 코드로 텍스트 포맷팅하면 LLM 비용 $0이다. 올해 운세 요약 한 줄만 경량 모델한테 시키면 건당 $0.001.

무료 4섹션 구성을 보면 성격 분석과 직업 적성은 알고리즘 포맷팅으로 $0, 올해 운세는 경량 모델 3줄 요약으로 $0.001, 종합 한줄평도 경량 모델로 $0.001. 합계 건당 $0.002다.

$0.085에서 $0.002. 97% 절감.

유저 입장에서는 체감이 거의 없다. 어차피 무료 분석은 "맛보기"고, 진짜 깊은 해석은 유료에서 한다.

Structured Output — 불필요한 말을 제거하라

LLM은 수다쟁이다. "이제부터 분석을 시작하겠습니다. 먼저 오행을 살펴보면..." 같은 서두를 매번 붙인다.

이 서두도 토큰이고, 토큰은 돈이다. 게다가 출력 토큰은 입력 토큰보다 3~5배 비싸다.

JSON 스키마를 강제하면 이런 불필요한 문구가 사라진다.

Before: "분석 결과를 말씀드리겠습니다. 당신의 오행은..." (200 토큰)
After:  { "personality": "...", "career": "..." }        (80 토큰)

실제 적용한 JSON 스키마 예시

{
  "personality": "성격 분석 텍스트",
  "career": "직업 적성 텍스트",
  "yearly_fortune": "올해 운세 요약",
  "summary": "종합 한줄평"
}

이 스키마를 프롬프트에 넣고 "이 JSON 구조로만 응답해"라고 하면, 서두 없이 바로 데이터가 나온다.

출력 토큰 50~80% 절감. 출력이 비싸니까 효과가 크다.

합산하면

최적화 전:        월 $3,316 (일 1,000건 기준)
프롬프트 캐싱:    → $1,660 (-50%)
모델 라우팅:      → $580  (-65%)
Structured Output: → $406 (-23%)
최적화 후:        월 $406 (88% 절감)

이 숫자는 일 1,000건 기준 시뮬레이션 추정이다. 실제 운영 데이터는 런칭 후 공개할 예정.

세 전략이 독립적이라서 순서대로 적용해도 되고, 동시에 적용해도 된다. 사주 앱이 아니라 어떤 LLM 기반 서비스든 거의 그대로 쓸 수 있다.

핵심은 간단하다. 캐시할 수 있는 건 캐시하고, 싼 모델로 충분하면 싼 모델을 쓰고, 출력을 줄일 수 있으면 줄인다.

"모든 질문에 교수를 부르지 마라. 알바생이면 충분한 일에 교수를 부르면 시급이 100배다."

jidonglab.com

DEV Community

LLM API 비용을 88% 줄인 방법

프롬프트 캐싱 — 같은 교과서를 매번 다시 사지 마라

모델 라우팅 — 모든 질문에 교수를 부르지 마라

Structured Output — 불필요한 말을 제거하라

합산하면

Top comments (0)