김이더

Posted on Mar 31

Claude 토큰이 이렇게 빨리 닳는 데는 이유가 있었다

#claude #claudecode #ai #anthropic

세줄요약
Anthropic이 피크타임(한국 밤 9시~새벽 3시)에 토큰 소진 속도를 높였다.
QuitGPT 운동으로 Claude 트래픽이 30% 이상 폭증한 게 원인이다.
Claude Code 헤비 유저라면 작업 시간대 조정 + Z.ai 같은 대안 모델 테스트가 현실적인 전략이다.

더 많은 글은 radarlog.kr에서.

3월 중순부터 뭔가 이상했다.

같은 작업을 하는데 세션이 예전보다 빨리 끊긴다. Claude Code로 프로젝트 하나 돌리면 예전엔 반나절은 버텼는데, 요즘은 저녁만 되면 금방 한도에 걸린다. 처음엔 내가 프롬프트를 비효율적으로 쓰나 싶었다.

아니었다. Anthropic이 바꾼 거였다.

갑자기 왜 이렇게 된 건지

3월 초에 큰 사건이 하나 있었다. OpenAI가 미국 국방부(펜타곤)와 대규모 계약을 체결했다. 이게 터지자마자 미국에서 QuitGPT 운동이 시작됐다. "군사용 AI에 돈을 대지 않겠다"는 취지로 ChatGPT를 삭제하는 움직임이었고, 하루 만에 ChatGPT 삭제 건수가 295% 급증했다.

그 사람들이 어디로 갔겠나. Claude다.

미국 앱스토어에서 Claude가 1위를 찍었다. Anthropic 입장에서 보면 꿈같은 일인데, 문제는 GPU 인프라가 이 트래픽을 못 버틴다는 거다. 월간 트래픽이 30% 넘게 뛰었다는 보도가 나왔다. 서버를 늘리면 되겠지만 GPU는 주문한다고 다음 주에 오는 물건이 아니다.

게임 서버 운영해본 사람은 안다. 갑자기 동접이 3배 뛰면 할 수 있는 게 두 가지다. 서버를 급하게 늘리거나, 기존 유저의 리소스를 조이거나. Anthropic은 후자를 택했다.

정확히 뭐가 바뀌었나

3월 26일, Anthropic이 공식 발표한 내용의 핵심은 이거다.

피크타임 동안 5시간 세션 한도가 실제 5시간보다 빨리 소진된다.

기존에는 세션 한도가 5시간이면 5시간 동안 일정한 속도로 토큰을 쓸 수 있었다. 지금은 피크타임에 같은 토큰을 써도 "더 비싸게" 카운팅된다. 주간 총량 한도는 안 바뀌었지만, 피크타임에 집중적으로 쓰면 세션이 훨씬 빨리 끊긴다.

피크타임의 정의는 Pacific Time 기준 오전 5시~11시다. 한국 시간으로 바꾸면 밤 9시~새벽 3시. 정확히 퇴근 후 사이드프로젝트 하는 시간대다.

게임으로 치면 일종의 동적 비용 스케일링이다. 같은 스킬인데 피크타임엔 마나 소모가 1.5배가 되는 느낌. 스킬 자체는 안 바뀌었는데 체감 쿨타임이 확 늘어난다.

오프피크 보너스가 끝나면서 더 심해졌다

여기에 타이밍이 겹친 게 하나 더 있다.

3월 13일부터 28일까지 Anthropic이 오프피크 타임 보너스 프로모션을 돌렸다. 피크타임이 아닌 시간대에 쓰면 세션 한도를 더 넉넉하게 줬다. 이 프로모션이 3월 28일에 끝났다.

그러니까 3월 말 기준으로 이중으로 체감이 온 거다. 피크타임에는 토큰이 더 빨리 닳고, 오프피크 보너스도 사라졌다. 예전 같은 양을 쓰는데 "갑자기 토큰이 빨리 닳는다"고 느끼는 게 정상이다.

참고로 API 유저는 이 세션 리밋 구조와 전혀 무관하다. API는 토큰당 과금이라 피크타임이든 뭐든 같은 가격. 이건 순수하게 claude.ai Pro/Max 플랜, 그리고 Claude Code 구독 유저한테만 적용되는 이야기다.

Claude Code가 특히 심한 이유

일반 claude.ai 채팅은 메시지 단위로 체감한다. 프롬프트 하나 보내고 답 받고, 다시 보내고. 한 번에 소모되는 토큰이 예측 가능하다.

Claude Code는 다르다.

하나의 태스크를 던지면 Claude가 알아서 파일을 읽고, 코드를 짜고, 테스트를 돌리고, 에러를 보고 다시 고친다. 이 과정에서 컨텍스트 윈도우에 계속 정보가 쌓인다. 파일 내용이 들어가고, 에러 로그가 들어가고, 이전 시도의 히스토리가 들어간다.

문제는 컨텍스트가 커질수록 한 번의 호출에 소모되는 토큰이 기하급수적으로 늘어난다는 거다. 처음 호출은 2K 토큰이었는데, 열 번째 호출은 50K 토큰이 될 수 있다. 여기에 피크타임 가중치까지 붙으면 세션이 순식간에 바닥난다.

내가 ccdash를 만들고 있는 이유도 이거다. Claude Code가 실제로 얼마나 토큰을 쓰는지 눈에 보이질 않아서, JSONL 로그를 파싱해서 대시보드로 만드는 중이다. 써보면 알겠지만, 한 세션에서 컨텍스트가 누적되면서 토큰 소모가 후반으로 갈수록 가파르게 올라가는 게 눈에 보인다.

실전 절약 전략

원인을 알았으니 대응하면 된다. 내가 실제로 쓰고 있는 방법들이다.

작업 시간대를 옮겨라. 가장 임팩트가 크다. 한국 기준 밤 9시~새벽 3시가 피크타임이다. 같은 작업을 오전이나 오후에 하면 동일한 세션 한도로 훨씬 더 많은 일을 할 수 있다. 나는 Claude Code 무거운 작업을 오전~오후 초반으로 옮겼다. 저녁에는 가벼운 리뷰나 문서 작업만 한다.

CLAUDE.md를 다이어트해라. CLAUDE.md에 프로젝트 컨텍스트를 잔뜩 써놓으면, 매 호출마다 그게 통째로 들어간다. 실제로 필요한 핵심 정보만 남기고 나머지는 별도 파일로 빼라. "이 프로젝트의 모든 히스토리"를 CLAUDE.md에 넣는 건 매 API 호출에 전체 위키를 첨부하는 거랑 같다.

# 나쁜 CLAUDE.md
프로젝트 히스토리 3000자 + 모든 파일 구조 + 코딩 컨벤션 전체 + 과거 이슈 목록

# 좋은 CLAUDE.md
핵심 아키텍처 3줄 + 현재 진행 중인 태스크 + "자세한 건 docs/를 참고"

태스크를 잘게 쪼개라. Claude Code에 "이 기능 전체를 구현해줘"라고 던지면 컨텍스트가 끝없이 쌓인다. 대신 "이 함수만 만들어줘", "이 테스트만 통과시켜줘"로 쪼개면 각 세션의 컨텍스트가 작게 유지된다. 하나 끝나면 새 세션(또는 /clear)으로 넘어가라.

컨텍스트를 주기적으로 리셋해라. /clear를 습관화하면 누적 컨텍스트로 인한 토큰 폭증을 막을 수 있다. 특히 디버깅이 길어질 때, 에러 로그가 컨텍스트에 쌓이면서 토큰이 눈덩이처럼 불어난다. 막히면 일단 /clear하고, 필요한 정보만 다시 넣어서 재시작하는 게 총 토큰 소모 기준으로 훨씬 효율적이다.

ccdash로 소모량을 시각화해라. pip install ccdash로 설치하고, ccdash를 치면 HTML 대시보드가 뜬다. 어떤 세션에서 토큰이 폭증했는지, 시간대별로 소모 패턴이 어떤지 눈에 보인다. 측정하지 않으면 개선할 수 없다.

Z.ai라는 대안이 있긴 하다

사실 나는 Claude만 쓰는 게 아니다. Z.ai의 GLM Coding Plan도 같이 쓰고 있다.

Z.ai는 중국 칭화대 스핀오프 회사 Zhipu AI가 만든 서비스다. 2026년 1월 홍콩 증시에 상장했고, 2월에 GLM-5를 내놓으면서 꽤 주목을 받았다. 3월 27일에는 GLM-5.1을 출시했는데, Claude Code 환경에서 테스트한 코딩 점수가 45.3점으로 Claude Opus 4.6의 47.9점 대비 94.6% 수준이라고 발표했다. 거의 근접한 셈이다.

가격이 충격적이다. GLM Coding Plan은 월 $10부터 시작하고, Pro가 $30이다. Claude Max가 $200인 걸 생각하면 차이가 어마어마하다. Claude Code, Cline, OpenCode 같은 주요 코딩 도구에서 바로 붙여 쓸 수 있고, settings.json에서 모델만 교체하면 된다.

재밌는 건 Z.ai도 피크타임 배율이 있다는 거다. GLM-5.1과 GLM-5 사용 시 피크타임(UTC+8 기준 14:00~18:00, 한국 시간 15:00~19:00)에는 3배, 오프피크에도 2배 소진이다. 4월 말까지 한시적으로 오프피크 1배 프로모션을 하고 있긴 한데, 이것도 Anthropic이랑 같은 패턴이다. 결국 어디서든 GPU는 부족하다.

다만 Anthropic 피크타임(한국 밤 9시~새벽 3시)과 Z.ai 피크타임(한국 오후 3시~7시)이 겹치지 않는다는 점이 흥미롭다. 이론적으로는 시간대별로 모델을 스위칭하면 양쪽의 피크타임 패널티를 모두 피할 수 있다.

한국 시간 기준 피크타임 비교

Claude  : 21:00 ~ 03:00 (PT 05:00~11:00)
Z.ai    : 15:00 ~ 19:00 (UTC+8 14:00~18:00)
겹치는 구간: 없음

그래서 이번에 진짜 테스트를 해보려고 한다. 같은 프로젝트를 Claude Code + Opus와 Claude Code + GLM-5.1로 나란히 돌려보고, 체감 품질 차이가 어느 정도인지 직접 비교해볼 생각이다. 벤치마크 점수야 94.6%라고 하지만, 실제로 내 프로젝트에서 CLAUDE.md를 읽고 맥락을 이해하고 멀티파일 수정을 하는 수준이 같은지는 써봐야 안다.

특히 궁금한 건 세 가지다. 복잡한 UE5 C++ 코드를 다룰 때 맥락 파악 능력, 한국어 주석과 변수명이 섞인 코드베이스에서의 안정성, 그리고 에이전틱 워크플로우(파일 읽기 → 수정 → 테스트 → 재수정)에서의 루프 품질. 이건 벤치마크로는 안 나오는 영역이다.

결과가 괜찮으면 "평일 낮에는 Z.ai, 저녁~밤에는 Claude" 같은 하이브리드 전략이 가능해진다. $200 + $30으로 양쪽 피크타임을 모두 피하면서 사실상 제한 없이 쓰는 구조. 안 괜찮으면 그냥 Claude 최적화에 집중하면 된다.

어차피 해봐야 아는 거니까, 결과는 다음 글에서 정리할 예정이다.

앞으로 어떻게 될까

Anthropic이 GPU 인프라를 확충하면 피크타임 제한이 완화될 가능성은 있다. 하지만 GPU 수급은 몇 달 단위 이야기라, 당분간은 이 구조가 유지될 거다.

결국 Claude Code 헤비 유저한테 필요한 건 토큰 의식(token awareness)이다. 무한정 쓸 수 있다는 환상을 버리고, 한정된 리소스를 어떻게 효율적으로 쓸지 고민하는 게 지금 시점에서 가장 현실적인 전략이다. 절약만이 답은 아니다. 대안 모델을 테스트하고, 시간대별로 전략을 짜고, 필요하면 멀티 프로바이더로 가는 것도 방법이다.

게임 개발에서 메모리 최적화하듯이 토큰도 최적화해야 하는 시대가 온 거다. 어차피 이 감각은 나중에 API로 프로덕트 만들 때도 그대로 쓸 수 있다.

"같은 마나로 더 많은 스킬을 쓰려면, 시전 타이밍을 골라야 한다. 아니면 마나 포션을 하나 더 사거나."

DEV Community