김이더

Posted on Mar 16

ultrathink 한 방이면 된다

#ai #claudecode #ultrathink #tokenoptimization

게임 개발에서 가장 중요한 건 프레임 버짓이다.

60fps를 맞추려면 한 프레임에 16.6ms. 그 안에 렌더링, 물리, AI, 네트워크를 다 끝내야 한다. 전부 최대로 돌리면 프레임 드랍. 중요한 건 많이 주고, 덜 중요한 건 적게 주는 리소스 분배가 핵심이다.

Claude Code의 토큰도 똑같다. 200K 컨텍스트 윈도우 안에서 effort, 메모리, MCP 도구, 대화 히스토리가 경쟁한다. 이번 3월 업데이트는 이 리소스 분배를 개발자가 직접 컨트롤할 수 있게 바꿨다.

effort가 3단계로 줄었다

이전에는 low, medium, high, max 4단계였다. max가 사라지고 3단계로 정리됐다.

/effort low     # ○ — 간단한 파일 수정, import 변경
/effort medium  # ◐ — 일반적인 기능 구현
/effort high    # ● — 복잡한 아키텍처 분석, 대규모 리팩토링
/effort auto    # 기본값 리셋

Opus 4.6 사용자(Max/Team)의 기본값은 medium이다. 이전에 max로 모든 걸 처리하던 사람들은 당황할 수 있지만, 솔직히 import 경로 하나 바꾸는데 max가 필요하진 않았다. medium이면 대부분의 코딩 작업은 충분하다.

진짜 변화는 응답 중에도 effort를 바꿀 수 있게 된 거다.

# Claude가 이미 응답을 시작했는데 너무 얕게 답하는 것 같으면
/effort high    # → 즉시 적용

이전에는 응답이 끝날 때까지 기다렸다가 다시 물어봐야 했다. 이제 중간에 "더 깊게 파줘"를 실시간으로 전달한다.

ultrathink — 한 턴만 풀파워

max가 사라진 대신 ultrathink 키워드가 돌아왔다. 다음 한 턴에만 high effort를 켜는 마법의 단어다.

claude

> API 엔드포인트 하나 추가해줘                    # medium — 빠르게 처리

ultrathink
> 이 멀티플레이어 동기화 로직에서 race condition이 발생하는 것 같아.
> 전체 코드를 분석하고 근본 원인을 찾아서 수정 방안을 제시해줘.
> 특히 WebSocket 연결 끊김 시 reconnect 로직도 검토해줘.

# → 이 턴만 high effort로 deep thinking

> 고마워, 그럼 그 방안대로 수정해줘            # 자동으로 medium 복귀

게임 개발로 비유하면, 평소에는 LOD를 낮춰서 성능을 아끼다가 보스전에만 LOD를 최대로 올리는 거다. 모든 프레임에서 최대 LOD를 쓸 필요는 없다. 중요한 순간에만 리소스를 몰아주면 된다.

UE5에서 Slate 커스텀 위젯의 레이아웃 버그를 찾을 때 이 패턴이 딱이다. 평소에는 medium으로 코드 작성하다가, "이 SRadarSlider의 OnPaint에서 뭔가 이상한데 전체 렌더링 파이프라인을 추적해줘"를 ultrathink로 던진다. 분석이 끝나면 다시 medium으로 돌아가서 수정 코드를 짠다.

/context — "토큰 어디서 다 쓴 거야?"

이번 업데이트에서 /context 커맨드가 완전히 바뀌었다.

이전에는 "Context: 67% (134K / 200K)" 한 줄이 전부였다. 200K 중에 134K를 쓰고 있다는 건 알겠는데, 뭐가 그렇게 많이 차지하는지 알 수 없었다.

이제 구체적인 최적화 제안이 나온다.

/context

# Context Usage: 78% (156K / 200K tokens)
#
# ⚠️ Suggestions:
#   - MCP server 'github' tools use 28K tokens
#     → 안 쓰는 도구 비활성화 권장
#   - Auto-memory: 52 entries (12K tokens)
#     → /compact로 정리 권장
#   - 4 large files in context (34K tokens)
#     → 안 보는 파일 닫기 권장
#
# Tool breakdown:
#   github:create_issue    3.2K tokens
#   github:list_pulls      2.8K tokens
#   github:search_code     4.1K tokens

MCP 도구별 토큰 수치까지 보여준다. github:search_code가 4.1K를 먹고 있는데 한 번도 안 썼다면? 비활성화하면 된다.

이전에는 같은 서버의 모든 MCP 도구가 동일한 토큰 수로 표시되는 버그가 있었다. "github 도구 전체가 28K"라고만 나왔지 어떤 도구가 무거운지 알 수 없었다. 이번에 개별 수치로 쪼개졌다.

게임 개발에서 프로파일러를 돌리는 것과 같다. UE5에서 stat unit을 찍으면 Game, Draw, GPU 시간이 각각 나온다. 병목이 어디인지 알아야 최적화를 하지. /context가 토큰 프로파일러 역할을 한다.

Summarize from here — 부분 요약

긴 세션을 하다 보면 컨텍스트가 꽉 찬다. 이전에는 /compact로 전체 대화를 요약하는 방법밖에 없었다. 문제는 전체를 압축하면 중요한 맥락도 같이 사라진다는 거다.

"Summarize from here"는 특정 지점부터만 요약한다.

# 1시간 디버깅 세션
# 처음 30분: 잘못된 가설로 삽질
# 후반 30분: 진짜 원인 발견 + 수정

# 메시지 선택기에서 원인 발견 시점 선택 → "Summarize from here"
# → 삽질 과정은 요약으로 압축
# → 원인 발견 이후는 그대로 유지

삽질 과정의 세부 내용은 필요 없지만, "이 방법은 시도했고 안 됐다"는 정보는 남겨야 같은 삽질을 반복하지 않는다. 부분 요약은 이 균형을 잡아준다.

/compact(전체 요약)와 조합하면 토큰 관리가 훨씬 정교해진다. 필요 없는 부분은 Summarize from here로 먼저 압축하고, 나중에 전체를 /compact로 한 번 더 정리하는 이중 구조.

모델 전환 — Opus 4.6 시대

이번 업데이트에서 모델 라인업이 정리됐다.

Opus 4와 4.1이 first-party API에서 제거되고 Opus 4.6으로 자동 이동됐다. .claude/settings.json에 레거시 모델이 고정되어 있으면 자동으로 4.6으로 올라간다. Sonnet 4.5도 Pro/Max/Team Premium 사용자는 Sonnet 4.6으로 자동 마이그레이션.

Bedrock이나 Vertex를 쓰는 경우, modelOverrides가 추가돼서 모델 피커 이름을 커스텀 ARN에 매핑할 수 있다.

{
  "modelOverrides": {
    "opus": "arn:aws:bedrock:us-east-1:123456:inference-profile/my-opus",
    "sonnet": "arn:aws:bedrock:us-east-1:123456:inference-profile/my-sonnet"
  }
}

/model opus를 선택하면 UI에서는 "opus"로 보이지만 실제로는 Bedrock 프로파일이 사용된다.

agent frontmatter에서도 전체 모델 ID를 쓸 수 있게 됐다. 이전에는 model: opus 같은 짧은 이름만 됐는데, model: claude-opus-4-5도 인식한다.

성능 숫자들

토큰 관리 외에도 순수 성능 개선 수치들이 꽤 인상적이다.

프롬프트 입력 리렌더가 74% 줄었다. 긴 프롬프트를 수정할 때 타이핑이 버벅거리던 문제가 체감될 정도로 나아졌다. SDK query() 호출의 프롬프트 캐시 무효화가 수정되면서 입력 토큰 비용이 최대 12배 줄었다. 노트북 슬립 후 브릿지 재연결이 최대 10분에서 수초로 단축. 번들 사이즈 510KB 감소, 시작 메모리 16MB 절약.

프롬프트 입력 리렌더  ~74% 감소
SDK 입력 토큰 비용    최대 12배↓
슬립 후 재연결        10분→수초
번들 사이즈           510KB↓
시작 메모리           16MB↓

하나하나는 작아 보이지만 합치면 체감이 크다. 특히 SDK 토큰 비용 12배 감소는 API 과금 사용자한테 직접적인 비용 절감이다.

토큰은 프레임과 같다

결국 토큰 관리는 프레임 버짓 관리와 같은 문제다. 무한한 리소스는 없다. 200K 컨텍스트 안에서 effort, 메모리, MCP 도구, 대화 히스토리가 경쟁한다.

이번 업데이트가 준 도구들을 정리하면 이렇다. ultrathink으로 중요한 순간에만 풀파워를 쓰고, /context로 병목을 찾고, Summarize from here로 불필요한 히스토리를 압축하고, modelOverrides로 모델 비용을 역할별로 분배한다.

"모든 프레임에서 최대 LOD를 쓸 필요는 없다. 보스전에만 올려라."

DEV Community