Rihpig

Posted on Jun 10 • Originally published at apidog.com

Claude Fable 5 벤치마크: 숫자가 말하는 것

Anthropic은 2026년 6월 9일 Claude Fable 5를 출시하면서, 테스트한 거의 모든 벤치마크에서 최첨단 성능을 보였다고 발표했습니다. 다만 공개 자료는 전체 점수표보다 벤치마크 순위 중심이며, 주요 차트 일부는 복사 가능한 표가 아니라 이미지로 제공되었습니다. 따라서 이 글은 Claude Fable 5 벤치마크가 실제로 무엇을 의미하는지, 어떤 작업에 강한지, 그리고 직접 재현 가능한 평가를 어떻게 실행할 수 있는지에 초점을 맞춥니다. 더 넓은 모델 비교가 필요하다면 Opus 4.8과 GPT-5.5, Gemini 3.5 비교도 함께 참고할 수 있습니다.

오늘 Apidog를 사용해 보세요

Fable 5는 claude-fable-5 모델 ID로 제공되며, 가격은 백만 입력 토큰당 10달러, 백만 출력 토큰당 50달러입니다. 이는 Opus 4.8보다 기능과 가격 모두 한 단계 위에 있는 모델로, Anthropic은 이를 소프트웨어 엔지니어링, 지식 작업, 비전, 과학 연구를 위한 가장 강력한 공개 Claude 모델로 포지셔닝합니다.

핵심 요약

Claude Fable 5는 Cognition의 FrontierCode 및 FrontierBench에서 첨단 모델 중 1위를 기록했고, CursorBench에서는 최첨단 성능으로 소개되었으며, Hebbia의 Finance Benchmark에서도 최고 점수를 기록했습니다.

실무 관점에서 읽어야 할 핵심은 다음과 같습니다.

단일 질문 정확도보다 장기 실행 작업에 강점이 있습니다.
코딩, 금융 문서, 차트/표 이해, 장기적 추론에서 일관된 상위권 성능을 보입니다.
Anthropic은 주로 순위를 공개했기 때문에, 정확한 공개 점수는 제한적입니다.
공개 벤치마크는 참고 지표로 사용하고, 실제 도입 전에는 자신의 프롬프트와 데이터로 별도 평가해야 합니다.

주요 결과를 해석하는 방법

Anthropic의 핵심 주장은 Fable 5가 소프트웨어 엔지니어링, 지식 작업, 비전, 과학 연구를 포함해 테스트한 거의 모든 벤치마크에서 최첨단이라는 것입니다.

여기서 “거의 모든 벤치마크에서 최첨단”이라는 표현은 Fable 5가 Anthropic이 공개한 대부분의 평가에서 선두 또는 최상위권에 있다는 의미입니다. 그러나 이것이 모든 테스트에서 큰 차이로 이겼다는 뜻은 아니며, 모든 결과가 독립 연구소에서 재현되었다는 뜻도 아닙니다.

실무적으로는 다음처럼 해석하는 것이 안전합니다.

코딩만 강한 특화 모델이 아니라 여러 범주에서 상위권을 유지합니다.
단기 응답보다 장기 작업에서 강점이 반복적으로 강조됩니다.
정확한 점수 차이를 알 수 없으므로 비용 대비 효율은 직접 검증해야 합니다.

Fable 5 자체에 대한 전체적인 개요는 Claude Fable 5란 무엇인가를 참고하십시오.

Anthropic은 Fable 5가 “장기 실행 작업에서 수백만 개의 토큰에 걸쳐 집중력을 유지”하며, 이전 Claude 모델보다 더 오랫동안 자율적으로 작동한다고 설명합니다. 이 문장은 중요합니다. 아래 벤치마크의 상당수는 단일 정답을 맞히는 능력보다, 긴 작업에서 목표를 잃지 않고 계획을 유지하는 능력을 평가합니다.

코딩 벤치마크: FrontierCode 및 CursorBench

코딩은 Fable 5 벤치마크 중 가장 구체적으로 강점이 드러나는 영역입니다.

Cognition의 코딩 평가인 FrontierCode에서 Anthropic은 Fable 5가 최고 점수를 기록한 첨단 모델이며, 중간 노력 수준에서도 우위를 유지했다고 보고했습니다.

여기서 “중간 노력”이라는 조건이 중요합니다. 많은 첨단 모델은 더 많은 추론 토큰, 더 많은 시도, 더 높은 effort 설정을 사용하면 성능을 끌어올릴 수 있습니다. 하지만 중간 노력 수준에서도 선두라면, 가장 비싼 설정을 사용하지 않아도 실무에서 높은 성능을 기대할 수 있다는 신호입니다.

CursorBench에서도 Anthropic은 Fable 5를 최첨단 모델로 설명했습니다. CursorBench는 실제 코드베이스에서 발생하는 다중 파일, 다단계 엔지니어링 작업에 초점을 맞춥니다. 따라서 이 결과는 단순 함수 작성보다 에이전트 기반 코딩에 더 가깝습니다.

개발자 관점에서 Fable 5의 코딩 강점은 다음 워크플로우에 특히 관련됩니다.

대규모 코드베이스 리팩터링
여러 파일에 걸친 기능 추가
테스트 작성 및 수정
마이그레이션 작업
에이전트가 계획, 수정, 테스트, 반복을 수행하는 장기 세션

즉, Fable 5는 단순 스니펫 완성보다 지속적인 엔지니어링 작업에 맞춰진 모델로 보는 것이 적절합니다.

지식 및 금융: Hebbia Finance Benchmark

코드 외 영역에서 가장 명확한 결과는 Hebbia의 Finance Benchmark입니다. Hebbia는 금융 및 법률 문서 작업을 위한 AI에 초점을 맞춘 회사입니다.

Anthropic은 Fable 5가 이 벤치마크에서 다른 모델보다 높은 점수를 기록했으며, 특히 다음 세 영역에서 개선을 보였다고 설명합니다.

문서 추론
차트 이해
표 이해

이 조합은 금융 분석 워크플로우와 직접적으로 연결됩니다. 실제 금융 문서는 깔끔한 텍스트만 포함하지 않습니다. 보고서, 표, 차트, 주석, 여러 페이지에 흩어진 수치가 함께 존재합니다. 모델은 다음과 같은 작업을 안정적으로 수행해야 합니다.

긴 보고서에서 관련 수치 찾기
여러 페이지에 걸친 값 추적
차트와 본문 설명 일치시키기
표의 올바른 행과 열 선택하기
숫자 단위와 기간 혼동하지 않기

따라서 Finance Benchmark에서의 강점은 Fable 5가 문서 추출 파이프라인, 금융 분석 도구, 계약서 검토, 리포트 요약 시스템에 적합한 후보라는 신호입니다.

다만 이 영역은 반드시 자체 데이터로 검증해야 합니다. PDF 품질, 표 구조, OCR 상태, 도메인 용어에 따라 결과가 크게 달라질 수 있습니다.

장기적 추론: FrontierBench

두 번째 Cognition 평가인 FrontierBench에서는 Fable 5의 장기적 추론 능력이 강조됩니다. Anthropic은 Fable 5가 FrontierBench에서 최고 점수를 기록했다고 보고했습니다.

장기적 추론은 긴 작업 동안 목표와 계획을 유지하는 능력입니다. 여기에는 다음 요소가 포함됩니다.

많은 단계의 작업을 순서대로 수행하기
중간 결과를 기억하고 재사용하기
컨텍스트가 길어져도 목표를 잃지 않기
부분 작업을 완료한 뒤 다음 작업으로 안정적으로 이동하기
장시간 실행 중 일관성을 유지하기

일반적인 QA 벤치마크는 포함된 질문에 대한 정답을 맞히는 모델에 보상을 줍니다. 반면 FrontierBench와 같은 장기 평가에서는 모델이 스스로 생성한 중간 작업으로 컨텍스트가 채워지는 동안에도 작업을 계속 수행할 수 있는지가 중요합니다.

이 영역은 외부에서 검증하기 어렵습니다. “작업을 계속한다”는 기준, 부분 점수 산정 방식, 모델이 정체되거나 반복하는 것을 어떻게 감점하는지 등이 평가마다 다를 수 있기 때문입니다.

따라서 FrontierBench 결과는 다음처럼 활용하는 것이 좋습니다.

Fable 5가 장기 실행 에이전트에 적합할 가능성이 높다는 방향성 신호로 본다.
정확한 성능 차이보다는 워크플로우 적합성을 확인한다.
실제 에이전트 루프에서 자체 평가를 실행한다.

벤치마크를 넘어선 실제 성능

벤치마크는 대리 지표입니다. 실제 도입 여부를 판단할 때는 모델이 테스트를 통과하는 것보다 실제 작업을 끝낼 수 있는지가 더 중요합니다.

Anthropic이 강조한 사례는 두 가지입니다.

1. Stripe 코드베이스 마이그레이션

Anthropic은 Fable 5가 Stripe의 5천만 줄 Ruby 코드베이스를 하루 만에 마이그레이션했다고 보고했습니다. 팀은 이 작업이 두 달 이상 걸릴 것으로 예상했다고 합니다.

이 사례에서 중요한 점은 “코딩 문제를 잘 풀었다”가 아닙니다. 5천만 줄 규모의 마이그레이션은 다음과 같은 특성을 갖습니다.

수천 개 파일에 걸친 반복 수정
컨텍스트 의존적인 변경
작은 불일치가 빌드 실패로 이어지는 작업
긴 시간 동안 동일한 규칙을 유지해야 하는 작업

즉, 이 사례는 Fable 5가 대규모 작업에서 흐름을 잃지 않고 일관된 편집을 수행할 수 있음을 보여주는 신호로 읽을 수 있습니다.

2. Slay the Spire 테스트

Anthropic은 Slay the Spire를 코딩이 아니라 메모리 조사를 위해 사용했습니다. 영구 파일 메모리를 활성화했을 때, Fable 5는 이 게임에서 Opus 4.8보다 3배 개선된 성능을 보였다고 합니다.

핵심은 모델이 파일에 메모를 남기고, 실행 간에 이를 다시 읽어 전략을 축적했다는 점입니다. 이는 매 세션마다 처음부터 시작하는 모델이 아니라, 영구 상태를 가진 환경에서 점진적으로 개선될 수 있는 모델이라는 신호입니다.

에이전트 시스템을 만드는 개발자에게는 이 부분이 중요합니다. Fable 5의 강점은 모델 단독 성능뿐 아니라 다음 요소와 결합될 때 더 잘 드러날 수 있습니다.

파일 시스템
장기 메모리
툴 호출
작업 로그
재시도 루프
테스트 실행 결과

결과를 읽을 때 주의할 점

Fable 5의 벤치마크 결과는 강력하지만, 그대로 구매 결정으로 연결해서는 안 됩니다. 다음 항목을 확인해야 합니다.

벤치마크 소유자는 파트너입니다

FrontierCode와 FrontierBench는 Cognition에서, Finance Benchmark는 Hebbia에서 제공합니다. 이들은 신뢰할 수 있는 평가를 구축하는 조직이지만, 동시에 출시 서사의 파트너이기도 합니다.

파트너가 만든 벤치마크는 해당 파트너가 중요하게 여기는 능력을 보상할 가능성이 높습니다. 이것이 결과가 잘못되었다는 의미는 아닙니다. 다만 독립적인 재현과 자체 평가가 필요하다는 의미입니다.

다른 비교 관점이 필요하다면 MiniMax M3 대 Opus 4.7 대 GPT-5.5 분석을 함께 참고할 수 있습니다.

effort 설정이 결과를 바꿉니다

FrontierCode 결과는 중간 effort 수준에서 보고되었습니다. 이는 긍정적인 신호입니다. 하지만 effort 설정은 모델 비교에서 중요한 변수입니다.

두 모델이 서로 다른 effort 설정에서 평가되었다면 공정한 비교가 아닙니다. 온라인에서 Fable 5 점수를 볼 때는 다음을 확인하십시오.

effort 수준
시도 횟수
재시도 허용 여부
사용된 프롬프트
도구 사용 가능 여부
컨텍스트 길이

공개 점수는 제한적입니다

Anthropic 발표는 구체적인 점수표보다 순위 중심입니다. 일부 차트는 이미지로 제공되었고, 모든 세부 수치를 쉽게 재사용할 수 있는 형태로 공개하지는 않았습니다.

따라서 현재 단계에서는 “1위”라는 사실보다 다음 질문이 더 중요합니다.

어느 정도 차이로 앞섰는가?
해당 차이가 실제 비용 증가를 정당화하는가?
내 워크플로우에서도 같은 차이가 나타나는가?

순위는 마진이 아닙니다

“최고 점수”는 순위를 알려주지만 격차를 알려주지는 않습니다. 1점 차이의 1위와 20점 차이의 1위는 완전히 다른 의미를 갖습니다.

Fable 5는 Opus 4.8보다 입력/출력 토큰 가격이 더 높기 때문에, 순위만으로는 충분하지 않습니다. 실제로 더 나은 결과를 내는지, 그 차이가 비용을 정당화하는지 직접 측정해야 합니다.

현재 모델 ID, 가격, 컨텍스트 제한은 Claude 모델 개요에서 확인하는 것이 좋습니다.

Apidog로 자신만의 벤치마크 실행하기

가장 신뢰할 수 있는 벤치마크는 자신의 프롬프트와 자신의 성공 기준을 사용하는 벤치마크입니다.

공개 리더보드를 그대로 믿기보다, 다음 세 가지를 직접 측정하십시오.

출력 품질
지연 시간
토큰 비용

API 요청 설계, 테스트, 문서화를 위한 플랫폼인 Apidog를 사용하면 Claude API 요청을 저장하고, 모델만 바꿔가며 반복 실행할 수 있습니다.

1. Claude Messages API 요청 만들기

Apidog에서 새 POST 요청을 만들고 다음 엔드포인트를 설정합니다.

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

ANTHROPIC_API_KEY는 Apidog 환경 변수로 저장해두면 여러 요청에서 재사용할 수 있습니다.

2. 실제 작업에 가까운 프롬프트 작성하기

장난감 프롬프트 대신 실제 제품에서 발생하는 작업을 사용하십시오. 예를 들어 코드 리팩터링과 테스트 생성을 함께 요구하는 프롬프트를 사용할 수 있습니다.

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this Ruby method to use keyword arguments and add RSpec tests. Return only the updated code:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

먼저 claude-fable-5로 실행합니다.

그다음 요청을 복제하고 model 필드만 claude-opus-4-8로 변경합니다.

{
  "model": "claude-opus-4-8",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this Ruby method to use keyword arguments and add RSpec tests. Return only the updated code:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

프롬프트가 동일하므로 출력 차이는 모델 차이로 볼 수 있습니다.

3. 품질 평가 기준 만들기

응답을 단순히 “좋아 보인다”로 판단하지 말고, 사전에 체크리스트를 만드십시오.

예시는 다음과 같습니다.

점수 기준: 0~5점

1. 기존 동작을 유지했는가?
2. keyword arguments 리팩터링이 올바른가?
3. RSpec 테스트가 정상적으로 실행 가능한가?
4. edge case를 포함했는가?
5. 불필요한 설명 없이 코드만 반환했는가?

가능하면 모델명을 가리고 블라인드로 채점하십시오. 그래야 비용이 높은 모델에 무의식적으로 더 높은 점수를 주는 편향을 줄일 수 있습니다.

4. 지연 시간 비교하기

Apidog는 각 요청의 응답 시간을 보여줍니다. 대화형 개발 도구나 사용자-facing 기능에서는 지연 시간이 중요합니다.

예를 들어 다음과 같이 기록할 수 있습니다.

프롬프트 1:
- Fable 5: 8.4초
- Opus 4.8: 5.1초

프롬프트 2:
- Fable 5: 12.7초
- Opus 4.8: 7.3초

정확도가 약간 높더라도 지연 시간이 너무 길면 실시간 제품에는 적합하지 않을 수 있습니다.

5. 토큰 비용 계산하기

Claude 응답에는 보통 usage 블록이 포함됩니다.

{
  "usage": {
    "input_tokens": 312,
    "output_tokens": 1048
  }
}

Fable 5 가격이 백만 입력 토큰당 10달러, 백만 출력 토큰당 50달러라면 비용은 다음처럼 계산할 수 있습니다.

입력 비용 = input_tokens / 1,000,000 * 10
출력 비용 = output_tokens / 1,000,000 * 50
총 비용 = 입력 비용 + 출력 비용

예를 들어:

input_tokens = 312
output_tokens = 1048

입력 비용 = 312 / 1,000,000 * 10 = $0.00312
출력 비용 = 1048 / 1,000,000 * 50 = $0.0524

총 비용 = $0.05552

같은 방식으로 Opus 4.8 비용도 계산한 뒤, 품질 점수와 함께 비교하십시오.

6. 최소 5~10개 프롬프트로 반복하기

하나의 프롬프트만으로 모델을 판단하면 위험합니다. 실제 사용을 반영하는 프롬프트 세트를 만드십시오.

예시는 다음과 같습니다.

코드 리팩터링
테스트 생성
버그 원인 분석
긴 문서 요약
표에서 값 추출
JSON 스키마 변환
API 에러 응답 분석
마이그레이션 계획 작성

각 프롬프트에 대해 다음 표를 채우면 간단한 내부 벤치마크가 됩니다.

| 프롬프트 | 모델 | 품질 점수 | 지연 시간 | 입력 토큰 | 출력 토큰 | 비용 | 메모 |
|---|---|---:|---:|---:|---:|---:|---|
| 리팩터링 1 | claude-fable-5 | 4.5 | 8.4s | 312 | 1048 | $0.05552 | 테스트 품질 좋음 |
| 리팩터링 1 | claude-opus-4-8 | 4.0 | 5.1s | 312 | 920 | ... | edge case 부족 |

이 방식으로 측정하면 공개 벤치마크가 알려주지 않는 질문에 답할 수 있습니다.

Fable 5의 성능 향상이 내 작업에서 실제로 나타나는가? 그리고 그 차이가 더 높은 토큰 비용을 정당화하는가?

Apidog를 다운로드하면 몇 분 안에 이러한 API 테스트 환경을 만들 수 있습니다. 더 자세한 비용 계산은 Fable 5 가격 가이드를 참고하십시오.

결론

Claude Fable 5의 공개 벤치마크는 코딩, 금융 문서, 비전, 장기적 추론에서 강한 일관성을 보여줍니다. 특히 FrontierCode, CursorBench, FrontierBench, Hebbia Finance Benchmark 결과는 Fable 5가 단기 답변보다 장기 실행 작업과 에이전트형 워크플로우에 적합하다는 방향을 가리킵니다.

하지만 공개 자료는 순위 중심이며, 정확한 점수와 마진은 제한적입니다. 따라서 실무 도입 전에는 반드시 자체 평가를 실행해야 합니다.

가장 현실적인 접근은 간단합니다.

실제 작업에서 나온 프롬프트 5~10개를 고릅니다.
Fable 5와 기존 모델에 동일하게 실행합니다.
품질, 지연 시간, 토큰 비용을 기록합니다.
비용 대비 개선폭이 충분한지 판단합니다.

Fable 5는 강력한 모델로 보이지만, 최종 판단은 공개 리더보드가 아니라 여러분의 코드베이스, 문서, API 워크플로우에서 내려야 합니다.

DEV Community