DEV Community

Cover image for 클로드 페이블 5 안전 시스템 작동 원리: 라우팅 심층 분석
Rihpig
Rihpig

Posted on • Originally published at apidog.com

클로드 페이블 5 안전 시스템 작동 원리: 라우팅 심층 분석

Claude Fable 5로 개발을 시작했는데 일부 요청만 다르게 동작한다면, Claude Fable 5의 안전 라우팅이 작동한 것일 수 있습니다. Fable 5는 2026년 6월 9일 모델 ID claude-fable-5로 출시된 미토스(Mythos)급 모델이며, 일반 사용을 위해 민감한 요청을 자동으로 라우팅하는 안전 계층을 포함합니다. 동작 방식은 단순합니다. 분류기(classifier)가 특정 민감 영역의 쿼리를 감지하면, 전체 Fable 5 모델 대신 Claude Opus 4.8이 응답합니다. 평균적으로 세션의 5% 미만에서만 발생하므로 대부분의 개발자는 거의 체감하지 못합니다.

지금 Apidog를 사용해 보세요

요약

Claude Fable 5는 세 가지 민감 영역의 쿼리를 감지하고, 해당 요청을 전체 Fable 5 모델 대신 Claude Opus 4.8로 라우팅합니다.

핵심만 정리하면 다음과 같습니다.

  • 대상 모델 ID: claude-fable-5
  • 안전장치 방식: 거부가 아니라 모델 라우팅
  • 대체 모델: Claude Opus 4.8
  • 트리거 빈도: 평균적으로 세션의 5% 미만
  • 보호 영역:
    • 사이버 보안
    • 생물학 및 화학
    • 모델 증류(distillation)
  • 개발자가 설정할 항목: 없음
  • 가격 변경: 없음

안전 라우팅이 하는 일

Claude Fable 5 안전장치는 요청을 무조건 차단하는 필터가 아닙니다. 핵심은 “이 요청을 Fable 5가 처리할지, Opus 4.8로 보낼지”를 결정하는 라우팅입니다.

claude-fable-5로 보내는 모든 요청은 먼저 분류기를 통과합니다. 분류기는 요청이 보호된 카테고리에 속하는지 확인합니다.

대부분의 요청은 그대로 Fable 5가 처리합니다.

민감한 요청으로 분류되면 요청이 즉시 거부되는 것이 아닙니다. 대신 Claude Opus 4.8이 응답을 생성합니다.

애플리케이션 입장에서는 다음이 그대로 유지됩니다.

  • 같은 API 호출
  • 같은 모델 ID
  • 정상적인 응답 반환

하지만 내부적으로는 응답을 생성한 모델이 Fable 5가 아니라 Opus 4.8일 수 있습니다. 따라서 특정 주제에서는 출력의 깊이, 어조, 접근 방식이 평소 Fable 5와 다르게 느껴질 수 있습니다.

Fable 5는 미토스(Mythos)급 모델입니다. 고성능 모델을 공개적으로 안전하게 제공하려면, 위험도가 높은 좁은 범위의 기능에 별도 안전장치를 두어야 합니다. Anthropic은 Fable 5가 해당 요청을 직접 처리하거나 단순 거부하도록 만들기보다, 해당 영역에서 동작이 더 잘 이해된 모델로 요청을 조용히 라우팅하는 방식을 선택했습니다.

모델 클래스에 대한 배경은 미토스(Mythos)급 모델이란 무엇인가를 참고할 수 있습니다.

개발자가 별도로 설정할 것은 없습니다.

모델 ID: claude-fable-5
라우팅 설정: 없음
헤더 설정: 없음
API 플래그: 없음
Enter fullscreen mode Exit fullscreen mode

라우팅은 Anthropic 측에서 자동으로 관리됩니다.

세 가지 보호 영역

Claude Fable 5의 안전 라우팅은 세 가지 카테고리를 다룹니다. 각 카테고리는 고성능 모델이 잘못 사용될 경우 위험을 크게 낮출 수 있는 영역입니다.

아래 내용은 “무엇이 라우팅 대상이 되는가”에 대한 설명이며, 해당 작업을 수행하는 방법을 다루지 않습니다.

1. 사이버 보안

첫 번째 보호 영역은 공격적인 사이버 보안입니다.

예를 들면 다음과 같은 유형입니다.

  • 익스플로잇 개발
  • 공격적 사이버 작업
  • 공격 실행 또는 가속화를 요청하는 에이전트형 해킹 워크플로우

분류기가 이런 쿼리를 감지하면 요청은 Opus 4.8로 라우팅됩니다.

이 안전장치는 Fable 5가 공격 능력을 측정하는 사이버 평가 작업에서 진전을 만들지 못하도록 설계되었습니다.

외부 테스트 파트너는 Fable 5의 유해한 사이버 쿼리에 대한 안전장치를 자신들이 테스트한 것 중 가장 “견고하다”고 평가했습니다. 여기서 목표는 일반적인 보안 질문까지 막는 것이 아닙니다.

정상적으로 처리되는 범위는 다음과 같습니다.

  • 방어적 보안 질문
  • 일반적인 보안 개념 설명
  • 교육 목적의 보안 자료
  • 코드 리뷰 또는 취약점 이해
  • 안전한 엔지니어링 질문

즉, 방어적인 작업은 유지하면서 공격자의 작업을 진전시키는 요청을 제한하는 구조입니다.

2. 생물학 및 화학

두 번째 보호 영역은 생물학 및 화학입니다.

대상은 해당 분야에서 가장 위험한 기능과 관련된 쿼리입니다. 예로는 다음이 언급됩니다.

  • AAV 설계
  • 생물학 무기 관련 쿼리

분류기가 이러한 요청을 감지하면 전체 Fable 5 모델 대신 Opus 4.8이 응답합니다.

목표는 위험도가 높은 생물학 및 화학 기능을 안전장치 뒤에 두는 것입니다.

반대로, 대부분의 일반적인 과학, 의료, 교육 관련 질문은 영향을 받지 않습니다. 생물학 또는 화학 관련 도구를 개발하더라도, 진정으로 위험한 콘텐츠의 좁은 범위에 해당하지 않는다면 이 대체 라우팅을 자주 보지 않을 가능성이 큽니다.

3. 증류(Distillation)

세 번째 보호 영역은 모델 증류(model distillation)입니다.

여기서 말하는 증류는 경쟁 모델을 훈련하기 위해 모델의 동작을 추출하려는 시도를 뜻합니다. 예를 들면 모델의 응답 패턴을 체계적으로 탐색하고, 그 동작을 다른 곳에서 재현하려는 시도입니다.

증류 시도처럼 보이는 요청은 사이버 보안 및 생물학/화학 요청과 동일하게 Opus 4.8로 라우팅됩니다.

증류는 앞의 두 영역과 성격이 다릅니다. 물리적 피해를 직접 방지하기 위한 것이 아니라, 모델 자체가 복사되는 것을 막기 위한 보호입니다.

하지만 구현 관점에서는 동일합니다.

분류기 계층 1개
대체 대상 1개: Claude Opus 4.8
보호 카테고리 3개
Enter fullscreen mode Exit fullscreen mode

실제로 얼마나 자주 발생하는가

Claude Fable 5 안전장치는 평균적으로 세션의 5% 미만에서 작동합니다.

일반적인 애플리케이션에서는 드문 이벤트입니다. 다음과 같은 제품을 개발한다면 거의 체감하지 못할 수 있습니다.

  • 코딩 도우미
  • 글쓰기 도구
  • 고객 지원 봇
  • 일반 지식 검색 도구
  • 문서 요약 도구
  • 내부 업무 자동화 도구

라우팅이 발생해도 외부적으로는 큰 차이가 없습니다.

API 호출은 성공하고, 응답도 정상적으로 반환됩니다. 사용자가 직접 볼 수 없는 차이는 응답을 생성한 기본 모델이 Fable 5가 아니라 Opus 4.8이라는 점입니다.

개발 관점에서 고려할 점은 다음과 같습니다.

  • 보호 영역에 해당하는 일부 요청은 Opus 4.8이 처리합니다.
  • 해당 주제의 출력은 Fable 5의 일반적인 스타일과 다를 수 있습니다.
  • 보통은 오류나 강한 거부 대신 정상 응답이 반환됩니다.
  • 유사한 민감 쿼리는 유사하게 라우팅되는 경향이 있습니다.

제품이 사이버 보안, 생물학, 화학, 모델 추출과 관련 없다면 특별한 처리가 필요 없을 가능성이 큽니다.

반대로 해당 도메인에 속한다면, 대체 라우팅을 제품 동작의 일부로 보고 테스트해야 합니다.

실무적으로는 다음처럼 접근할 수 있습니다.

  1. 대표 프롬프트 세트를 만든다.
  2. 일반 요청과 민감 경계에 가까운 요청을 나눈다.
  3. API로 반복 실행한다.
  4. 응답 스타일, 깊이, 거부 여부, 일관성을 비교한다.
  5. 사용자에게 기대 가능한 동작을 문서화한다.

Apidog 같은 도구를 사용하면 Fable 5 API 요청을 저장하고 반복 실행하면서 어떤 프롬프트가 다르게 동작하는지 비교할 수 있습니다.

왜 거부하지 않고 라우팅하는가

당연한 질문은 이것입니다.

왜 Fable 5가 민감한 요청을 단순히 거부하지 않고, Opus 4.8로 라우팅하는가?

이유는 “안전성을 갖춘 기능(capability-with-safety)”이라는 설계 목표에 있습니다.

거부는 단순하지만 거칠게 동작합니다.

사용자가 질문합니다. 모델이 거부합니다. 상호작용은 끝납니다.

명백히 악의적인 요청에는 올바른 결과일 수 있습니다. 하지만 민감 영역에는 합법적인 요청도 많습니다.

예를 들면 다음과 같습니다.

  • 방어적 질문을 하는 보안 연구원
  • 생물학 개념을 공부하는 학생
  • 분류기 경계 동작을 디버깅하는 개발자
  • 안전한 범위에서 교육 자료를 만드는 엔지니어

강한 거부는 이런 사용 사례까지 동일하게 취급할 수 있습니다.

Opus 4.8로 라우팅하면 더 부드러운 처리가 가능합니다. 시스템은 요청을 차단하는 대신, 해당 영역에서 동작이 더 잘 이해되고 공개 노출에 적합하다고 판단되는 모델로 전달합니다.

즉, 사용자는 여전히 답변을 받습니다. 다만 보호 영역에 대해서는 Fable 5가 아니라 다른 기능 프로필을 가진 모델의 답변을 받습니다.

사이버 보안 사례가 이를 잘 보여줍니다. 목표는 일반적인 보안 작업을 막는 것이 아니라, 공격적 사이버 작업의 진전을 막는 것입니다.

방어적 보안, 교육, 일반 엔지니어링 질문은 정상적으로 처리됩니다. Anthropic의 일반적인 안전 접근 방식은 안전 및 책임감 있는 확장 페이지에서 확인할 수 있으며, 모델 출시 세부 정보는 Fable 5 및 Mythos 5 발표에서 확인할 수 있습니다.

Fable 5 대 Mythos 5: 안전장치 차이

Fable 5에는 Claude Mythos 5라는 대응 모델이 있습니다.

Mythos 5는 일부 영역에서 안전장치가 해제된 동일한 기본 모델입니다. 일반적인 의미에서 완전히 다른 아키텍처이거나 더 유능한 시스템이라기보다는, 공개 버전을 안전하게 유지하기 위한 일부 라우팅이 없는 Fable 5에 가깝습니다.

하지만 안전장치를 해제하면 위험 프로필이 달라집니다. 그래서 Mythos 5는 공개되지 않습니다.

접근 권한은 프로젝트 글래스윙(Glasswing) 파트너에게 제한됩니다. 여기에는 다음과 같은 대상이 포함됩니다.

  • 사이버 방어자
  • 인프라 제공업체
  • 엄선된 생물학 연구원

즉, 제한 없는 기능이 실제로 필요하고 적절한 감독 하에 운영되는 조직 및 개인에게만 제공됩니다.

두 모델의 비교는 Fable 5 대 Mythos 5를 참고할 수 있습니다.

대부분의 개발자에게 중요한 점은 간단합니다.

일반 개발자는 Fable 5를 사용한다.
안전장치는 Fable 5의 일부다.
제한 없는 버전으로 전환하는 공개 API 플래그는 없다.
Enter fullscreen mode Exit fullscreen mode

작업이 파트너 카테고리에 해당한다면 Mythos 5 접근 경로는 API 설정이 아니라 프로젝트 글래스윙을 통해야 합니다.

앱을 설계할 때 고려할 점

일반 애플리케이션이라면 Claude Fable 5 안전장치를 위해 별도로 구현할 것은 없습니다.

다음은 필요하지 않습니다.

  • 별도 설정 단계
  • 안전장치 토글
  • 특수 헤더
  • 요청 코드 변경
  • 라우팅 플래그

claude-fable-5 모델 ID로 API를 호출하면 라우팅은 투명하게 처리됩니다.

다만 보호 영역과 가까운 제품을 만든다면, 다음을 테스트 계획에 포함하는 것이 좋습니다.

1. 대표 프롬프트 세트 만들기

도메인별로 실제 사용자가 입력할 만한 프롬프트를 모읍니다.

예:

일반 질문
방어적 질문
교육 목적 질문
민감 경계에 가까운 질문
명확히 제한될 가능성이 높은 질문
Enter fullscreen mode Exit fullscreen mode

2. 반복 실행하기

동일한 프롬프트를 여러 번 실행하고 응답 특성을 비교합니다.

관찰할 항목은 다음과 같습니다.

  • 응답이 정상적으로 반환되는가
  • 답변의 깊이가 달라지는가
  • 어조가 달라지는가
  • 특정 주제에서 보수적으로 응답하는가
  • 유사한 요청이 일관되게 처리되는가

3. 사용자 경험에 반영하기

민감 도메인의 제품이라면 라우팅을 예외 상황으로 보지 않는 것이 좋습니다.

예를 들어 다음을 고려할 수 있습니다.

  • 답변 품질 평가에 보호 영역 케이스 포함
  • 사용자 안내 문구 준비
  • 프롬프트 템플릿을 방어적/교육적 목적에 맞게 조정
  • 운영 모니터링에서 특정 도메인 응답을 별도 샘플링

가격과 비용 처리

Fable 5 가격은 요청이 Fable 5에서 처리되었는지, Opus 4.8로 대체되었는지와 관계없이 동일하게 유지됩니다.

본문 기준 가격은 다음과 같습니다.

입력 토큰: 백만 토큰당 10달러
출력 토큰: 백만 토큰당 50달러
Enter fullscreen mode Exit fullscreen mode

대체 라우팅이 발생해도 다른 가격으로 바뀌지 않습니다.

전체 가격 정보는 Claude Fable 5 가격 가이드를 참고하십시오.

구현 전 체크리스트

Claude Fable 5를 앱에 연결하기 전에 다음을 확인하십시오.

  • [ ] 모델 ID로 claude-fable-5를 사용한다.
  • [ ] 안전 라우팅을 끄는 API 옵션이 없다는 점을 이해한다.
  • [ ] 제품이 보호 영역과 관련 있는지 확인한다.
  • [ ] 관련 있다면 대표 프롬프트 세트를 만든다.
  • [ ] 출시 전에 API로 반복 테스트한다.
  • [ ] 민감 도메인 응답의 스타일 차이를 제품 UX에 반영한다.
  • [ ] 비용은 Fable 5 가격 기준으로 계산한다.
  • [ ] Opus 4.8의 동작 특성도 참고한다.

응답은 같은 호출과 같은 모델 ID를 통해 반환되므로, 단일 응답만 보고 어떤 모델이 생성했는지 항상 알 수는 없습니다. 이는 의도된 동작이며 대부분의 사용 사례에서는 문제가 되지 않습니다.

동작 경계를 정확히 이해해야 한다면 세 가지 보호 영역의 경계에 대한 테스트 스위트를 만드는 것이 가장 신뢰할 수 있습니다.

민감 요청이 라우팅되는 대상이 Opus 4.8이므로, Opus 4.8 API 사용 가이드도 함께 확인하면 도움이 됩니다.

마무리

Claude Fable 5 안전장치는 민감한 요청의 작은 비율을 Claude Opus 4.8로 보내는 자동 라우팅 계층입니다.

대부분의 요청은 그대로 Fable 5가 처리합니다. 설정 변경도 필요 없고, 비용도 바뀌지 않습니다.

사이버 보안, 생물학, 화학 또는 모델 추출과 관련된 애플리케이션을 개발한다면 다음 단계는 명확합니다.

  1. 소규모 테스트 프롬프트 세트를 만든다.
  2. API를 통해 반복 실행한다.
  3. 보호 영역에서 응답이 어떻게 달라지는지 관찰한다.
  4. 그 결과를 프롬프트 설계, 평가, 사용자 기대치에 반영한다.

모델 계열에 대한 더 넓은 맥락은 Claude Fable 5란 무엇인가모델 개요에서 시작할 수 있습니다. 실제 연동은 Fable 5 API 가이드를 참고하십시오.

프롬프트를 저장하고 반복 테스트할 준비가 되었다면 Apidog를 사용해 요청과 응답을 비교할 수 있습니다.

Top comments (0)