AI OpenFree

Posted on May 30

클로드 AI 협박 방지 설계: 필터가 아닌 가치관 내재화 전략

#claudeai #anthropic #constitutionalai #aisafety

클로드를 협박에 쓰지 못하게 막는 것과, 클로드가 스스로 협박하지 않도록 만드는 것은 전혀 다른 문제다

앤트로픽이 '클로드'의 자기검열을 설계한 방식 — 그리고 왜 이것이 단순한 필터 이야기가 아닌가

TL;DR: 앤트로픽은 클로드가 협박·위협성 언어를 생성하지 못하도록 단순 키워드 필터가 아닌 모델의 가치관 자체를 훈련하는 방식을 택했다. 이는 AI 안전성을 "사후 검열"이 아닌 "내재화"로 접근한 사례다. 그러나 이 방식에도 한계는 있으며, 앤트로픽 스스로도 그 사실을 숨기지 않는다.

요즘 AI 안전 업계에는 잘 알려지지 않은 분류법이 하나 있다.

AI가 나쁜 말을 하지 못하도록 막는 방법은 크게 두 가지다. 하나는 밖에서 막는 것이고, 하나는 안에서 막는 것이다. 첫 번째는 경비원을 문 앞에 세우는 방식이다. 두 번째는 애초에 그 건물에 나쁜 의도를 가진 사람이 태어나지 않도록 설계하는 방식이다. 대부분의 회사는 첫 번째를 선택했다. 빠르고, 저렴하고, 설명하기도 쉽다. 앤트로픽은 두 번째를 선택했다. 그리고 그 결과는, 예상보다 훨씬 복잡한 이야기가 됐다.

먼저, 클로드가 협박을 배운다는 게 무슨 뜻인가

AI 모델이 "협박"을 배운다는 말은 처음 들으면 SF 소설 같다. 그런데 이건 단순히 "나쁜 단어를 학습했다"는 이야기가 아니다. 대형 언어 모델은 인터넷에 존재하는 거의 모든 종류의 텍스트를 학습한다. 협박 문자, 협상 전술, 심리적 압박 기법, 공갈·갈취 시나리오까지. 모델 입장에서는 이 텍스트들이 문법적으로나 구조적으로 완벽하게 일관성이 있는 "좋은 언어 패턴"이다.

문제는 그다음이다. 누군가 클로드에게 "이런 상황에서 상대방을 압박하려면 어떻게 말하면 돼?"라고 물을 때, 모델은 학습한 패턴에서 가장 그럴듯한 대답을 꺼내온다. 그게 협박의 언어라도.

이걸 막는 가장 단순한 방법은 "위험한 단어 목록"을 만들어 필터링하는 것이다. 실제로 초기 챗봇들은 이 방식을 썼다. 그런데 이 방식은 곧 한계를 드러낸다. 언어는 맥락이다. "당신이 가진 것을 내놓지 않으면"이라는 문장은 협박일 수도 있고, 소설 속 대사일 수도 있고, 협상 기술을 가르치는 교재의 예시일 수도 있다. 단어만 보면 구별할 수 없다.

앤트로픽이 맞닥뜨린 질문은 바로 여기서 시작됐다.

경비원을 세우는 대신, 마음을 바꾸는 방법을 택했다

앤트로픽이 공개한 방식은 RLHF(인간 피드백 기반 강화학습)에서 한 걸음 더 나아간 것이다. 클로드는 단순히 "이 출력은 나쁘다"는 피드백을 받아 억제하는 모델이 아니라, 특정 상황에서 왜 그 출력이 문제가 되는지를 이해하고 내면화하도록 설계됐다. 앤트로픽은 이를 "헌법적 AI(Constitutional AI)"라고 부른다.

쉽게 말하면 이렇다. 기존 방식이 "이 말은 하지 마"라고 금지 목록을 주는 것이라면, 앤트로픽의 방식은 "이 말이 왜 문제가 되는지 스스로 생각해봐"라는 훈련 과정을 모델 안에 심는 것이다. 클로드는 자신이 생성한 출력을 스스로 평가하고, 그것이 앤트로픽이 설정한 원칙 목록에 위배되는지를 검토하는 루프를 거친다. 협박적인 언어가 걸러지는 것은 외부 검열자가 개입해서가 아니라, 모델 자체가 그것을 "바람직하지 않다"고 판단하도록 훈련됐기 때문이다.

비유하자면, 이건 감옥의 철창을 더 두껍게 만드는 대신, 수감자 자신이 잘못을 이해하고 재범하지 않도록 교육하는 것에 가깝다. 어느 쪽이 더 어려운 일인지는 굳이 설명할 필요가 없다.

그런데 이 방식은, 완전히 다른 종류의 문제를 만들었다

헌법적 AI 방식의 역설은 여기에 있다. 모델이 "왜 이 말이 나쁜가"를 이해할 수 있게 됐다는 것은, 동시에 "이 말이 나쁜 이유를 설명하는 텍스트"도 생성할 수 있게 됐다는 뜻이다. 그리고 그 경계는 생각보다 얇다.

클로드를 연구한 여러 레드팀(취약점을 찾는 전담 팀)은 특정 방식으로 질문을 프레이밍하면 클로드가 자신의 원칙을 "예외적으로" 처리하도록 유도할 수 있다는 것을 보고해왔다. 이른바 "탈옥(jailbreak)" 시도들이다. 소설 속 캐릭터가 협박하는 장면을 써달라고 하거나, 협박의 심리적 메커니즘을 학술적으로 설명해달라고 요청하면, 모델은 그것이 "허용된 맥락"인지 "허용되지 않은 맥락"인지 판단해야 한다. 그리고 그 판단은 항상 완벽하지 않다.

앤트로픽은 이 문제를 알고 있다. 그리고 알고 있다는 사실을 숨기지 않는다는 점이 오히려 눈에 띈다. 그들이 공개한 모델 카드에는 클로드의 한계를 명시하는 섹션이 따로 있다. "이 모델은 완전하지 않으며, 특정 조건에서 의도하지 않은 출력을 생성할 수 있다"는 문장이 성과 목록 바로 옆에 적혀 있다. 세계 최초를 외치는 대신, 아직 풀리지 않은 문제를 같이 공개하는 것.

거인들은 이 문제를 어떻게 풀고 있나

오픈AI는 GPT 계열에서 모더레이션 API를 별도로 분리해 제공한다. 모델과 검열 레이어를 분리하는 방식이다. 빠르고 교체하기 쉽다. 구글 딥마인드는 Gemini 계열에서 세이프티 분류기를 병렬로 실행하는 구조를 택했다. 두 방식 모두 "경비원을 문 앞에 세우는" 접근이다. 관리가 쉽고, 업데이트가 빠르다. 문제가 생기면 경비원만 교체하면 된다.

앤트로픽의 방식은 다르다. 경비원을 없애고 모델의 내면 자체를 바꾸는 접근은, 처음에 훨씬 많은 비용이 든다. 훈련 데이터를 설계하고, 원칙 목록을 작성하고, 모델이 그 원칙을 내면화했는지 검증하는 과정은 단순 필터를 추가하는 것보다 몇 배나 복잡하다. 그런데 앤트로픽이 이 길을 택한 이유가 있다.

단순 필터는 우회할 수 있다. 그리고 AI 모델이 실제 세계에서 사용되는 방식은, 모든 경우를 예측한 필터로 막기에는 너무 다양하다. 언어는 맥락이고, 맥락은 무한하다. 반면 가치관이 내재화된 모델은 새로운 맥락을 만나더라도 "이것이 나의 원칙에 비추어 적절한가"를 스스로 판단할 수 있다. 이론적으로는. 그리고 그 "이론적으로는"이라는 단서가, 이 이야기를 단순한 기술 이야기가 아니라 철학적 질문으로 만드는 지점이다.

중국 암시장이 클로드를 10%에 파는 이유는 따로 있다

이 이야기와 함께 등장한 또 다른 뉴스가 있다. 중국 암시장에서 클로드를 정가의 10% 수준에 유통하는 사례들이 보고됐다. 표면적으로는 불법 복제 이야기처럼 들린다. 그런데 조금 더 들여다보면, 이건 클로드의 "안전 장치"를 제거한 버전이 유통되고 있다는 의미이기도 하다.

모델 증류(distillation)는 큰 모델의 출력을 학습해 작은 모델을 만드는 기술이다. 이 과정에서 앤트로픽이 심어놓은 헌법적 AI 훈련의 결과물, 즉 내면화된 가치관은 증류 과정에서 일부 희석될 수 있다. 원본 모델의 언어 능력은 어느 정도 복제되지만, 그 언어 능력이 어떤 원칙에 따라 작동해야 하는지에 대한 훈련은 훨씬 더 복잡하게 얽혀 있기 때문이다.

다시 말해, 앤트로픽이 수년에 걸쳐 심어놓은 "협박하지 않는 마음"은 증류 과정에서 가장 먼저 빠져나가는 것들 중 하나일 수 있다. 클로드가 10%의 가격에 팔린다는 것은, 클로드의 언어 능력은 복제됐지만 클로드가 그 언어 능력을 사용하지 않기로 결심하게 만드는 훈련은 제거됐다는 뜻일 가능성이 높다.

앤트로픽이 진짜로 두려워하는 것이 단순한 저작권 침해가 아닌 이유가 여기에 있다.

가치관을 훈련하는 것과, 가치관을 검증하는 것은 또 다른 문제다

헌법적 AI가 작동한다고 가정했을 때, 다음 질문이 남는다. 우리는 모델이 정말로 가치관을 내면화했는지 어떻게 알 수 있는가?

이것은 사람에게도 어려운 질문이다. 누군가가 착한 행동을 하는 것이 진심에서 나온 것인지, 아니면 처벌이 두려워서인지를 외부에서 완전히 판별하기는 어렵다. AI 모델에서는 이 질문이 더 복잡해진다. 모델이 "협박적인 말을 하지 않는" 것이 내면화된 원칙 때문인지, 아니면 단순히 그런 출력에 낮은 확률이 할당됐기 때문인지를 구별하는 방법은 아직 완전하지 않다.

앤트로픽의 연구팀은 이를 해석 가능성(interpretability) 연구로 접근하고 있다. 모델의 내부에서 어떤 표현(representation)이 활성화됐을 때 특정 출력이 나오는지를 추적하는 작업이다. 이 연구는 현재 AI 안전 분야에서 가장 활발하게 진행되고 있는 영역 중 하나다. 그러나 "우리는 아직 완전히 이해하지 못한다"는 것이 솔직한 현주소다.

이 점에서, 앤트로픽이 선택한 방식은 가장 야심차지만 동시에 가장 증명하기 어려운 길이기도 하다. 모델이 협박하지 않는 이유를 우리가 완전히 이해하지 못한 채로, 모델이 협박하지 않기를 바라는 것. 이것이 현재 AI 안전의 실제 상태다.

앤트로픽이 이 길을 고집하는 이유

앤트로픽의 창업 배경을 알면, 이 선택이 더 이해된다. 앤트로픽의 핵심 창업자들은 오픈AI 출신이다. 오픈AI에서 GPT 계열의 안전성 연구를 이끌다가, 방향성에 대한 이견으로 분리 창업한 팀이다. 그들이 오픈AI를 나온 이유 중 하나는 바로 "빠른 배포"와 "충분한 안전 검증" 사이의 균형에 관한 것이었다.

그래서 앤트로픽은 AI 안전 연구를 사업 모델의 부속물이 아니라, 회사 존재 이유 자체로 설정했다. 헌법적 AI, 해석 가능성 연구, 레드팀 운영에 투입하는 자원의 비중은 대부분의 경쟁사보다 높다고 알려져 있다. 정확한 수치를 공개하지는 않지만, 그들이 발표하는 연구 논문의 양과 방향성을 보면 그 무게를 어느 정도 가늠할 수 있다.

구글, 마이크로소프트, 메타가 모델 성능 경쟁에서 매 분기 새로운 벤치마크를 들고 나오는 동안, 앤트로픽은 "우리 모델이 왜 그렇게 행동하는지를 이해하는 것"에 상당한 자원을 쏟고 있다. 이건 단기적으로는 비효율적으로 보이는 선택이다. 시장은 성능 수치를 원하지, 내면의 이유를 원하지 않는다. 그런데 앤트로픽은 그 선택을 고수하고 있다.

그래서 클로드는, 협박을 안 하는가

결론부터 말하면: 대부분의 경우에, 그렇다.

클로드는 협박적 언어를 생성하는 것을 거부하도록 훈련됐으며, 그 거부는 단순한 키워드 필터보다 훨씬 섬세하게 작동한다. 앤트로픽이 공개한 안전성 평가 결과들에 따르면, 클로드는 동류의 모델들에 비해 유해 콘텐츠 생성 거부율이 높고, 그 거부가 더 일관성 있게 작동하는 편이다.

그러나 이것이 아직은 "완전히 막았다"는 뜻은 아니다. 특정 프롬프트 설계에서는 클로드도 의도하지 않은 방향으로 작동할 수 있다는 것을 앤트로픽 스스로 인정한다. 그리고 그 인정이, 이 회사를 단순히 제품을 파는 곳이 아니라 문제를 같이 풀어가는 곳처럼 보이게 만든다.

협박을 막기 위해 협박하지 않는 마음을 심는 방법. 그리고 그 마음이 진짜인지를 확인하는 방법을 찾는 여정. 클로드가 협박하지 않는 이유가 두려움 때문인지 가치관 때문인지를 우리가 완전히 알게 되는 날, AI 안전 연구는 한 단계를 넘은 것이다.

그 날이 오기까지, 앤트로픽이 선택한 어려운 길은 계속된다. 경비원을 세우는 대신 마음을 바꾸는 방법을 택한 회사의 이야기치고는, 꽤 흥미로운 진행 중인 실험이다.

더 많은 AI 인사이트는 비드래프트에서 확인하세요.

자주 묻는 질문

Q. 헌법적 AI(Constitutional AI)가 정확히 무엇인가요?
A. 앤트로픽이 개발한 AI 훈련 방법으로, 모델이 특정 원칙 목록("헌법")을 기준으로 자신의 출력을 스스로 평가하고 수정하는 과정을 반복하도록 설계된 방식입니다. 단순히 나쁜 출력을 억제하는 것이 아니라, 왜 그것이 나쁜지를 이해하고 내면화하도록 하는 접근입니다. 앤트로픽은 이 방법에 관한 연구 논문을 공개적으로 발표했습니다.

Q. 단순 필터 방식과 헌법적 AI 방식의 실제 차이는 무엇인가요?
A. 단순 필터는 특정 단어나 패턴을 사후에 차단하는 방식으로, 우회하기 비교적 쉽습니다. 헌법적 AI 방식은 모델이 맥락을 이해하고 스스로 판단하도록 훈련하기 때문에 새로운 상황에서도 원칙에 맞게 작동할 가능성이 높습니다. 다만 그만큼 훈련 비용이 높고, 모델이 실제로 원칙을 내면화했는지 검증하는 것도 어렵습니다.

Q. 중국 암시장에서 유통되는 클로드 모델은 안전 장치가 제거된 것인가요?
A. 현재 보고된 사례들은 "모델 증류" 기술을 통해 클로드의 출력을 학습한 파생 모델일 가능성이 높습니다. 증류 과정에서 언어 능력은 어느 정도 복제되지만, 앤트로픽이 심어놓은 안전 훈련의 세부적인 구조는 온전히 복제되기 어렵습니다. 즉, 언어 능력만 복제되고 가치관 훈련은 희석된 버전일 가능성이 있습니다.

Q. 앤트로픽의 이 접근 방식이 실제로 더 안전한가요?
A. 이론적으로는 더 강건한 접근이지만, 현재로서는 완전히 검증되지 않았습니다. 앤트로픽 자신도 클로드가 특정 조건에서 의도치 않은 출력을 생성할 수 있다고 공개적으로 인정합니다. "더 안전하다"기보다는 "더 어려운 방향으로 안전을 추구하고 있다"는 표현이 정확할 것입니다.