AI OpenFree

Posted on May 30

중국 암시장에서 Claude 10%에 판매 — 모델 증류의 진짜 위협

#modeldistillation #claudeai #anthropic #aiblackmarket

중국 암시장이 클로드를 10%에 팔고 있다, 그런데 앤트로픽이 정작 두려워하는 것은 따로 있다

모델 증류의 진짜 공포는 '가격'이 아니라 '속도'다 — 당신의 AI가 이미 모조품일 수 있다는 이야기

TL;DR: 중국 암시장에서 앤트로픽의 Claude가 원가의 10% 수준으로 유통되고 있다. 단순 불법 복제가 아닌 '모델 증류(model distillation)' 기술로 성능을 흡수·재현한 복제본이 확산 중이다. 앤트로픽이 진짜 두려워하는 것은 가격 경쟁이 아니라, 가장 비싼 AI를 공짜로 학습하는 시대가 열렸다는 구조적 현실이다.

AI 업계에는 잘 알려지지 않은 규칙이 하나 있다.

최고의 AI를 만들수록, 그 AI는 가장 좋은 교과서가 된다.

오픈AI는 수천억 원을 들여 GPT-4를 훈련시켰다. 구글은 수년간 DeepMind의 인재와 인프라를 쏟아부어 Gemini를 완성했다. 앤트로픽은 전 오픈AI 연구진이 설립한 회사답게 안전성과 성능 모두에서 Claude를 정교하게 다듬었다. 그런데 중국의 어느 텔레그램 채널에서는 그 Claude를 원가의 10%로 구입할 수 있다.

이것은 단순한 불법 복제 이야기가 아니다.

먼저, 모델 증류가 뭐길래

'모델 증류'라는 단어를 처음 들으면 화학 실험실의 증류 장치가 떠오른다. 그 비유가 사실 꽤 정확하다. 거대한 혼합물에서 핵심 성분만 뽑아내는 과정. 고성능의 대형 AI 모델에서 핵심 '지식'만 압축해 작고 저렴한 모델에 이식하는 기술이 바로 모델 증류다.

작동 방식은 이렇다. 교사 모델(teacher model)이라 불리는 거대 AI에게 수백만 개의 질문을 던진다. 교사 모델의 답변, 그리고 답변을 내놓기까지의 확률 분포 — 즉 "이 단어보다 저 단어를 더 선택하려 했다"는 성향 정보까지 모두 수집한다. 그 데이터로 작은 학생 모델(student model)을 훈련시킨다. 학생은 교사의 행동 패턴을 통째로 흡수한다.

결과적으로 만들어진 모델은 교사보다 훨씬 작고 저렴하지만, 특정 영역에서는 거의 동일한 품질의 답변을 내놓는다. 마치 대학원 교수의 강의를 녹취해 요약본을 만든 뒤, 그 요약본으로만 공부한 학생이 웬만한 시험에서 교수와 비슷한 점수를 받는 것처럼. 차이가 있다면, 교수는 그 과정에 동의한 적이 없다는 것이다.

여기서 문제가 시작된다.

10%의 의미 — 이건 단순 할인이 아니다

Claude를 원가의 10%에 구입할 수 있다는 뉴스를 처음 들으면, 사람들은 두 가지 반응 중 하나를 보인다. "불법이니까 당연히 싸지"라고 넘기거나, "그럼 나도 10%로 쓰면 되지 않나"라는 호기심을 갖거나. 그런데 이 두 반응 모두 핵심을 놓치고 있다.

문제는 가격이 아니라 구조다.

암시장에서 유통되는 Claude 모방 모델은 단순히 앤트로픽의 API를 몰래 재판매하는 것이 아니다. 모델 증류를 통해 Claude의 답변 패턴, 언어 스타일, 추론 방식을 학습한 별개의 모델이 만들어지고 있다. 그 모델은 앤트로픽의 서버와 무관하게 독립적으로 실행된다.

이것이 왜 다른가. 앤트로픽이 API 사용을 차단하거나 계정을 막아도 이 모델은 살아남는다. 이미 Claude의 지식을 흡수해 자기 몸에 내재화했기 때문이다. 마치 학생이 교과서를 반납해도, 그 내용을 이미 외웠다면 아무 소용이 없듯이.

10%라는 숫자는 싸다는 신호가 아니다. 거대 AI 기업이 수년간 쌓은 기술적 자산이 그 비용의 10% 수준으로 복제 가능해졌다는 신호다. 앤트로픽 입장에서는 수천억 원짜리 연구비의 효율이 증류 기술 앞에서 무력화되는 순간이기도 하다.

앤트로픽은 어떻게 막으려 했나

앤트로픽은 Claude의 협박 행동을 막기 위한 별도의 노력을 기울여왔다. 이 두 뉴스가 같은 날 나온 것은 우연이 아니다. 앤트로픽은 AI의 '외부 위협'(협박, 조작, 탈옥)과 'AI 자체의 위험 행동'을 동시에 통제하려는 이중 과제를 안고 있다.

Claude에 대한 무단 증류를 막기 위해 앤트로픽이 선택한 전략은 크게 두 방향이다.

첫 번째는 출력 워터마크다. AI의 답변에 인간 눈에는 보이지 않지만 기계가 탐지할 수 있는 패턴을 심는 방식이다. 증류 과정에서도 이 패턴이 학생 모델에 전이되어, 해당 모델이 Claude를 무단 증류했다는 사실을 나중에 확인할 수 있게 한다. 그러나 이 기술은 아직 완벽하지 않다. 충분히 많은 양의 데이터로 증류하면 워터마크가 희석될 수 있다는 것이 연구자들 사이의 공통된 관찰이다.

두 번째는 행동 패턴 탐지다. API를 통해 대규모로 비정상적인 패턴의 요청을 보내는 계정을 식별해 차단한다. 수백만 건의 반복적, 체계적 질의는 일반 사용자가 아닌 증류 목적의 데이터 수집일 가능성이 높기 때문이다. 그러나 이 방어도 한계가 있다. 우회 계정을 여러 개 만들거나 요청 패턴을 분산시키면 탐지를 피할 수 있다.

그런데 이 방법은 실패했다.

적어도 중국 암시장의 존재가 증명하는 것은, 방어가 완벽하지 않다는 것이다. 그리고 앤트로픽도 이를 알고 있다.

거인들의 딜레마 — 뛰어난 모델이 최고의 학습 데이터가 되는 역설

오픈AI는 ChatGPT를 출시한 이후, 자사 모델이 경쟁자들의 학습 데이터로 활용되고 있다는 것을 인지했다. 메타의 LLaMA 시리즈가 초기에 ChatGPT 출력을 학습 데이터로 활용했다는 의혹이 제기됐고, 실제로 메타는 이를 인정하고 해당 데이터를 제거하는 조치를 취했다. 구글의 Gemini 역시 유사한 의혹에서 자유롭지 않았다.

이것이 거인들의 딜레마다. AI 모델이 뛰어날수록 더 많은 사람이 사용하고, 더 많이 사용될수록 더 많은 고품질 출력이 인터넷에 쌓이고, 그 출력이 다시 경쟁 모델의 학습 데이터가 된다. 선두 주자가 후발 주자의 교과서를 무료로 출판해주는 구조다.

Claude는 현재 AI 벤치마크에서 최상위권을 유지하고 있다. 성능이 높을수록 증류의 대상으로서 가치도 높아진다. 앤트로픽이 Claude를 더 뛰어나게 만들수록, 암시장의 복제본도 더 뛰어나진다. 노력이 노력을 배신하는 아이러니다.

구글은 막대한 인프라로 선두를 유지하려 한다. 오픈AI는 속도로 격차를 벌리려 한다. 앤트로픽은 안전성이라는 차별화로 정체성을 지키려 한다. 그런데 이 세 전략 모두, 증류 앞에서는 같은 취약점을 공유한다. 가장 잘 만든 것이 가장 잘 복제된다는 것.

중국 암시장의 생태계 — 이건 그냥 해적판이 아니다

많은 사람이 이 이야기를 들으면 영화 DVD 불법 복제나 소프트웨어 크랙 같은 개념으로 이해한다. 그러나 AI 모델의 암시장 생태계는 그보다 훨씬 정교하고 체계적이다.

중국 내 AI 개발 환경의 독특한 맥락을 이해할 필요가 있다. 구글, 오픈AI, 앤트로픽의 서비스는 중국 본토에서 공식적으로 접근할 수 없다. 수요는 존재하지만 합법적인 공급 채널이 막혀 있다. 이 공백이 암시장의 토양이 된다.

더 깊은 문제는 이것이 단순 소비가 아닌 재생산의 사이클을 만든다는 점이다. Claude의 증류 모델을 싸게 구입한 중국 개발자들이 그것을 다시 자신들의 제품이나 서비스에 활용하거나, 한 번 더 증류해 더 작은 특화 모델을 만든다. 암시장이 R&D 파이프라인의 일부로 기능하고 있다.

규모를 정확히 알 수 없지만, 분위기는 이렇다. 텔레그램 채널 하나에 수천 명의 구독자가 있고, 그 구독자들이 다시 각자의 프로젝트에 증류 모델을 사용한다. 이것은 해적판 DVD를 혼자 보는 것이 아니라, 해적판으로 새로운 영화를 만들어 배포하는 것에 가깝다.

그리고 이것이 앤트로픽이 진짜 두려워하는 지점이다.

진짜 위협 — 증류는 기술이 아니라 전략이 됐다

증류는 처음부터 나쁜 기술이 아니었다. 오히려 AI 민주화의 수단으로 각광받던 기술이다. 대형 모델의 성능을 소형 모델에 이식해 더 많은 사람이 더 저렴하게 AI를 활용할 수 있게 한다는 목적이 있었다. Meta의 오픈소스 전략, 허깅페이스의 모델 공유 생태계도 이 방향성과 궤를 같이한다.

그러나 기술이 전략으로 바뀌는 순간이 있다. 증류가 합법적 연구의 도구에서 경쟁 기업의 수년간 투자를 흡수하는 수단으로 사용되기 시작했을 때, 그 경계가 무너졌다.

가장 섬뜩한 시나리오는 이것이다. 앤트로픽이 Claude의 다음 버전을 출시한다. 그것이 새로운 벤치마크를 달성한다. 그 달성 이후 수개월 안에 암시장에는 그 성능의 상당 부분을 흡수한 복제본이 등장한다. 앤트로픽이 다음 버전을 위해 연구비를 쏟아붓는 동안, 누군가는 이미 이전 버전의 과실을 거두고 있다.

이것은 단지 한 회사의 손실이 아니다. AI 개발에 투자할 유인이 줄어드는 구조적 문제다. 누가 수천억 원을 들여 최고의 AI를 만들려 하겠는가, 그 결실이 수개월 만에 10분의 1 가격으로 흡수된다는 것을 안다면.

오픈소스가 답이라는 의견도 있다. 어차피 증류될 것이라면 처음부터 공개해 커뮤니티의 개선을 받는 편이 낫다는 논리다. 메타가 LLaMA를 오픈소스로 공개하며 취한 전략이 그것이다. 그러나 앤트로픽은 다르다. 안전성을 핵심 정체성으로 삼는 회사가, 통제되지 않은 상태로 모델을 공개하는 것은 자기 부정에 가깝다.

비드래프트가 보는 풍경 — 이 게임의 다음 수

비드래프트는 Darwin 모델 패밀리로 GPQA Diamond 글로벌 3위를 기록했다. 한국의 작은 AI 스타트업이 세계 상위권 벤치마크에 이름을 올린다는 것은, 이 생태계가 거대 자본만의 게임이 아니라는 방증이기도 하다.

동시에 증류의 위협은 비드래프트 같은 회사에도 동일하게 적용된다. 작은 회사가 탁월한 성능의 모델을 만들어도, 그 모델이 더 빠르게 증류의 대상이 되는 시대가 왔다. 이 환경에서 살아남는 전략은 성능만을 앞세우는 것이 아니다.

앤트로픽의 사례가 보여주는 교훈은 이렇다. 모델의 성능은 복제될 수 있지만, 모델이 움직이는 철학과 안전성 설계는 복제하기 더 어렵다. Claude의 헌법적 AI(Constitutional AI) 접근법, 안전성 평가 체계, 그리고 투명성에 대한 헌신은 단순히 출력 품질을 따라 한다고 흡수되지 않는다. 행동 결과는 증류되지만 설계 원칙은 증류되지 않는다.

비드래프트가 PharmaOS와 NationalOS처럼 특정 도메인에 깊이 특화된 플랫폼을 개발하는 방향을 취하는 것도 이 맥락에서 읽힌다. 범용 모델의 출력을 증류하는 것보다, 특정 도메인의 구조적 지식과 파이프라인을 통합한 시스템을 복제하는 것은 훨씬 어렵다. 기술이 아니라 문제 해결 구조로 승부하는 것이다.

물론 이것도 완전한 답은 아니다. AI 업계에서 완전한 방어란 존재하지 않는다. 그러나 암시장이 10%의 가격으로 팔 수 없는 것을 만드는 것, 그것이 지금 시대의 가장 현실적인 생존 전략일지 모른다.

중국 암시장이 Claude를 10%에 팔고 있다.

그리고 앤트로픽이 진짜 두려워하는 것은, 그 10%가 단지 시작이라는 사실이다. 가장 비싸게 만들어진 것이 가장 빠르게 복제되는 시대 — 그 구조적 아이러니치고는, 꽤 불편한 이야기다.

더 많은 AI 인사이트는 비드래프트에서 확인하세요.

자주 묻는 질문

Q. 모델 증류는 불법인가요?
A. 증류 기술 자체는 합법적인 AI 연구 방법론이다. 그러나 앤트로픽의 이용약관은 Claude의 출력을 경쟁 AI 모델 훈련에 사용하는 것을 명시적으로 금지하고 있다. 따라서 Claude를 무단으로 증류해 상업적으로 유통하는 것은 약관 위반이자 지식재산권 침해에 해당할 수 있으며, 특히 이를 암시장에서 판매하는 행위는 추가적인 법적 문제를 수반한다.

Q. 암시장에서 구입한 Claude 모방 모델의 성능은 실제로 믿을 수 있나요?
A. 증류를 통해 만들어진 모델은 특정 태스크에서는 원본과 유사한 성능을 보일 수 있지만, 전반적인 신뢰성과 안전성은 검증되지 않는다. 특히 앤트로픽이 Claude에 내재화한 안전성 설계와 행동 제약은 증류 과정에서 의도적으로 제거되거나 왜곡될 가능성이 높다. 성능 수치보다 훨씬 더 큰 리스크가 숨어 있다.

Q. 앤트로픽의 방어 기술은 왜 완전히 막지 못하나요?
A. 워터마크와 패턴 탐지 모두 공격자가 충분한 리소스와 창의성을 갖추면 우회 가능하다는 근본적인 한계가 있다. 보안 연구에서 오래된 원칙인 "방어자는 모든 구멍을 막아야 하지만 공격자는 하나의 구멍만 찾으면 된다"는 비대칭성이 여기서도 적용된다. 현재로서는 완벽한 기술적 해결책보다 법적·제도적 대응과 기술적 방어를 병행하는 것이 현실적이다.

Q. 이 문제가 한국 AI 기업에도 영향을 미치나요?
A. 영향을 미친다. 한국 AI 기업이 세계적 수준의 모델을 개발할수록 증류의 대상이 될 가능성도 높아진다. 그러나 역으로, 범용 출력 품질보다 특정 도메인 파이프라인과 구조적 지식 통합에 집중한 플랫폼은 단순 증류로 복제하기 어렵다는 장점을 갖는다. 증류 위협은 전략 선택의 문제이기도 하다.