김이더

Posted on Apr 24

GPT-5.5가 공개됐다, 숫자로 뜯어보면

#ai #openai #gpt

더 많은 글은 radarlog.kr에서.

어제(2026/4/23) OpenAI가 GPT-5.5를 공개했다. 코드네임 "Spud".

놀라운 건 모델 자체가 아니다. GPT-5.4가 나온 게 6주 전이다.

OpenAI 수석과학자 Jakub Pachocki는 브리핑에서 "지난 2년이 오히려 느렸다"고 말했다. 이 한 문장이 이 릴리스의 진짜 맥락이다.

6주, 그리고 "Spud"

GPT-5.4는 6주 전에 나왔다. 그 전 릴리스는 12월, 그 전은 11월.

모델이 분기 단위 이벤트였던 시대는 지나갔다. 지금은 주 단위, 길어야 한 달 단위 이벤트다.

이 속도가 가능한 이유는 단순하다. AI가 AI 개발을 가속하고 있다. OpenAI 발표에 따르면 Codex 주간 사용자가 4백만, ChatGPT 유료 업무 사용자가 9백만이다. 이 규모의 실사용 피드백이 바로 다음 학습 사이클로 돌아간다.

Pachocki의 발언을 다시 보자.

"지난 2년이 오히려 느렸다."

이건 지금이 느리다는 말이 아니다. 앞으로는 더 빨라질 거라는 선언이다. GPT-5.5도 6주 만에 나왔는데, 이것조차 느렸다는 말이다.

Greg Brockman은 같은 브리핑에서 "새로운 종류의 지능이고, 에이전틱하고 직관적인 컴퓨팅으로 가는 큰 한 걸음"이라고 표현했다. 마케팅 수사를 걷어내면 남는 건 하나다. 모델 교체 주기가 제품 기획 주기보다 짧아지고 있다.

벤치마크 숫자, 있는 그대로

수치부터 정리해보자.

Terminal-Bench 2.0 — 복잡한 커맨드라인 워크플로우(계획 → 도구 사용 → 반복) 평가:

GPT-5.5         82.7%
GPT-5.4         75.1%
Claude Opus 4.7 69.4%
Gemini 3.1 Pro  68.5%

OSWorld-Verified — 모델이 컴퓨터를 독립적으로 조작하는 능력 평가:

GPT-5.5         78.7%
Claude Opus 4.7 78.0%
GPT-5.4         75.0%

SWE-Bench Pro — 실제 GitHub 이슈를 단일 시도로 해결:

GPT-5.5   58.6%

Terminal-Bench에서 Opus 4.7 대비 +13.3%p 차이. 큰 점프다. 그런데 OSWorld에서는 Opus 4.7과 0.7%p 차이. 어떤 축에서는 크게 앞서고, 어떤 축에서는 턱걸이다.

"압도"가 아니라 "리드"다. 그리고 벤치마크 하나로 모델을 줄 세우는 시대는 이미 지났다. 컴퓨터 조작 능력은 Anthropic이 꾸준히 투자해온 영역이고, 그 격차를 OpenAI가 이번에 이번에 거의 따라붙었다 — 정도의 해석이 오히려 더 정확하다.

그리고 벤치마크는 마케팅 자료다. OpenAI가 자기에게 유리한 지표를 골라서 내놓는다. 실제 워크플로우에서 체감은 각자 검증해야 한다.

1M 컨텍스트와 이상한 토큰 경제

API 가격표가 재밌다.

GPT-5.5        $5 / $30   per 1M tokens (input / output)
GPT-5.5 Pro    $30 / $180 per 1M tokens (input / output)
Context window 1M
Batch / Flex   정가의 절반
Priority       정가의 2.5배

GPT-5.4보다 비싸다. 그런데 OpenAI는 "같은 일을 더 적은 토큰으로 끝낸다"고 주장한다. 실제 자사 블로그에는 "GPT-5.5가 실제 서빙에서 GPT-5.4와 같은 토큰당 지연시간을 유지한다"는 문장이 있다.

무슨 말이냐. 단가는 올랐지만 토큰 소비량이 줄어서 결과적으로 청구서가 비슷하거나 더 낮을 수 있다는 주장이다. 실제 지갑에 뭐가 찍힐지는 워크로드마다 다르다. 추론이 긴 에이전트 태스크에서는 유리할 수 있고, 짧은 단답형 콜이 많은 앱에서는 그냥 비싸질 수도 있다.

그리고 1M 컨텍스트. Anthropic이 먼저 간 구간을 OpenAI도 따라왔다. 긴 문서 분석, 큰 레포지토리 이해, 롱런 에이전트 세션 — 1M이 의미 있는 워크로드는 분명히 존재한다.

주목할 건 GPT-5.5 Pro 가격이다. 입력 $30, 출력 $180. 이건 일반 개발자용이 아니다. 명백히 엔터프라이즈 워크로드를 위한 가격이다. 에이전트가 하루 종일 돌아가는 케이스, 복잡한 연구 워크플로우 — 이런 데만 의미 있는 티어다.

Mythos, code red, 그리고 경쟁의 얼굴

Axios 리포트에서 가장 시사적인 한 문장은 이거다.

OpenAI 내부에서 Anthropic의 부상이 "code red" 수준으로 인식됐고, 이게 엔터프라이즈 고객 전략을 선회시킨 계기라는 보도.

GPT-5.5 브리핑에서 OpenAI는 Anthropic의 Mythos를 명시적으로 언급했다. Mythos는 Anthropic이 이달 초 발표한 최신 모델인데, 사이버보안 역량 때문에 출시 범위가 제한된 상태다. OpenAI가 이걸 언급하는 이유는 분명하다. "우리도 Mythos급 사이버 역량이 있다"는 신호를 보내는 거다.

지금 프론티어 모델 경쟁은 기술 대 기술이 아니다. 엔터프라이즈 예산 대 엔터프라이즈 예산이다. Fortune에 실린 Bank of New York CIO 코멘트를 보면 감이 온다. 그 은행은 Anthropic과 OpenAI를 병행 테스트하고 있고, 220+ AI 유스케이스를 돌리고 있다. 이런 고객이 실제 판을 흔든다.

6주마다 모델이 나오는 진짜 이유도 여기에 있다. 기술적으로 필요해서가 아니라, 상대가 6주마다 낼 수 있으니까. 한쪽이 멈추는 순간 엔터프라이즈 계약이 이동한다.

재밌는 건 이 경쟁 구도 자체가 사용자에게는 호재라는 점이다. 6주마다 더 좋은 모델이 나오고, 가격 압력도 같이 들어온다. 프론티어 랩이 여러 개 있다는 사실만으로도 판이 건강해진다.

숫자 뒤에 남는 질문

그래서 뭘 해야 하나.

모델 하나에 스택을 맞추는 건 점점 손해 보는 선택이다. 6주 뒤에 더 좋은 모델이 나올 확률이 매우 높기 때문이다. OpenAI가 낼 수도, Anthropic이 낼 수도, Google이 낼 수도 있다. 누가 낼지 미리 알 수 없다.

투자 포인트는 그 위 계층이다. 하네스, 멀티 에이전트 오케스트레이션, 툴 체인, 평가 파이프라인, 컨텍스트 엔지니어링. 이 계층은 모델이 바뀌어도 유지된다. 오히려 모델이 좋아질수록 이 계층이 더 잘 돌아간다.

GPT-5.5 같은 릴리스는 이제 뉴스라기보다 환경이다. 주기적으로 업데이트되는 인프라. 그걸 전제로 워크플로우를 짜는 게 2026년의 현실적인 접근이다.

벤치마크 1~2%p에 감정적으로 흔들리지 않는 쪽이 길게 간다. Terminal-Bench 82.7%가 몇 달 뒤에 85%로 바뀌어도, 워크플로우 설계는 대부분 그대로 쓸 수 있다.

"모델은 교체된다. 워크플로우는 축적된다."

Top comments (1)

PEACEBINFLOW • Apr 24

"모델은 교체된다. 워크플로우는 축적된다." 이 문장이 포스트 전체의 엔진이네요. 모델이 6주마다 갈리는 세상에서, 특정 모델의 벤치마크 숫자에 집중하는 건 지나가는 기차의 객차 번호를 외우는 것과 비슷한 느낌이에요. 중요한 건 기차가 어느 방향으로 가고 있느냐이고, 그 방향은 꽤 명확해 보입니다.

Pachocki의 "지난 2년이 오히려 느렸다"는 발언이 기술적인 자신감 이상으로 읽히는 게, 이건 단순한 속도 예고가 아니라 경쟁의 기준 자체를 바꾸는 발언이라는 거죠. 앞으로 "빠르다"의 정의가 달라질 거예요. 6주도 느리다고 평가되는 세상이 오면, 모델 출시 주기는 더 이상 뉴스가 아니라 그냥 날씨 같은 게 될 테고, 우리는 그 날씨에 맞춰 옷을 입는 법을 익혀야 하는 셈이에요.

근데 한 가지 드는 생각은, 모델 교체 주기가 이렇게 짧아지면 결국 "이 모델을 쓸까 말까" 고민하는 시간 자체가 낭비가 된다는 거예요. 고르는 행위보다 갈아끼우는 파이프라인을 잘 만들어두는 게 훨씬 더 중요한 자산이 되겠죠. 그래서 요즘은 모델 선택보다 모델 교체 비용이 더 중요한 메트릭이라고 봐요. 내 워크플로우에서 Claude를 GPT로 바꾸는 데 드는 공수가 얼마나 되는지, 그게 사실상 내 스택의 유연성을 결정하는 거니까.

그런 의미에서 OSWorld처럼 Anthropic이 강세였던 영역에서 OpenAI가 거의 따라붙었다는 지점이 흥미로운 게, 격차가 0.7%p까지 좁혀졌다는 건 앞으로 특정 도메인에서 "이 모델만 쓸 수 있는 일"의 범위가 점점 줄어든다는 뜻이기도 하거든요. 차별점이 사라지면 결국 가격과 생태계로 붙는 싸움이 될 텐데, 그 싸움은 개발자한테 유리한 쪽으로 흐를 가능성이 높죠. 툴체인과 워크플로우에 투자하라는 조언이 더 와닿는 이유입니다. 이 속도가 2027년까지 유지된다고 보시나요, 아니면 어디선가 한 번 숨 고르기가 올 거라고 보시나요?