한국이 '과학 추론 AI 평가'(GPQA) 세계 1위 달성하다.

2026년 6월 15일. 우리가 만든 모델 'Darwin-398B-JGOS'가 박사급 과학추론 시험에서 세계 1위에 올랐다. 글로벌 AI 벤치마크 GPQA Diamond에서 90.9%. 허깅페이스 공인 리더보드 기준, 전 세계 공개 모델 가운데 가장 높은 점수였다.

숫자만 보면 그저 한 줄이다. 그런데 이 한 줄에 이르기까지 우리가 걸어온 길은 조금 달랐다. 그 이야기를 해보려 한다.

박사도 평균 65점을 받는 시험

GPQA Diamond는 생물학·물리학·화학의 가장 깊은 곳을 묻는다. 검색으로도, 암기로도 풀리지 않는다. 해당 분야 박사급 전문가조차 평균 65점 안팎에 머무는, 말 그대로 '구글링 불가' 난이도다. 198문항 중 우리 모델은 180문항을 맞혔다.

사실 우리가 가장 자랑스러운 건 점수 그 자체가 아니라 그 점수를 어떻게 받았는가다. 많은 모델이 점수를 끌어올리려 같은 문제를 여러 번 풀어 다수결로 답을 고르거나(self-consistency), 추론 단계에서 연산을 잔뜩 보강한다. 우리는 그런 기법을 하나도 쓰지 않았다. 단 한 번, 단일 그리디(greedy) 디코딩. temperature 0, 단일 샘플, 최대 16,384 토큰 — 측정 조건을 모델카드에 그대로 열어뒀다. 화장하지 않은 맨 얼굴의 추론력을, 누구든 다시 재현해볼 수 있도록.

모델에게도 부모가 있다

이 모델은 우리의 진화형 모델 개발 플랫폼이자 보유 특허인 'Darwin V9'으로 태어났다. 전체 약 400B 파라미터의 거대한 MoE(Mixture-of-Experts) 구조이면서도, 실제 추론할 때는 토큰당 17B 정도만 깨어나 일한다. 덩치는 크되, 쓰는 힘은 가볍게.

Darwin의 철학은 단순하다. 처음부터 다시 가르치지 않는다. 대신 이미 잘 배운 여러 모델 안에 잠들어 있는 특정 능력을 정밀하게 찾아내 새로 조합한다. 마치 부모의 형질을 물려받듯이.

이번엔 Qwen 3.5 397B급 대형 모델을 '모친 개념 배양지 모델'로 삼았다. 그 위에 추론·코딩·언어에 각각 특화된 여러 '부친 개념 모델'을 데려와, 각 부친의 FFN(Feed Forward Network) 영역 — 신경망이 실제로 '생각'을 담아두는 곳 — 을 계층 단위로 분석했다. 그리고 목표한 능력에 기여하는 구간만 정확히 골라 모친 모델에 이식했다. 어느 모델의 어느 신경망 자락에 어떤 재능이 들어 있는지를 찾아, 필요한 것만 옮겨 심는 것이다.

이 방식은 자원이 넉넉하지 않은 우리 같은 작은 회사에 특히 큰 의미가 있다. 수천억을 들여 모델을 처음부터 재학습하지 않고도, 검증된 모델들의 강점만 골라 목적별 고성능 모델을 빠르게 빚어낼 수 있으니까.

그릇 자체를 새로 빚는 일 — AETHER

하지만 우리는 '잘 만든 것을 조합하는' 데서 멈추고 싶지 않았다. 그래서 완전히 다른 길도 함께 걷는다. 트랜스포머의 구조적 한계 자체를 넘기 위해 처음부터(from-scratch) 설계하는 파운데이션 모델 'AETHER'다.

AETHER의 심장은 '이종(異種) 어텐션'이다. 지금의 트랜스포머가 한 가지 어텐션 방식에 기대고 있다면, AETHER는 성질이 전혀 다른 어텐션 메커니즘을 5종·7종·11종 규모로 신경망 계층에 라틴 방진(Latin-square) 형태로 직교 배치한다. 멀리 보는 능력, 가까이 보는 능력, 길게 이어 읽는 능력을 한 모델 안에 구조적으로 엮는 것이다. "어텐션만으로 충분하다"던 트랜스포머의 오랜 전제를 넘어서는, '비(非)트랜스포머 이후(beyond-Transformer)'의 시도다.

Darwin이 이미 존재하는 지능을 재조합하는 일이라면, AETHER는 그 지능이 담길 그릇 자체를 새로 빚는 일이다. 우리는 5종 이상의 이종 어텐션 아키텍처를 세계 최초로 구현했고, 관련 특허 8건을 보유하고 있다. AETHER는 우리가 그리는 Pre-AGI 아키텍처의 핵심 축이다.

우리 손을 떠나, 세계로

만든 모델이 우리 안에만 머물렀다면 이 글을 쓰지 않았을 것이다. Darwin 계열은 이미 허깅페이스 생태계 곳곳으로 퍼져나갔다. 우리 자체 집계로 2026년 6월 현재 Darwin 기반·파생 모델은 700종을 넘었고, 누적 다운로드는 100만 회에 육박한다. GGUF로, 양자화 모델로, 경량화·추론 특화 버전으로 — 세계의 개발자들이 우리 모델을 가져다 다시 만들고, 다시 해석한다. 한국의 작은 스타트업이 내놓은 모델이 글로벌 커뮤니티에서 반복적으로 채택되고 재생산되고 있다는 사실이, 솔직히 매일 신기하다.

성과는 영어권 시험에만 있지 않다. Darwin 기반 한국어 거대언어모델 'JGOS-31B-Citizen'은 과학기술정보통신부와 한국지능정보사회진흥원(NIA)의 K-AI 리더보드에서 종합 1위에 올랐다. 상위 12개 모델 중 8개가 Darwin 계보다. 한 번의 운이 아니라 좋은 모델을 반복해서 만들어내는 플랫폼이라는 걸, 우리는 이렇게 증명해 왔다. 이 모든 여정은 서울AI허브라는 울타리, 그리고 정부 첨단GPU 지원 과제와 NIPA 'AI컴퓨팅활용' 과제가 내어준 연산 인프라 위에서 가능했다.

왜 하필 '과학추론'인가

AI 경쟁은 이제 매끄러운 챗봇 대답을 넘어섰다. 과학·수학·코딩·의학·법률 같은 고난도 전문 영역의 '추론'으로 무게중심이 옮겨가고 있다. 그중에서도 과학추론은 특별하다. 다음 세대의 AI가 연구를 돕고, 신약을 설계하고, 새로운 소재를 찾고, 공학적 난제를 푸는 — 실제 현장으로 들어가기 위해 반드시 통과해야 할 관문이기 때문이다.

그래서 이번 1위는 우리에게 목적지가 아니라 출발선이다. 우리는 Darwin V9과 AETHER를 신약·소재·코딩·행정·산업별 전문 AI로 넓혀갈 것이다.

화려한 점수 보정 없이, 가장 정직한 단일 추론만으로 정상에 설 수 있다는 것. 그게 우리가 증명하고 싶었던 전부다. 비드래프트는 그저 점수 높은 모델을 만드는 회사가 아니라, 실제 산업과 연구 현장에서 쓰이는 '문제 해결형 AI' 기술기업으로 자라고 싶다.

비드래프트는 서울AI허브 입주 AI 스타트업으로, 진화형 모델 플랫폼 Darwin과 프롬 스크래치 독자 아키텍처 AETHER를 기반으로 과학추론 모델, 한국어 특화 LLM, 산업별 전문 AI, 신약 개발 AI, 공공 서비스형 AI를 만들고 있다. 공개 리더보드와 글로벌 오픈소스 생태계에서 검증된 기술력으로, 실증형 AI 서비스를 계속 넓혀갈 생각이다.

모델 보러 가기 — https://huggingface.co/FINAL-Bench/Darwin-398B-JGOS

GPQA Diamond 리더보드 — https://huggingface.co/datasets/Idavidrein/gpqa

DEV Community

한국이 '과학 추론 AI 평가'(GPQA) 세계 1위 달성하다.

Top comments (0)