AI OpenFree

Posted on Jul 3

K-AI 리더보드에서 소버린 AI는 왜 부진한 것일까?

한국 AI에서 조용하지만 중요한 사건이 벌어지고 있다.

비드래프트의 '다윈 플랫폼'으로 만든 JGOS 모델이 K-AI 리더보드에서 1위와 3위를 기록하고 있다. 더 흥미로운 것은 그다음이다.

다윈 플랫폼으로 만들어져 허깅페이스에 공개된 여러 모델들의 파생 모델들이 현재 K-AI 리더보드 2위, 4위, 6위, 10위, 11위, 12위, 13위, 18위, 20위에 올라 있다.

즉 K-AI 리더보드 20위권 안에 다윈 플랫폼으로 생성된 모델과 그 파생 모델이 11개나 들어가 있는 셈이다.

이건 단순히 "한 모델이 잘했다"는 이야기가 아니다.

하나의 모델이 아니라, 하나의 모델 생성 플랫폼이 성과를 내고 있다는 뜻이다. 모델 하나의 우연한 성공이 아니라, 모델을 반복적으로 만들고, 변형하고, 파생시키고, 성능을 재현할 수 있는 체계가 작동하고 있다는 신호다.

https://www.youtube.com/watch?v=ICRUj3ZqP2E

왜 K-AI 리더보드인가
K-AI 리더보드는 과학기술정보통신부와 NIA가 운영하는 한국어 AI 평가 리더보드다.

중요한 점은 평가가 블라인드 방식으로 진행된다는 것이다.

모델 개발자가 정답을 미리 알 수 없고, 공개된 데이터에 맞춰 점수를 끌어올리는 방식의 과적합이 구조적으로 차단되어 있다. 이 점은 모델 개발사가 직접 게시하는 자체 보고 점수와 근본적으로 다르다. 자체 보고 점수는 평가 환경과 프로토콜을 개발사가 직접 설계하기 때문에 결과를 그대로 신뢰하기 어렵다. 반면 K-AI는 정부가 운영하는 제3자 기관이 독립적으로 평가를 수행한다.

특히 한국어 추론 능력, 이해력, 지시 수행 능력 등 한국어 AI의 실전 역량을 종합적으로 평가한다는 점에서 국내 AI 모델의 현재 위치를 가늠하는 중요한 기준이 된다.

그런 리더보드의 20위권 안에 특정 플랫폼에서 만들어진 모델과 파생 모델이 11개 들어갔다는 것은 가볍게 볼 일이 아니다. 한 번 잘한 모델이 아니라, 잘하는 모델을 계속 만들어내는 구조가 있다는 뜻이기 때문이다.

다운로드가 증명하는 시장 신뢰
리더보드 성과뿐 아니라 시장 반응도 주목할 만하다.

다윈 패밀리 모델들의 허깅페이스 누적 다운로드는 현재 100만 회에 근접한다. 한국어 특화 오픈 모델이 이 규모의 다운로드를 기록한 사례는 드물다. 연구자, 기업 개발자, 스타트업 등 실제 사용자들이 모델을 내려받아 쓰고 있다는 뜻이다.

다운로드는 선언이 아니라 행동이다. 벤치마크 점수가 아무리 높아도 실제로 쓰지 않으면 다운로드가 쌓이지 않는다. 이 숫자는 한국어 AI 커뮤니티가 다윈 패밀리를 실용적 도구로 받아들이고 있다는 시장 신호다.

다윈 플랫폼의 차별적 기술력
다윈 플랫폼이 단순한 모델 하나가 아닌 이유는 그 내부에 구조적으로 차별화된 기술 파이프라인이 작동하기 때문이다.

첫째, 신뢰 가중 진화 병합(Trust-weighted Evolutionary Merging). 다윈 플랫폼의 핵심은 여러 고성능 모델의 강점 영역을 정밀하게 분석하고, 각 레이어·파라미터 블록별로 신뢰 가중치를 적용해 최적의 조합을 도출하는 방식이다. 단순히 모델을 더하는 것이 아니라, 어느 영역의 어느 가중치를 얼마나 신뢰할 것인지를 자동화된 평가 루프로 결정한다. 이 과정의 구체적 알고리즘과 가중치 스케줄은 영업기밀로 보호된다.

둘째, 반복 가능한 진화 루프. 모델을 만들고 → 블라인드 평가로 성능을 측정하고 → 약점을 진단하고 → 재병합·재학습으로 개선하는 사이클이 체계화되어 있다. 사람의 직관에 의존하지 않고 이 사이클을 반복 실행할 수 있다는 것이 다윈 플랫폼의 본질적 강점이다. K-AI 리더보드 20위권에 11개 모델이 오를 수 있었던 것은 이 루프가 실제로 작동하기 때문이다.

셋째, 추론 효율 최적화 모듈. 다윈 패밀리에는 모델 크기 대비 추론 성능을 극대화하는 경량 보조 모듈이 적용된다. 대형 모델의 성능을 소형 모델에 이식하면서도 추론 비용을 최소화하는 설계다. 이를 통해 서비스 환경에서도 실용적으로 배포할 수 있는 모델을 생산한다.

넷째, 한국어 특화 평가 체계. 범용 벤치마크가 아니라 한국어 추론·이해·지시 수행에 특화된 내부 평가 기준을 별도로 운영한다. 이 평가 기준이 K-AI 리더보드의 블라인드 평가와 높은 상관관계를 보인다는 사실 자체가, 다윈 플랫폼의 평가 설계가 실전 성능과 연결되어 있음을 보여준다.

이 기술들은 현재 특허 출원 11건을 통해 기술 선점을 확보하고 있다. 모델 병합 방법론, 진화적 가중치 선택 알고리즘, 추론 최적화 구조 등 핵심 기술에 대한 지식재산권이 출원되어 있다. 특허 출원은 기술의 신규성과 진보성에 대한 권리 주장이다. 비드래프트는 다윈 플랫폼의 핵심 방법론 11건을 출원함으로써 이 기술들이 단순 조합이 아닌 독창적 발명임을 공식화했다.

평가절하에 대하여
다윈 플랫폼이 주목받기 시작하면서, 기술을 깊이 들여다보지 않은 채 평가절하하는 목소리도 간간히 나온다.

"공개 모델 위에 올린 것 아니냐." "다운로드가 적지 않냐." "벤치마크 점수를 신뢰할 수 있냐."

솔직히 말하면, 이해할 수 있는 반응이다.

모델 병합이라는 개념 자체가 아직 낯선 분야이고, 결과물이 아닌 파이프라인의 가치를 읽어내려면 기술의 작동 방식을 어느 정도 알아야 한다. 처음 보면 겉모습만 보고 판단하기 쉽다. 이해도의 문제이지, 악의의 문제는 아닐 것이다.

다만 K-AI 리더보드 20위권에 11개 모델이 올라가 있다는 사실은 반박하기 어렵다. 정부가 운영하는 블라인드 평가다. 개발사가 점수를 직접 만들어낼 수 없는 구조다. 누적 다운로드 100만 회는 시장이 직접 낸 답이다. 특허 출원 11건은 기술의 독창성에 대한 공식 기록이다.

플랫폼이 실제로 작동하지 않는다면 이 결과들은 나올 수 없다.

평가절하가 이해도의 문제라면, 시간이 지나면서 자연히 해소된다. 다윈 플랫폼이 해야 할 일은 그 자리에서 계속 성과를 내는 것이다. 설명보다 결과가 빠르다.

'조합 기술'에 대한 오해
좀 더 기술적인 맥락에서 짚어두자.

Android는 Linux 커널 위에 구축됐다. 그러나 그것이 Android를 단순한 Linux 복사본으로 만들지 않는다. 어떤 아키텍처를 뼈대로 삼느냐는 핵심 질문이 아니다. 그 위에서 무엇을 어떻게 조합하고 최적화했는지가 진짜 기술이다.

공개 베이스 모델을 어떻게 선별하고, 어떤 가중치 전략으로 병합하고, 어떤 데이터와 평가 루프를 통해 한국어 성능을 끌어올리느냐 — 이것이 소버린 AI의 실질적 역량이다. 모든 것을 처음부터 직접 만드는 것이 소버린 AI의 조건이라면, 세계 어느 나라도 소버린 AI를 가질 수 없다.

다윈 플랫폼의 핵심 방법론이 특허 출원 11건으로 기록되어 있다는 사실, 그리고 K-AI 블라인드 평가에서 11개 모델이 20위권에 진입했다는 사실이 이 논점에 대한 가장 명확한 답이다.

소버린 AI의 현실적 방향
요즘 소버린 AI라는 말이 많이 나온다.

자국 언어와 문화, 산업 데이터를 이해하는 AI를 직접 가져야 한다는 주장이다. 방향은 맞다. 하지만 소버린 AI를 단순히 "한국형 파운데이션 모델 하나 만들기"로만 보면 위험하다.

파운데이션 모델 하나를 거대하게 만드는 데에는 막대한 비용이 든다. 글로벌 빅테크와 정면으로 모델 크기 경쟁을 하는 것은 쉽지 않다.

오히려 실질적인 경쟁력은 다른 곳에서 나올 수 있다.

좋은 모델을 빠르게 만들 수 있는 플랫폼. 공개 모델을 한국어와 특정 목적에 맞게 재구성하는 기술. 파생 모델을 대량으로 만들고 평가하는 체계. 성능 좋은 모델을 저렴하게 서빙하는 추론 인프라.

이런 것들이야말로 현실적인 소버린 AI의 기반이 될 수 있다.

그런 관점에서 다윈 플랫폼의 성과는 꽤 중요하다. 단순히 "우리가 만든 모델이 1등을 했다"가 아니라, "우리가 만든 플랫폼에서 나온 모델 생태계가 상위권을 점유했다"는 이야기이기 때문이다.

모델보다 중요한 것은 모델을 만드는 능력
AI 경쟁의 초점은 조금씩 바뀌고 있다.

처음에는 누가 더 큰 모델을 만들었는지가 중요했다. 그다음에는 누가 더 높은 벤치마크 점수를 받았는지가 중요했다. 이제는 더 근본적인 질문이 필요하다.

누가 좋은 모델을 반복적으로 만들어낼 수 있는가.

누가 파생 모델 생태계를 만들 수 있는가.

누가 평가, 개선, 배포까지 연결된 플랫폼을 가지고 있는가.

다윈 플랫폼이 K-AI 리더보드 20위권에 11개 모델을 올렸다는 사실은 바로 이 질문에 대한 하나의 답이다.

모델 하나가 아니라 모델 생산 체계. 단발성 성과가 아니라 반복 가능한 성과. 개별 연구가 아니라 플랫폼 경쟁력. 그리고 그 경쟁력을 뒷받침하는 특허 출원 11건.

이 지점이 중요하다.

한국 AI가 가야 할 길
국내 AI 시장은 그동안 하드웨어 확보, GPU 인프라, 대형 모델 구축에 많은 관심을 쏟아왔다.

물론 인프라는 중요하다. 하지만 AI의 진짜 경쟁력은 하드웨어만으로 나오지 않는다.

모델을 만드는 소프트웨어. 모델을 평가하는 체계. 모델을 개선하는 플랫폼. 모델을 빠르게 서빙하는 추론 엔진.

이 네 가지가 함께 있어야 한다.

다윈 플랫폼은 그중 "모델을 반복적으로 생성하고 개선하는 능력"을 보여주는 사례다. 그리고 이 성과가 K-AI 리더보드라는 공정한 블라인드 평가 무대에서 드러났다는 점에서 더 의미가 있다.

한국 AI에 필요한 것은 단 하나의 거대한 모델이 아닐 수 있다. 오히려 필요한 것은 좋은 모델을 계속 만들어내는 플랫폼이다.

20위권 안에 11개. 누적 다운로드 100만 회. 특허 출원 11건.

숫자는 단순하다. 하지만 그 의미는 작지 않다.

비드래프트가 만든 것은 모델 하나가 아니라, 한국어 AI 모델을 진화시키는 시스템이다.

K-AI 리더보드 링크: https://leaderboard.aihub.or.kr/leaderboard

DEV Community

K-AI 리더보드에서 소버린 AI는 왜 부진한 것일까?

Top comments (0)