DEV Community

Cover image for GPU를 만들 수 없는 한국, 그래서 GPU 위의 모델을 추론 가속하여 20배 이상 빨라졌다.
AI OpenFree
AI OpenFree

Posted on

GPU를 만들 수 없는 한국, 그래서 GPU 위의 모델을 추론 가속하여 20배 이상 빨라졌다.

AI 이야기에서 사람들은 늘 두 가지만 말합니다. 모델이 얼마나 똑똑한가, 그리고 GPU를 몇 장이나 확보했는가. 엔비디아 주가가 그래서 오르고, 나라마다 GPU를 사재기합니다.

그런데 정작 업계가 조용히 앓는 병목은 다른 곳에 있습니다.

"확보한 GPU를, 얼마나 알뜰하게 쓰고 있는가."

AI는 누군가 질문할 때마다 GPU가 돕니다. 답변 한 줄이 곧 전기이고 서버비입니다. 사용자가 늘수록 이 '돌리는 비용'이 눈덩이처럼 불어납니다. 그래서 지금 AI 인프라의 진짜 승부처는 모델을 만드는 순간이 아니라, 그 모델을 계속 돌리는 순간, 즉 '추론(inference)'입니다.

여기서 등장하는 개념이 추론 가속(inference acceleration)입니다. 비드래프트가 공개한 VKAE (VIDRAFT Kernel Acceleration Engine) 는 그 한 사례이고, 이 글은 특정 제품 홍보가 아니라 이 기술이 대체 어떤 가치를 갖는지를 짚어보려 합니다.

GPU를 만드는 게 아니라, GPU를 '늘리는' 기술
이 기술을 이해하는 가장 좋은 비유는 이겁니다.

추론 가속은 GPU를 제조하지 않습니다. 대신, 이미 가진 GPU에서 성능을 몇 배로 끌어올려 마치 '가상의 GPU'를 한 대 더 꽂은 것과 같은 효과를 냅니다.

엔비디아가 물리적인 칩을 깎아 성능을 올린다면, 추론 가속은 소프트웨어(커널 레벨 최적화)로 같은 칩에서 더 많은 일을 뽑아냅니다. 같은 장비, 같은 전기, 같은 조건인데 처리량이 몇 배가 됩니다.

VKAE(VIDRAFT Kernel Acceleration Engine) 의 경우, 같은 GPU에서 일반적인 방식 대비 최대 23.4배 높은 처리량을 기록했다고 공개됐습니다(엔비디아 B200 기준, 다중 요청 시 초당 1만 토큰 이상). 핵심은 속도를 올리면서도 답변 품질은 그대로 유지한다는 점입니다. 빠른데 대충 답하면 의미가 없으니까요.

숫자 자체보다 중요한 건 그 함의입니다. 23배 빨라진다는 건, 극단적으로 말하면 GPU 한 장으로 여러 장의 몫을 한다는 뜻입니다. GPU를 새로 사는 대신, 있는 GPU를 소프트웨어로 증설하는 셈입니다.

왜 이게 '필수재'인가, 시장의 관점
여기서 시장성이 나옵니다. 추론 가속이 흥미로운 이유는, 이게 선택이 아니라 필수이기 때문입니다.

모든 AI 데이터센터(AI IDC)는 추론 가속이 반드시 필요합니다. 이유는 단순합니다.

첫째, GPU는 비싸고, 부족하고, 전기를 먹습니다. H100·B200급 GPU는 물량 자체가 귀하고, 데이터센터 전력은 한계가 있습니다. 무한정 사서 늘리는 건 불가능합니다.

둘째, 그래서 '확보한 자원의 효율'이 곧 경쟁력이 됩니다. 같은 GPU로 두 배 처리하면, 인프라를 두 배 지은 것과 같습니다. 반대로 최적화가 없으면, 비싼 장비를 절반만 쓰고 버리는 셈입니다.

셋째, 추론 비용은 서비스가 성공할수록 커집니다. 모델 학습은 한 번이면 끝나지만, 추론은 사용자가 쓰는 내내 발생합니다. 그래서 AI 서비스의 손익은 결국 '토큰당 단가'에서 갈립니다. 추론 가속은 이 단가를 직접 낮춥니다.

정리하면, AI를 서비스로 운영하는 모든 주체, 즉 클라우드 사업자, AI 스타트업, 자체 모델을 돌리는 기업, 국가 단위 AI 인프라(소버린 AI)에게 추론 가속은 '있으면 좋은 것'이 아니라 '없으면 적자'인 기반 기술입니다. GPU 공급이 빠듯할수록, 전기값이 오를수록, 이 기술의 값어치는 올라갑니다.

이건 이미 글로벌 트렌드입니다. vLLM, TensorRT-LLM 같은 추론 최적화 프레임워크가 빠르게 표준이 된 것도 같은 이유고, 추론 전용 반도체(그록, 세레브라스 등)가 주목받는 것도 "추론을 싸게" 만들려는 같은 방향의 움직임입니다.

이 접근에서 특히 눈에 띄는 지점, '재현 가능성'
속도 자랑은 흔합니다. "우리가 제일 빠릅니다"라는 주장은 업계에 넘칩니다. 문제는 그 말을 검증할 방법이 대개 없다는 것입니다.

VKAE 사례에서 주목할 만한 건, 성능 수치와 함께 모델 가중치와 최적화된 서빙 환경을 하나로 묶은 통합 도커(Docker) 컨테이너를 공개해, 사용자가 자신의 GPU에서 직접 재현하도록 했다는 점입니다. 게다가 OpenAI 호환 방식이라 기존 서비스에 바로 연결됩니다.

이 '재현 가능성'은 추론 가속 분야에서 생각보다 중요합니다. 벤치마크 숫자는 조건에 따라 얼마든지 유리하게 만들 수 있어서, "내 손으로 돌려봤더니 진짜 나오더라"가 결국 신뢰의 기준이 되기 때문입니다. 다만 냉정하게 보면, 이런 주장은 어떤 기준선(baseline) 대비 몇 배인지, 품질 저하는 얼마인지가 함께 공개될 때 완성됩니다. 그 조건까지 투명하게 밝혀질수록 기술 커뮤니티의 신뢰는 커집니다.

큰 그림
AI 경쟁은 흔히 '모델의 지능' 대결로 그려집니다. 하지만 그 지능을 실제 세상에서 굴러가게 하는 건 인프라의 경제학입니다. 아무리 똑똑한 모델도 돌리는 비용이 감당 안 되면 서비스가 될 수 없습니다.

추론 가속은 바로 그 지점, "똑똑함"과 "돌릴 수 있음" 사이의 간극을 메우는 기술입니다. GPU를 새로 만드는 건 소수의 반도체 기업만 할 수 있지만, 있는 GPU를 더 잘 쓰게 만드는 일은 소프트웨어의 영역이고, 여기엔 아직 큰 여백이 남아 있습니다.

큰 자본으로 GPU를 더 많이 사서 이기는 건 자연스럽습니다. 하지만 같은 GPU를 더 잘 써서 같은 결과를 내는 것, 그건 조금 다른 종류의 경쟁력이고, GPU가 귀한 시대일수록 더 값진 기술입니다.

GPU를 만들지 않고도, GPU를 한 대 더 만드는 일. 추론 가속이 AI 인프라에서 조용히, 그러나 필수적으로 중요해지는 이유입니다.

직접 확인하기
VKAE 리더보드·데모(도커 컨테이너 포함): https://huggingface.co/spaces/VIDraft/vkae

도커허브 VKAE Repo 링크: https://hub.docker.com/r/vidraft/qwen35-vkae

허깅페이스 VKAE Repo 링크: https://huggingface.co/FINAL-Bench/Qwen3.5-35B-A3B-VKAE

공식 사이트: https://www.vidraft.net

Top comments (0)