AI OpenFree

Posted on Jul 1

397B급 거대 모델을 단일 GPU 노드에서 초당 121.9토큰으로.

응답 시작까지 0.033초.

그리고 이 성능을 직접 확인할 수 있는 VKAE 공개 Space까지.

비드래프트는 초거대 AI를 더 빠르고, 더 싸고, 더 안정적으로 운영하기 위한 추론 가속 엔진 VKAE를 공개했습니다.

VKAE Hugging Face Space
https://huggingface.co/spaces/VIDraft/vkae

VKAE가 적용된 실제 사례('치토스')

https://chitos.vidraft.net

AI 모델이 점점 커지고 있습니다.

수십억 개 파라미터를 넘어, 이제는 수천억 개 파라미터를 가진 초거대 모델들이 등장하고 있습니다.

모델이 커질수록 더 복잡한 문제를 풀고, 더 깊은 추론을 하고, 더 전문적인 답변을 만들어낼 수 있습니다.

하지만 대가도 분명합니다.

느립니다.

비쌉니다.

운영하기 어렵습니다.

좋은 모델을 만드는 것만으로는 부족한 시대가 됐습니다.

이제 중요한 질문은 이것입니다.

“그 거대한 모델을 얼마나 빠르고, 안정적으로, 저렴하게 서비스할 수 있는가?”

비드래프트는 바로 이 문제를 풀고 있는 AI 기술 기업입니다.

비드래프트는 Darwin, JGOS 등 대규모 언어모델 개발과 평가, 모델 병합, 과학추론 특화 모델 연구, 추론 최적화 기술을 함께 개발해 왔습니다.

단순히 모델을 만드는 데서 멈추지 않고, 그 모델을 실제 서비스에서 쓸 수 있도록 서빙 인프라와 가속 기술까지 직접 구축하고 있습니다.

그 결과물 중 하나가 바로 VKAE입니다.

VKAE는 VIDRAFT Kernel Acceleration Engine의 약자입니다.

비드래프트가 개발한 커널 레벨 추론 가속 엔진입니다.

핵심 목표는 단순합니다.

같은 모델을 더 빠르게.

같은 GPU로 더 많은 사용자를.

같은 품질을 더 낮은 원가로.

초거대 모델의 병목은 모델이 아니라 서빙이다

많은 사람들은 AI 성능을 이야기할 때 모델 크기나 벤치마크 점수를 먼저 봅니다.

몇 B 모델인가.

어떤 데이터로 학습했는가.

어떤 리더보드에서 몇 점을 받았는가.

물론 중요합니다.

하지만 실제 서비스를 운영하는 순간, 더 현실적인 문제가 등장합니다.

사용자가 질문했는데 답이 늦게 나오면 쓸 수 없습니다.

동시 사용자가 늘어날 때 서버가 버티지 못하면 확장할 수 없습니다.

GPU 비용이 너무 높으면 아무리 좋은 모델도 상용화하기 어렵습니다.

초거대 AI의 진짜 병목은 점점 모델 자체가 아니라, 그 모델을 굴리는 방식으로 이동하고 있습니다.

같은 모델이라도 어떤 서빙 엔진을 쓰느냐에 따라 속도와 비용은 크게 달라집니다.

GPU라는 비싼 자원을 얼마나 효율적으로 쓰느냐가 곧 AI 서비스의 경쟁력이 됩니다.

VKAE는 이 지점을 겨냥했습니다.

비유하자면, 매번 지시하지 않고 한 번 녹화한 뒤 재생한다

초거대 모델이 답변을 만들 때는 토큰을 하나씩 생성합니다.

토큰 하나를 만들 때마다 GPU 안에서는 수많은 연산이 실행됩니다.

기본적인 서빙 방식에서는 이 연산 흐름을 CPU가 계속 조율하고 지시합니다.

문제는 이 과정에서 낭비가 생긴다는 점입니다.

GPU는 빠릅니다.

하지만 GPU가 일하려면 누군가 계속 일을 배분하고 순서를 알려줘야 합니다.

그 지시 과정이 반복되면, GPU는 잠깐씩 기다리게 됩니다.

모델이 커질수록 이 낭비는 더 커집니다.

VKAE의 아이디어는 직관적입니다.

복잡한 연산 흐름을 매번 새로 지시하지 말고, 한 번 최적화된 형태로 잡아둔 뒤 반복 실행하자는 것입니다.

쉽게 말하면 이렇습니다.

매번 설명하지 않고, 한 번 녹화한 뒤 재생한다.

다만 말은 쉽지만, 실제 구현은 간단하지 않습니다.

초거대 모델, MoE 구조, 선형 어텐션 구조, FP8 경량화, 배치 처리, 동시 사용자 처리 환경에서 이 방식이 안정적으로 작동해야 하기 때문입니다.

VKAE는 이 복잡한 문제를 커널 레벨에서 해결하는 추론 가속 엔진입니다.

커널 내부 구현은 비드래프트의 핵심 영업기밀입니다.

다만 공개할 수 있는 것은 분명합니다.

VKAE는 모델의 답변 품질을 바꾸는 기술이 아닙니다.

같은 계산을 더 효율적으로 실행하게 만드는 기술입니다.

실측 결과: 397B급 모델, 초당 121.9토큰

이제 중요한 것은 숫자입니다.

비드래프트는 397B급 초거대 모델을 FP8 환경에서 B200 GPU 4장 단일 노드에 올려 직접 측정했습니다.

먼저 사용자 1명이 사용할 때의 결과입니다.

기본 서빙 방식은 초당 약 25토큰 수준이었습니다.

VKAE 적용 후에는 초당 121.9토큰을 기록했습니다.

약 4.9배 빨라진 것입니다.

응답 시작까지 걸리는 시간은 0.033초였습니다.

사용자가 체감하기에는 거의 즉시 반응하는 수준입니다.

초거대 모델은 보통 강하지만 느리다는 인식이 있습니다.

VKAE는 이 인식을 바꾸고자 합니다.

거대한 모델도 충분히 빠르게 응답할 수 있다는 것을 실측으로 확인한 것입니다.

동시 사용자 처리량: 최대 27배

진짜 차이는 동시 사용자를 늘렸을 때 나타납니다.

AI 서비스는 한 명에게 빠른 것도 중요하지만, 동시에 많은 사용자가 접속했을 때 전체 처리량을 유지하는 것이 더 중요합니다.

비드래프트의 실측 결과, 기본 서빙 방식은 동시 사용자 16명 기준 초당 334토큰 수준이었습니다.

VKAE 적용 후에는 동시 사용자 256명 기준 초당 8,932토큰을 기록했습니다.

약 27배의 처리량 향상입니다.

더 중요한 것은 동시 사용자 256명 환경에서도 각 사용자가 초당 35~48토큰 수준의 응답을 받을 수 있었다는 점입니다.

이 정도면 단순한 벤치마크용 숫자가 아니라, 실제 서비스 운영 관점에서 의미가 있습니다.

한 대의 서버가 감당할 수 있는 트래픽이 늘어나고, 같은 GPU로 더 많은 사용자를 처리할 수 있습니다.

처리량이 늘어난다는 것은 곧 토큰당 원가가 내려간다는 뜻입니다.

빠른데 싸다

보통 AI 인프라에서는 둘 중 하나를 선택해야 합니다.

빠르면 비쌉니다.

싸면 느립니다.

그러나 VKAE가 목표로 하는 지점은 다릅니다.

같은 GPU에서 더 많은 토큰을 뽑아내면, 속도는 빨라지고 토큰당 원가는 내려갑니다.

GPU를 더 많이 사서 해결하는 방식이 아니라, 이미 가진 GPU를 더 효율적으로 쓰는 방식입니다.

공개 지표 기준 글로벌 상위 제공사들의 397B급 모델 서빙 속도와 비교해도 VKAE의 실측 성능은 최상위권에 해당합니다.

특히 응답 시작 지연 시간은 0.033초로, 초거대 모델 서비스에서 매우 짧은 수준을 기록했습니다.

이것이 VKAE의 핵심입니다.

더 빠르게.

더 많이.

더 낮은 원가로.

품질은 그대로 유지한다

가속 기술에서 가장 중요한 질문은 이것입니다.

“빨라진 대신 답변 품질이 나빠진 것은 아닌가?”

VKAE는 모델을 새로 학습시키거나 답변 방식을 임의로 바꾸는 기술이 아닙니다.

모델의 계산 결과 자체를 바꾸는 것이 아니라, 연산을 실행하는 경로와 방식을 최적화하는 기술입니다.

따라서 목표는 명확합니다.

품질은 그대로 유지하고, 실행만 더 빠르게 만드는 것.

비드래프트는 FP8 경량화 환경에서도 한국어 벤치마크 점수가 사실상 무손실에 가깝게 유지되는 것을 확인했습니다.

즉 VKAE는 단순히 빠른 엔진이 아니라, 초거대 모델의 실사용성을 높이는 엔진입니다.

Hugging Face Space로 공개한 이유

비드래프트는 VKAE를 단순한 내부 기술로만 소개하지 않습니다.

VKAE 전용 Hugging Face Space를 통해 공개적으로 확인할 수 있는 형태로 제시했습니다.

VKAE Hugging Face Space
https://huggingface.co/spaces/VIDraft/vkae

이 공간은 VKAE의 성능과 개념을 외부에서도 확인할 수 있도록 만든 공개 창구입니다.

많은 AI 기술은 “빠르다”, “싸다”, “좋다”고 말합니다.

하지만 실제로 중요한 것은 측정 가능한 수치와 재현 가능한 환경입니다.

VKAE Space는 바로 그 지점을 보여주기 위한 공간입니다.

비드래프트가 말하는 것은 단순한 주장이나 슬로건이 아닙니다.

실측 수치.

공개 링크.

검증 가능한 데모.

이 세 가지를 통해 VKAE가 초거대 AI 서빙에서 어떤 의미를 갖는지 보여주고자 합니다.

소버린 AI에는 모델만 필요한 것이 아니다

최근 전 세계적으로 소버린 AI가 중요한 화두가 되고 있습니다.

자국 언어와 문화, 산업 데이터를 이해하는 AI 모델을 직접 만들고 운영해야 한다는 흐름입니다.

한국 역시 예외가 아닙니다.

그런데 소버린 AI를 말할 때 모델만 이야기해서는 부족합니다.

모델을 직접 만드는 것도 중요합니다.

하지만 그 모델을 안정적으로 운영하는 기술도 필요합니다.

비용을 낮추는 기술도 필요합니다.

사용자가 체감할 수 있는 속도를 만드는 기술도 필요합니다.

소버린 AI는 모델과 인프라가 함께 있어야 완성됩니다.

비드래프트가 VKAE를 개발한 이유도 여기에 있습니다.

한국어에 강한 모델, 과학추론에 강한 모델, 산업 특화 모델을 만들었다면, 그다음은 그것을 세계 최상위 수준의 효율로 굴릴 수 있어야 합니다.

모델을 만드는 회사에서, 모델을 가장 잘 굴리는 회사로.

비드래프트는 이 방향으로 가고 있습니다.

큰 모델을 만드는 시대에서, 큰 모델을 잘 굴리는 시대로

AI 경쟁은 이제 새로운 단계에 들어섰습니다.

누가 더 큰 모델을 만들었는가.

누가 더 높은 점수를 받았는가.

이 질문도 여전히 중요합니다.

하지만 실제 시장에서는 다른 질문이 더 중요해지고 있습니다.

누가 더 빠르게 서비스하는가.

누가 더 낮은 비용으로 운영하는가.

누가 더 많은 사용자를 안정적으로 감당하는가.

누가 모델부터 서빙 엔진까지 풀스택으로 장악하는가.

VKAE는 이 질문에 대한 비드래프트의 답입니다.

397B급 초거대 모델.

B200 GPU 4장 단일 노드.

초당 121.9토큰.

응답 시작 0.033초.

동시 사용자 256명 기준 초당 8,932토큰.

이 수치는 단순한 성능표가 아닙니다.

초거대 AI를 실제 서비스로 만들기 위해 필요한 인프라 기술의 증거입니다.

큰 것을 만드는 시대는 지나가고 있습니다.

이제는 큰 것을 가장 잘 굴리는 자가 이깁니다.

비드래프트는 그 엔진을 만들고 있습니다.

비드래프트 공식 사이트
https://www.vidraft.net

VKAE #VIDRAFT #비드래프트 #추론가속 #초거대AI #MoE #GPU최적화 #B200 #소버린AI #AI인프라 #HuggingFace

DEV Community

397B급 거대 모델을 단일 GPU 노드에서 초당 121.9토큰으로.

VKAE #VIDRAFT #비드래프트 #추론가속 #초거대AI #MoE #GPU최적화 #B200 #소버린AI #AI인프라 #HuggingFace

Top comments (0)