구글은 2026년 6월 3일 Gemma 4 12B를 출시했습니다. 이 모델은 119억 5천만 개의 매개변수를 가진 오픈 웨이트 모델이며, 텍스트, 이미지, 오디오, 비디오를 입력으로 읽고 텍스트를 출력합니다. 16GB 메모리 노트북에서 실행할 수 있도록 설계되었고, 네이티브 오디오 입력을 지원하는 최초의 중형 모델이라는 점이 핵심입니다.
Gemma 4 12B가 특별한 이유는 멀티모달 처리 방식입니다. 대부분의 멀티모달 모델은 언어 모델에 비전 인코더와 오디오 인코더를 붙입니다. Gemma 4 12B는 별도의 비전 또는 오디오 인코더 없이 원시 이미지 패치와 오디오 파형을 모델에 직접 공급합니다.
결과적으로 하나의 12B 모델 파일로 다음을 처리할 수 있습니다.
- 텍스트 입력
- 이미지 입력
- 오디오 입력
- 비디오 입력
- 오프라인 실행
- Apache 2.0 기반 상업적 사용
바로 실행해 보고 싶다면 Gemma 4 12B를 무료로 사용하는 방법 가이드를 먼저 참고하세요.
Gemma 4 12B 한눈에 보기
| 사양 | 값 |
|---|---|
| 출시일 | 2026년 6월 3일 |
| 매개변수 | 11.95B, 조밀 모델 |
| 입력 | 텍스트, 이미지, 오디오, 비디오 |
| 출력 | 텍스트 |
| 컨텍스트 창 | 256K 토큰 |
| 아키텍처 | 인코더 없는 통합 멀티모달 |
| 라이선스 | Apache 2.0 |
| 실행 환경 | 16GB VRAM 또는 통합 메모리, 4비트에서 약 8GB |
| 변형 모델 |
google/gemma-4-12B, google/gemma-4-12B-it
|
핵심 요약
Gemma 4 12B는 Google DeepMind의 조밀한 120억 매개변수 오픈 모델입니다. 텍스트, 이미지, 오디오, 비디오를 입력으로 받고 텍스트를 반환합니다.
개발자가 주목할 부분은 다음입니다.
- 256K 토큰 컨텍스트 창
- 네이티브 도구 호출
- 선택적 단계별 추론 모드
- 소비자 하드웨어에서 로컬 실행 가능
- Apache 2.0 라이선스
이 모델은 Gemma 4 제품군에서 중간 위치에 있습니다. 구글은 12B를 에지 친화적인 E4B 모델과 더 큰 26B MoE 모델 사이의 가교로 설명합니다. 26B 모델보다 훨씬 적은 메모리를 사용하면서도 여러 벤치마크에서 26B에 가까운 품질을 제공하는 것이 목표입니다.
Gemma 4 제품군에서 12B의 위치
Gemma 4는 한 번에 모두 출시되지 않았습니다. E2B, E4B, 26B, 31B 모델은 2026년 3월 31일에 먼저 출시되었고, 12B는 6월 3일에 추가되었습니다.
| 모델 | 크기 | 컨텍스트 | 참고 |
|---|---|---|---|
| Gemma 4 E2B | 2.3B 유효, 5.1B 원시 | 128K | 온디바이스, 오디오 입력 |
| Gemma 4 E4B | 4.5B 유효, 8B 원시 | 128K | 소형, 오디오 입력 |
| Gemma 4 12B | 11.95B 조밀 | 256K | 인코더 없는 구조, 오디오 입력 |
| Gemma 4 26B A4B | 4B 활성, 26B 총계 | 256K | Mixture-of-Experts |
| Gemma 4 31B | 31B 조밀 | 256K | 최첨단 성능 |
12B는 제품군에서 인코더 없는 설계로 구축된 유일한 모델입니다. 다른 모델들은 전통적인 비전 인코더를 유지하고, 더 작은 두 모델에는 컨포머 오디오 인코더가 포함됩니다.
오픈 모델 간 비교가 필요하다면 MiniMax M3, DeepSeek V4, Qwen 3.7 비교와 오픈 웨이트 가격 전쟁을 함께 참고하세요.
“인코더 없는” 구조가 의미하는 것
일반적인 멀티모달 모델은 다음 흐름으로 동작합니다.
- 비전 인코더가 이미지를 임베딩으로 변환
- 오디오 인코더가 소리를 임베딩으로 변환
- 프로젝터가 각 임베딩을 언어 모델 공간으로 매핑
- 언어 모델이 최종 응답 생성
이 방식은 비전 인코더, 오디오 인코더, 프로젝터를 따로 로드하고 튜닝하고 메모리에 유지해야 합니다.
Gemma 4 12B는 이 구조를 단순화합니다.
- 비전: 경량 임베딩 모듈이 원시 이미지 패치를 모델의 임베딩 공간으로 직접 투영합니다.
- 오디오: 별도의 오디오 인코더 없이 원시 오디오를 텍스트 토큰과 같은 차원 공간으로 투영합니다.
즉, 모든 모달리티가 하나의 모델 경로로 들어갑니다.
텍스트 ┐
이미지 ├─> Gemma 4 12B ─> 텍스트 출력
오디오 ┤
비디오 ┘
소형 하드웨어에서 긴 컨텍스트를 처리하기 위해 다음 설계도 사용됩니다.
레이어별 임베딩, PLE
각 디코더 레이어가 작은 전용 임베딩을 사용합니다. 토큰 식별 조회와 컨텍스트 인식 투영을 혼합해 레이어 특화를 돕고 매개변수 비용을 줄입니다.공유 KV 캐시
마지막 몇 개 레이어가 자체 키-값 텐서를 계산하지 않고 이전 레이어의 키-값 텐서를 재사용합니다. 긴 컨텍스트와 온디바이스 실행에서 메모리 사용량을 줄이는 데 도움이 됩니다.
구글은 추측 디코딩을 위한 Multi-Token Prediction, MTP 드래프터도 제공합니다. 출력 품질을 바꾸지 않고 엔드투엔드 추론 속도를 약 3배까지 높일 수 있다고 설명합니다.
네이티브 오디오와 멀티모달 입력 사용 사례
많은 오픈 모델은 이미지를 읽을 수 있습니다. Gemma 4 12B는 텍스트와 비전을 처리하는 같은 모델에서 오디오까지 네이티브로 처리하는 중형 모델입니다.
실제로 만들 수 있는 기능은 다음과 같습니다.
- 자동 음성 인식 및 전사
- 화자 분리
- 비음성 소리에 대한 오디오 질의응답
- 오디오가 포함된 비디오 이해
- 이미지 캡셔닝
- 객체 및 UI 감지
- 시각적 추론
멀티모달 프롬프트를 구성할 때는 입력 순서가 중요합니다. 채팅 템플릿은 일반적으로 텍스트 프롬프트 앞에 이미지 콘텐츠를 두고, 그 뒤에 오디오를 배치하는 형식을 예상합니다. 출력은 모든 경우에 텍스트입니다.
[이미지 입력]
[오디오 입력]
[텍스트 프롬프트]
=> 텍스트 응답
Gemma 4 12B의 성능
다음은 Hugging Face 모델 카드에 공개된 gemma-4-12B-it 점수입니다.
| 벤치마크 | Gemma 4 12B-it |
|---|---|
| MMLU Pro, 추론 | 77.2% |
| AIME 2026, 수학, 도구 없음 | 77.5% |
| GPQA Diamond, 과학 | 78.8% |
| LiveCodeBench v6, 코딩 | 72.0% |
| Codeforces, ELO | 1659 |
| MMMU Pro, 비전 | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-needle, 긴 컨텍스트 | 43.4% |
제품군 내에서 비교하면 다음과 같습니다.
| 벤치마크 | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
패턴은 명확합니다. 12B는 E4B보다 크게 앞서고, 26B MoE에 가까운 성능을 보입니다. 더 큰 모델의 품질 대부분을 로컬 기기에서 실행 가능한 메모리 범위로 가져오는 것이 12B의 장점입니다.
Gemma 3와 비교해 달라진 점
Gemma 3를 사용해 봤다면 다음 차이가 중요합니다.
네이티브 오디오
Gemma 3는 텍스트와 비전 중심이었습니다. Gemma 4 12B는 사운드와 오디오가 포함된 비디오를 입력으로 처리합니다.인코더 없는 설계
별도의 비전 또는 오디오 인코더를 로드할 필요가 없습니다.256K 컨텍스트
긴 문서, 스크립트, 다중 파일 코드 분석에 더 많은 여유 공간을 제공합니다.Apache 2.0
이전 Gemma 릴리스의 커스텀 라이선스 대신 상업적 사용과 재배포에 더 단순한 Apache 2.0 라이선스를 사용합니다.
이 모델로 만들 수 있는 것
Gemma 4 12B는 클라우드 호출 없이 로컬 또는 온디바이스에서 실행되는 워크플로에 적합합니다.
예를 들면 다음과 같습니다.
- 화면과 마이크 입력을 로컬에서 처리하는 오프라인 비서
- 회의를 기록하고 화자를 분리하며 요약하는 회의 및 통화 도구
- PDF, 스크린샷, 오디오를 한 프롬프트로 처리하는 문서 및 미디어 파이프라인
- 함수 호출과 도구 사용을 활용하는 에이전트 워크플로
- 로컬 자동 완성, 리팩토링, 코드 리뷰에 활용하는 코딩 지원 도구
로컬 모델을 앱에 붙일 때는 요청과 응답 형식을 먼저 고정하는 것이 좋습니다.
예를 들어 다음 항목을 확인해야 합니다.
{
"model": "gemma-4-12B-it",
"messages": [
{
"role": "user",
"content": "이 이미지와 오디오 내용을 요약해 주세요."
}
]
}
확인할 포인트는 다음입니다.
- 요청 본문 구조
- 멀티모달 입력 필드 위치
- 응답 JSON 구조
- 에러 응답 형식
- 타임아웃과 스트리밍 처리 방식
Ollama, llama.cpp 같은 러너는 표준 채팅 인터페이스를 노출할 수 있습니다. 로컬 모델을 앱에 연결하기 전에는 Apidog 같은 도구로 로컬 엔드포인트를 저장하고, 샘플 프롬프트를 보내고, JSON 응답을 검증할 수 있습니다.
Apidog를 무료로 다운로드하면 로컬 서버에 연결해 요청과 응답을 빠르게 테스트할 수 있습니다. 자세한 실행 방법은 무료 사용 가이드를 참고하세요.
라이선스와 Apache 2.0의 의미
Gemma 4 12B는 Apache 2.0 라이선스로 공개되었습니다.
개발 관점에서는 다음이 중요합니다.
- 상업적으로 사용할 수 있습니다.
- 수정, 미세 조정, 재배포할 수 있습니다.
- 클로즈드 소스 제품에서 실행할 수 있습니다.
- 생성된 출력물은 사용자에게 귀속됩니다.
이는 구글 자체 사용 정책 약관이 적용되던 이전 Gemma 라이선스와 다른 부분입니다. Apache 2.0은 오픈 인프라에서 널리 쓰이는 허용적 라이선스이므로 기업 내부 검토에서도 상대적으로 다루기 쉽습니다.
필요한 하드웨어
구글이 목표로 한 실행 환경은 16GB 기기입니다. 여기에는 전용 VRAM 또는 Apple 스타일의 통합 메모리가 포함됩니다.
양자화에 따른 대략적인 메모리 기준은 다음과 같습니다.
| 설정 | 예상 메모리 |
|---|---|
| 최고 품질 | 약 16GB |
| 8비트 | 약 14GB |
| 4비트, Q4_K_M | 약 8GB |
따라서 다음 환경에서 실행을 고려할 수 있습니다.
- 주류 게이밍 GPU
- 16GB MacBook
- 중급 워크스테이션
- 통합 메모리 기반 개발 머신
하드웨어가 부족하다면 E2B 또는 E4B가 더 적합합니다.
구현 전에 확인할 제한 사항
Gemma 4 12B는 강력하지만 모든 작업에 적합한 모델은 아닙니다. 모델 카드에서 언급되는 일반적인 제한은 다음과 같습니다.
- 부정확하거나 오래된 사실을 생성할 수 있습니다.
- 훈련 데이터의 편향을 반영할 수 있습니다.
- 비꼼, 뉘앙스, 비유적 언어를 일관되게 처리하지 못할 수 있습니다.
- 같은 크기의 다른 모델처럼 상식 추론에 한계가 있습니다.
- 출력 품질은 프롬프트 명확성과 제공한 컨텍스트에 크게 좌우됩니다.
실서비스에 붙일 때는 다음 방식을 권장합니다.
1. 입력 형식 고정
2. 샘플 요청 세트 작성
3. 응답 JSON 스키마 검증
4. 실패 케이스 수집
5. 프롬프트와 후처리 로직 개선
6. 중요한 사실은 별도 검증 단계 추가
Gemma 4 12B의 핵심 가치는 최첨단 클라우드 모델을 완전히 대체하는 것이 아닙니다. 데이터가 이미 있는 로컬 환경에서 강력한 멀티모달 AI를 실행할 수 있다는 점입니다.
FAQ
Gemma 4 12B는 무료인가요?
네. 가중치는 Apache 2.0 라이선스로 공개되어 있으며 Hugging Face와 Kaggle에서 무료로 다운로드할 수 있습니다. 모델을 실행하는 하드웨어 또는 클라우드 비용만 부담하면 됩니다. Gemma 4 12B를 무료로 사용하는 방법을 참고하세요.
Gemma 4 12B가 실제로 오디오를 이해할 수 있나요?
네. 원시 오디오를 입력으로 받아 음성을 전사하고, 화자를 식별하며, 소리에 대한 질문에 답할 수 있습니다. 별도의 음성 모델을 거치지 않고 네이티브로 처리하는 중형 모델입니다.
gemma-4-12B와 gemma-4-12B-it의 차이는 무엇인가요?
gemma-4-12B는 기본 사전 훈련 모델입니다. gemma-4-12B-it는 채팅, 도구 사용, 지시 따르기에 맞춰 튜닝된 버전입니다. 일반적인 앱 개발과 챗봇 구현에는 대부분 -it 버전이 적합합니다.
12B는 26B 및 31B와 어떻게 다른가요?
12B는 조밀 모델이고 인코더가 없으며 16GB 기기에 최적화되어 있습니다. 26B는 Mixture-of-Experts 모델로 4B 활성, 26B 총계 구조입니다. 31B는 더 큰 조밀 모델로 최첨단 품질을 목표로 합니다. 두 큰 모델은 벤치마크 점수가 더 높지만 더 많은 메모리가 필요합니다.
Gemma 4 12B는 도구 호출을 지원하나요?
네. 텍스트 및 멀티모달 함수 호출을 지원합니다. 선택적 사고 모드도 제공하므로 단계별 추론이 필요한 에이전트 워크플로에 활용할 수 있습니다.
Gemini 3.5와 어떻게 비교되나요?
역할이 다릅니다. Gemini 3.5는 구글의 호스팅형 최첨단 모델입니다. 자세한 내용은 Gemini 3.5란 무엇인가를 참고하세요. Gemma 4 12B는 사용자가 직접 실행하는 오픈 모델입니다. 최고 품질 일부를 포기하는 대신 개인 정보 보호, 오프라인 실행, 토큰당 비용 없음이라는 장점을 얻습니다.

Top comments (0)