Gemma 4 12B는 오픈 웨이트(open-weights) 모델이며 Apache 2.0 라이선스가 적용됩니다. 여기서 “무료”는 API 사용료나 구독료 없이 모델을 다운로드해 직접 실행할 수 있다는 뜻입니다. 비용은 모델을 실행하는 로컬 하드웨어 또는 사용자가 선택한 클라우드 리소스뿐입니다.
먼저 알아둘 점이 있습니다. 12B 모델은 로컬 및 온디바이스 실행을 목표로 만들어졌습니다. 더 큰 31B와 26B 모델은 Google AI Studio에서 무료 채팅용으로 호스팅됩니다. 12B의 핵심은 16GB급 노트북에서도 실행할 수 있다는 점입니다. 모델 사양이 궁금하다면 Gemma 4 12B란 무엇인가요를 참고하십시오.
아래는 브라우저 데모부터 로컬 OpenAI 호환 API까지, Gemma 4 12B를 무료로 실행하는 6가지 방법입니다.
빠른 요약
| 방법 | 얻을 수 있는 것 | 가장 적합한 용도 |
|---|---|---|
| Hugging Face Space | 브라우저 채팅, 설치 불필요 | 1분 안에 테스트 |
| Ollama | 로컬 모델 + OpenAI 호환 API | 개발자, 빠른 로컬 API |
| LM Studio | GUI 기반 로컬 데스크톱 앱 | 터미널 없이 실행 |
| llama.cpp | 경량 로컬 API 서버 | 고급 설정, 저사양 하드웨어 |
| HF Transformers | Python 제어, Colab GPU 활용 | 노트북, 실험, 미세 조정 |
| Google AI Edge | 온디바이스 및 모바일 실행 | 휴대폰, 엣지 디바이스 |
방법 1: 브라우저에서 바로 테스트하기
가장 빠른 방법은 Hugging Face의 공식 데모 Space를 사용하는 것입니다. 설치, 계정, 로컬 GPU가 필요 없습니다.
- Gemma 4 12B 데모 Space를 엽니다.
- 프롬프트를 입력합니다.
- 필요한 경우 이미지 또는 오디오 클립을 업로드합니다.
- 응답을 확인합니다.
이 방법은 모델의 출력 품질과 멀티모달 입력을 빠르게 확인할 때 적합합니다. 실제 애플리케이션에 연결하려면 아래 로컬 실행 방식 중 하나를 선택하는 것이 좋습니다.
방법 2: Ollama로 로컬 API 실행하기
Ollama는 Gemma 4 12B를 로컬에서 실행하고 OpenAI 호환 API까지 얻는 가장 간단한 방법입니다.
1. Ollama 설치
macOS 또는 Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows에서는 ollama.com에서 설치 프로그램을 다운로드해 실행합니다.
2. 모델 다운로드 및 실행
ollama pull gemma4:12b
ollama run gemma4:12b
첫 번째 명령은 모델을 다운로드합니다. 기본적으로 4비트 Q4_K_M 빌드를 사용하며 크기는 약 8GB입니다.
두 번째 명령은 대화형 채팅을 시작합니다. 종료하려면 다음을 입력합니다.
/bye
3. 로컬 OpenAI 호환 API 호출
Ollama는 기본적으로 다음 주소에서 API를 제공합니다.
http://localhost:11434
예시 요청:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Explain how transformers work in two sentences."
}
]
}'
OpenAI 호환 SDK나 도구를 사용한다면 base URL만 다음으로 바꾸면 됩니다.
http://localhost:11434/v1
IDE나 에이전트 도구에 연결하는 패턴은 Cursor에서 DeepSeek V4 사용법 안내와 유사합니다. 모델 이름만 gemma4:12b로 지정하면 됩니다.
자주 쓰는 Ollama 명령:
ollama list
ollama ps
ollama show gemma4:12b
-
ollama list: 다운로드된 모델 확인 -
ollama ps: 실행 중인 모델 확인 -
ollama show gemma4:12b: 모델 세부 정보 확인
방법 3: LM Studio로 GUI에서 실행하기
터미널을 사용하고 싶지 않다면 LM Studio를 사용하십시오. Windows, macOS, Linux에서 실행되는 데스크톱 앱입니다.
- LM Studio를 다운로드하고 설치합니다.
- 모델 카탈로그에서 Gemma 4 12B를 검색합니다.
- RAM에 맞는 양자화 버전을 선택합니다.
- 모델을 다운로드합니다.
- Chat 탭에서 프롬프트를 입력합니다.
LM Studio는 로컬 서버도 실행할 수 있으며, 일반적으로 다음 주소에서 OpenAI 호환 엔드포인트를 제공합니다.
http://localhost:1234/v1
GUI로 모델을 테스트하면서 동시에 API 엔드포인트도 확보하고 싶을 때 적합합니다.
방법 4: llama.cpp로 경량 서버 실행하기
llama.cpp는 GGUF 모델을 낮은 오버헤드로 실행할 수 있는 경량 런타임입니다. OpenAI 호환 서버도 제공합니다.
1. 설치
macOS:
brew install llama.cpp
Windows:
winget install llama.cpp
2. 서버 실행
Hugging Face에서 ggml-org/gemma-4 컬렉션을 확인한 뒤, 사용할 GGUF 리포지토리를 llama-server에 전달합니다.
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
서버는 기본적으로 다음 주소에서 OpenAI 호환 API를 노출합니다.
http://localhost:8080/v1
llama.cpp는 다음 상황에 적합합니다.
- 의존성을 최소화하고 싶을 때
- 저사양 하드웨어에서 실행할 때
- 런타임 옵션을 세밀하게 조정하고 싶을 때
- Ollama보다 더 직접적으로 GGUF 모델을 다루고 싶을 때
방법 5: Hugging Face Transformers로 Python에서 실행하기
노트북, Python 스크립트, 실험, 미세 조정 흐름이 필요하다면 Hugging Face Transformers를 사용하십시오. 로컬 GPU가 없다면 무료 Google Colab 환경을 사용할 수 있습니다.
1. 라이브러리 설치
pip install transformers torch accelerate torchvision
pip install librosa
librosa는 오디오 입력을 사용할 때 필요합니다.
2. 모델 로드 및 생성
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(
**inputs,
max_new_tokens=1024,
)
response = processor.decode(
outputs[0][input_len:],
skip_special_tokens=False,
)
print(processor.parse_response(response))
단계별 추론 모드를 사용하려면 다음 값을 바꿉니다.
enable_thinking=True
이미지 또는 오디오 입력을 사용하려면 메시지의 content를 텍스트 문자열이 아니라 콘텐츠 목록으로 구성합니다.
- 이미지: 텍스트 앞에
{"type": "image", ...}추가 - 오디오: 텍스트 뒤에
{"type": "audio", ...}추가
Kaggle에서 가중치를 받는 방식도 사용할 수 있습니다. 전체 코드 패턴은 개발자 가이드를 참고하십시오.
방법 6: Google AI Edge로 온디바이스 실행하기
휴대폰 또는 엣지 디바이스에서 Gemma 4 12B를 실행하려면 Google AI Edge 스택을 사용할 수 있습니다.
Google AI Edge Gallery 앱과 LiteRT-LM CLI는 모두 12B 모델의 온디바이스 실행을 지원합니다.
LiteRT-LM으로 로컬 서버를 준비하는 예시는 다음과 같습니다.
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
이 방식은 다음과 같은 앱에 적합합니다.
- 오프라인 모바일 어시스턴트
- 온디바이스 챗봇
- 데이터가 장치를 벗어나면 안 되는 앱
- 임베디드 또는 엣지 하드웨어 기반 기능
Apidog로 로컬 Gemma 4 12B API 테스트하기
Ollama 또는 llama.cpp로 Gemma 4 12B를 실행하면 로컬 머신에 HTTP API가 생깁니다. 애플리케이션 코드에 바로 연결하기 전에 요청과 응답 형식을 API 클라이언트에서 먼저 검증하는 것이 좋습니다. Apidog를 사용하면 이 과정을 빠르게 확인할 수 있습니다.
1. 프로젝트 만들기
- Apidog를 다운로드합니다.
- 새 HTTP 프로젝트를 생성합니다.
- 새
POST요청을 추가합니다.
Ollama를 사용하는 경우 URL은 다음과 같습니다.
http://localhost:11434/v1/chat/completions
llama.cpp를 사용하는 경우 base URL은 다음과 같습니다.
http://localhost:8080/v1
2. 요청 본문 추가
Body를 JSON으로 설정하고 다음 페이로드를 입력합니다.
{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Return a JSON object with two fields: city and country."
}
],
"stream": false
}
3. 환경 변수로 서버 전환하기
Apidog 환경 변수에 base URL을 저장하면 Ollama와 llama.cpp를 쉽게 전환할 수 있습니다.
예시:
OLLAMA_BASE_URL=http://localhost:11434/v1
LLAMA_CPP_BASE_URL=http://localhost:8080/v1
요청 URL은 다음처럼 관리할 수 있습니다.
{{OLLAMA_BASE_URL}}/chat/completions
또는:
{{LLAMA_CPP_BASE_URL}}/chat/completions
4. 응답 검증하기
다음 항목을 확인합니다.
- HTTP 상태 코드가 성공인지
-
choices배열이 존재하는지 - 응답의
content필드가 있는지 - JSON 출력을 요구한 경우 실제로 유효한 JSON인지
스트리밍 응답도 확인하려면 요청 본문을 다음처럼 바꿉니다.
{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Write a short explanation of local LLM APIs."
}
],
"stream": true
}
이렇게 하면 UI를 구현하기 전에 스트리밍 토큰이 정상적으로 내려오는지 확인할 수 있습니다.
API 클라이언트를 비교하고 있다면 무료 온라인 API 테스트 도구와 최고의 Postman 대안을 참고하십시오. 같은 테스트 흐름은 OpenAI 호환 엔드포인트 전반에 적용되며, Postman으로 API 테스트하는 방법과도 유사합니다.
어떤 양자화를 선택해야 할까요?
Gemma 4 12B는 압축 강도에 따라 필요한 메모리가 달라집니다.
| 빌드 | 필요한 메모리 | 장단점 |
|---|---|---|
| 풀 정밀도 | 약 16GB | 최고 품질 |
| 8비트 | 약 14GB | 거의 풀 품질 |
| 4비트 Q4_K_M | 약 8GB | 약간의 품질 저하, 더 넓은 하드웨어에서 실행 가능 |
Ollama는 기본적으로 4비트 빌드를 사용합니다. 그래서 8GB GPU 또는 16GB 통합 메모리 MacBook에서도 실행할 수 있습니다.
선택 기준은 간단합니다.
- 메모리가 제한적이면 4비트
- 품질을 조금 더 우선하면 8비트
- 충분한 메모리와 GPU가 있으면 풀 정밀도
모델이 디스크로 스왑되기 시작하면 응답 속도가 크게 느려집니다. 메모리에 안정적으로 올라가는 빌드를 선택하는 것이 중요합니다.
어떤 무료 방법을 선택해야 할까요?
상황별 추천은 다음과 같습니다.
- 빠르게 체험만 하고 싶다면: Hugging Face Space
- 앱을 개발한다면: Ollama
- 터미널 없이 쓰고 싶다면: LM Studio
- 가볍고 세밀한 실행 환경이 필요하다면: llama.cpp
- Python 노트북 또는 실험이 목적이라면: Hugging Face Transformers
- 모바일 또는 엣지 디바이스가 목표라면: Google AI Edge
대부분의 개발자에게는 다음 조합이 현실적입니다.
- Ollama로 로컬 API 실행
- Apidog에서 요청과 응답 검증
- 필요한 경우 Transformers로 더 깊은 실험 진행
무료 로컬 Gemma를 더 잘 사용하는 팁
- 양자화를 RAM에 맞추십시오. 메모리가 부족해 스왑이 발생하면 모델이 매우 느려집니다.
- 기본값은 4비트로 시작하십시오. 대부분의 로컬 개발 환경에서 가장 안전합니다.
-
복잡한 문제에는 사고 모드를 사용하십시오. Transformers에서는
enable_thinking=True를 설정할 수 있습니다. -
간단한 채팅에는 사고 모드를 끄십시오. 빠른 응답이 필요하면
enable_thinking=False가 더 적합합니다. - 프롬프트를 컨텍스트 창 안에 유지하십시오. 256K 창이 크더라도 긴 코드베이스나 로그는 빠르게 누적됩니다.
- 앱에 붙이기 전에 Apidog에서 요청을 검증하십시오. 필드 이름, JSON 구조, 스트리밍 응답을 먼저 확인할 수 있습니다.
- 다른 무료 모델과 같은 방식으로 비교하십시오. 동일한 로컬 실행 패턴은 Qwen 3.7, MiniMax M3, Claude Opus 4.8 접근 방식에도 적용됩니다.
자주 묻는 질문
Gemma 4 12B는 정말 무료인가요?
네. Apache 2.0 오픈 웨이트 모델이며, 상업적 용도를 포함해 무료로 다운로드하고 실행할 수 있습니다. 단, 모델을 실행하는 하드웨어 또는 클라우드 비용은 사용자가 부담합니다.
GPU가 필요한가요?
필수는 아닙니다. 하지만 GPU가 있으면 훨씬 빠릅니다. 4비트 빌드는 8GB GPU 또는 16GB 통합 메모리 Mac에서 실행할 수 있습니다. CPU만으로도 실행은 가능하지만 속도는 느립니다.
Google AI Studio에서 Gemma 4 12B를 사용할 수 있나요?
현재는 사용할 수 없습니다. Google AI Studio는 31B와 26B 모델을 무료 브라우저 채팅용으로 호스팅합니다. 12B는 로컬 및 온디바이스 실행을 목표로 하므로 직접 실행해야 합니다.
로컬 API에 API 키가 필요한가요?
아니요. Ollama와 llama.cpp는 localhost에서 키 없이 모델을 제공합니다. 사용하는 도구가 API 키 입력을 요구한다면 임의의 문자열을 넣어도 됩니다. 로컬 서버는 이를 무시합니다.
기존 OpenAI 코드에서 호출할 수 있나요?
네. Ollama와 llama.cpp는 OpenAI 호환 엔드포인트를 제공합니다.
Ollama:
http://localhost:11434/v1
llama.cpp:
http://localhost:8080/v1
기존 코드에서 base URL과 모델 이름만 바꾸면 됩니다.
이미지 및 오디오 기능은 어떻게 실행하나요?
멀티모달 입력을 지원하는 Transformers, LM Studio 또는 AI Edge 앱을 사용하십시오. 일반적으로 이미지 콘텐츠는 텍스트 프롬프트 앞에, 오디오 콘텐츠는 텍스트 프롬프트 뒤에 추가합니다.
Ollama와 llama.cpp 중 어느 쪽이 더 빠른가요?
둘 다 유사한 기반 엔진을 사용합니다. llama.cpp는 오버헤드가 적고 튜닝 옵션이 더 많습니다. Ollama는 설정이 더 쉽습니다. 대부분의 일반 개발 환경에서는 설정 편의성 때문에 Ollama부터 시작하는 것이 좋습니다.




Top comments (0)